Фильтрация ботов в конфигурации varnish

Кроме полезных роботов, существует масса «пауков», сканеров, которые создают лишь избыточную нагрузку на ваш сайт, увеличивая время отклика сервера на запросы реальных пользователей.

Более менее приличные боты сообщают о том, кто они, представляясь в заголовках запроса User-Agent. Например:

Обычно заголовки содержат имя бота и url сайта, где назначение робота описано более подробно.

Если вы используете varnish в качестве кеша, то благодаря этой информации можно настроить фильтр, запрещающий определенным роботам получать информацию с вашего сайта. Вместо этого вы будете возвращать, к примеру, код 403 — доступ запрещен.

Отключить ahrefs бота из примера выше (используя синтаксис varnish v4) можно вот так:

Посмотрите логи собственного сервера, чтобы найти кандидатов для фильтрации, но в качестве хорошего старта можно воспользоваться готовым решением — проект bad_bot_detection.

Здесь уже собраны более 120 фильтров, а вы можете всегда дополнить список собственными кандидатами.

Написать комментарий

Мало букафф? Читайте есчо !

Удалить все cookie, кроме нужных в конфигурации Varnish

Май 6, 2019 г.

При кешировании в varnish возникает вопрос, какие данные использовать для генерации хеш-функции кеша. Типично используют req.url и reg.http.Cookie. Но включение куки приводит к тому, что страницы не попадают в кеш Varnish. Типовая генерация хеша ...

Читать

Диагностика varnish, полезные команды

Май 30, 2018 г.

Занимался пару дней перетряхиванием конфигурации varnish на веб-сервере, решил запротоколировать некоторые моменты, если вдруг понадобится на будущее. ...

Читать

 

Комментарии к «Фильтрация ботов в конфигурации varnish»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: