Фильтрация ботов в конфигурации varnish

Кроме полезных роботов, существует масса «пауков», сканеров, которые создают лишь избыточную нагрузку на ваш сайт, увеличивая время отклика сервера на запросы реальных пользователей.

Более менее приличные боты сообщают о том, кто они, представляясь в заголовках запроса User-Agent. Например:

Обычно заголовки содержат имя бота и url сайта, где назначение робота описано более подробно.

Если вы используете varnish в качестве кеша, то благодаря этой информации можно настроить фильтр, запрещающий определенным роботам получать информацию с вашего сайта. Вместо этого вы будете возвращать, к примеру, код 403 — доступ запрещен.

Отключить ahrefs бота из примера выше (используя синтаксис varnish v4) можно вот так:

Посмотрите логи собственного сервера, чтобы найти кандидатов для фильтрации, но в качестве хорошего старта можно воспользоваться готовым решением — проект bad_bot_detection.

Здесь уже собраны более 120 фильтров, а вы можете всегда дополнить список собственными кандидатами.

Написать комментарий

Мало букафф? Читайте есчо !

Как исправить ошибку upstream sent too big header while reading response header from upstream?

Январь 18, 2021 г.

Если текст подобной ошибки вы обнаружите в логах ngnix, то см. как её исправить в данной статье. Ошибка связана с недостаточным размером буфера для передачи заголовка запроса. Во-первых, надо разобраться что является в данном случае upstream-ом, ...

Читать

Удаляем GET параметр при прохождении запроса через Varnish

Апрель 27, 2019 г.

Довольно удобно и просто удалять лишние параметры на этапе обработки запроса Varnish, если вы используете его на вашем веб сервере. Давайте посмотрим как это делается. Описанное ниже выполнялось для Varnish версии 4. Допустим вам нужно избавиться ...

Читать

 

Комментарии к «Фильтрация ботов в конфигурации varnish»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: