Фильтрация ботов в конфигурации varnish

Кроме полезных роботов, существует масса «пауков», сканеров, которые создают лишь избыточную нагрузку на ваш сайт, увеличивая время отклика сервера на запросы реальных пользователей.

Более менее приличные боты сообщают о том, кто они, представляясь в заголовках запроса User-Agent. Например:

Обычно заголовки содержат имя бота и url сайта, где назначение робота описано более подробно.

Если вы используете varnish в качестве кеша, то благодаря этой информации можно настроить фильтр, запрещающий определенным роботам получать информацию с вашего сайта. Вместо этого вы будете возвращать, к примеру, код 403 — доступ запрещен.

Отключить ahrefs бота из примера выше (используя синтаксис varnish v4) можно вот так:

Посмотрите логи собственного сервера, чтобы найти кандидатов для фильтрации, но в качестве хорошего старта можно воспользоваться готовым решением — проект bad_bot_detection.

Здесь уже собраны более 120 фильтров, а вы можете всегда дополнить список собственными кандидатами.

Написать комментарий

Мало букафф? Читайте есчо !

Ошибка конфига varnish VCL “Symbol not found: std....”

Май 24, 2018 г.

После std идет название какой либо функции стандартной библиотеки VCL. Скорее всего проблема в том, что вы не подключили std в вашей конфигурации (часто встречается при миграции конфигов). Для подключения библиотек в Си используется директива import. ...

Читать

Кросс доменные заголовки в настройках Varnish

Апрель 18, 2019 г.

Пример конфигурации для Varnish, если вы решили отдавать им CORS headers, чтобы разрешить кросс-доменные запросы. Запросы бывают простые и сложные с точки зрения спецификации CORS, где: простые запросы - это GET, POST, HEAD с заголовками из ...

Читать

 

Комментарии к «Фильтрация ботов в конфигурации varnish»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: