Фильтрация ботов в конфигурации varnish

Кроме полезных роботов, существует масса «пауков», сканеров, которые создают лишь избыточную нагрузку на ваш сайт, увеличивая время отклика сервера на запросы реальных пользователей.

Более менее приличные боты сообщают о том, кто они, представляясь в заголовках запроса User-Agent. Например:

Обычно заголовки содержат имя бота и url сайта, где назначение робота описано более подробно.

Если вы используете varnish в качестве кеша, то благодаря этой информации можно настроить фильтр, запрещающий определенным роботам получать информацию с вашего сайта. Вместо этого вы будете возвращать, к примеру, код 403 — доступ запрещен.

Отключить ahrefs бота из примера выше (используя синтаксис varnish v4) можно вот так:

Посмотрите логи собственного сервера, чтобы найти кандидатов для фильтрации, но в качестве хорошего старта можно воспользоваться готовым решением — проект bad_bot_detection.

Здесь уже собраны более 120 фильтров, а вы можете всегда дополнить список собственными кандидатами.

Мало букафф? Читайте есчо !

Диагностика varnish, полезные команды

Май 30, 2018 г.

Занимался пару дней перетряхиванием конфигурации varnish на веб-сервере, решил запротоколировать некоторые моменты, если вдруг понадобится на будущее. ...

Читать

Как исправить ошибку upstream sent too big header while reading response header from upstream?

Январь 18, 2021 г.

Если текст подобной ошибки вы обнаружите в логах ngnix, то см. как её исправить в данной статье. Ошибка связана с недостаточным размером буфера для передачи заголовка запроса. Во-первых, надо разобраться что является в данном случае upstream-ом, ...

Читать

Ошибка конфига varnish VCL “Symbol not found: std....”

Май 24, 2018 г.

После std идет название какой либо функции стандартной библиотеки VCL. Скорее всего проблема в том, что вы не подключили std в вашей конфигурации (часто встречается при миграции конфигов). Для подключения библиотек в Си используется директива import. ...

Читать

Удалить все cookie, кроме нужных в конфигурации Varnish

Май 6, 2019 г.

При кешировании в varnish возникает вопрос, какие данные использовать для генерации хеш-функции кеша. Типично используют req.url и reg.http.Cookie. Но включение куки приводит к тому, что страницы не попадают в кеш Varnish. Типовая генерация хеша ...

Читать
 

Комментарии к «Фильтрация ботов в конфигурации varnish»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: