Спам в аналитике гугла. Настраиваем фильтры

Куда катится этот мир? Спам уже пихают в статистику Гугла! Я признаю, что такой ход не лишен изящества. Но, господа спамеры, имейте совесть. :)

Вот что я наблюдаю в отчете за день в списке языков:

language-spam

Почти 10% сеансов составили спамерские сеансы с длинным посланием вместо языка: «Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!».

Лично мне, наблюдать это в отчетах не очень приятно. Удивительно, но Google не спешит отфильтровывать этот трафик из статистики (хотя стоит настройка фильтровать известных ботов). Так что давайте настраивать фильтры сами, благо возможность такая есть.

filter-try

Переходим в закладку «Администратор», жмем «фильтры». Добавляем новый фильтр.

add-new-filter

fill-sample-for-google-filter

Название фильтра — обязательное поле. Тип — выбираем «пользовательский». Для значения поля фильтра «языковые настройки» вводим часть от длинной спам фразы — «Vote for Trump».

Все готово. Сохраняем.

Перед сохранением удобно проверить какой эффект оказывает фильтр. Для этого нажмите на «Проверить этот фильтр».

filter-check

Теперь можно вернуться в статистику и посмотреть изменения.

Результат фильтрации

Спам исчез не сразу после настройки фильтра. Связано это с работой аналитики, суть которой нам простым смертным не постичь.

result

Пока я составлял эту статью, добавились кое какие данные, так что числа напротив «ru» подросли. А вот спамерская строка похудела с 97 до 9. Чуть позже призыв голосовать за трампа (Vote for Trump!) исчез и вовсе.

Другой подход

На самом деле, предложенный подход не верен. Спамеру не сложно поменять фразу. И что, мы каждый раз будем менять фильтр?

Вот статистика, для примера, с другого сайта:

spam-in-google-analytics

Тут мы кроме «трампа», видим и какое то послание на китайском  и рекламу o-o-8-o-o.com. Доля спама внушительна — доходит до 15% от общего числа запросов!

Можно попробовать составить «белый список» языков. Это радикальный способ, и он теоретически, наверное, правильный. Но придется перечислить все возможные комбинации. При этом редкие и какие то новые комбинации будут отброшены, и мы их не увидим в статистике.

А что если отсекать длинные названия языков? Все «штатные» названия укладываются в 5 символов. Как составить нужный фильтр?

Попробуйте следующий шаблон:

nect-gen-filter

Т.е. будут отфильтрованы все запросы с языковыми настройками, где длина языка не менее 6 символов.

Написать комментарий

Мало букафф? Читайте есчо !

Комплекс антиспам мер, примеры для Drupal 6

Январь 17, 2013 г.

Современные средства антиспам пытаются отличить человека от робота. При этом используются разного рода captcha, различные графические пазлы и т.п. Это может работать в ряде случаев, но ситуация такова, что на войну с captcha выходят специально обученные ...

Читать

SQL скрипт для удаления комментариев не прошедших проверку

Декабрь 8, 2015 г.

Есть у меня несколько сайтов на wordpress, которые я когда то сделал в порыве энтузиазма, а теперь не занимаюсь ими особо. На днях обратил внимание, что один из них содержит > 12000 непроверенных комментариев. Комментарии я давно не публикую сразу, ...

Читать

 

Комментарии к «Спам в аналитике гугла. Настраиваем фильтры»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий:

Много комментариев в “Спам в аналитике гугла. Настраиваем фильтры”

  1. Виктор:

    Шпасибо! оченно понравилось

  2. prst:

    Спасибо! Я так понял теперь новые значения учитываться не будут. А можно как то убрать эту строчку из уже зачисленных посещениях?

  3. Адександр:

    Спасибо, все четко и понятно.