В условиях высокой конкуренции в интернете, владельцы сайтов стараются сделать свой портал уникальным, добавляя туда новый контент, который не был использован нигде ранее. Но также в сети достаточно создателей сайтов, которые не хотят делать что-то свое, а предпочитают использовать чужие материалы в своих целях – в этом и состоит задача автоматических систем парсинга. Парсеры позволяют использовать чужой контент, и выдавать его за свой. Поисковые системы начинают понижать в рейтинге чужие сайты с оригинальным контентом и поднимать сайты мошенников. Есть несколько эффективных методов зашиты сайта от парсинга.
Что может сделать владелец сайта для его защиты от парсинга?
Многие владельцы площадок добавляют капчи, которые эффективны против автоматических систем, но доставляют неудобства обычным пользователям. Им приходится вводить текст с картинки, который плохо идентифицируется, разгадывать графические капчи, соответственно, процесс ввода может затянуться. Более современным методом защиты сайта от парсинга является анализ трафика от пользователей, позволяющий понять, настоящий пользователь пытается попасть на сайт или это делает компьютерная программа-бот. Классическим примером подобного сервиса для анализа трафика выступает reCAPTCHA. Каждому клиенту сайта Google назначает числовое значение, которое говорит о том, бот это или реальный пользователь:

- Высокое значение, от 0.9 до 0.4 говорит о том, что с большей долей вероятности клиент является реальным пользователем. Чем выше число, тем выше данная вероятность. В такой ситуации ресурс не будет создавать дополнительных проверок идентификации пользователя.
- Если пользователь получит значение, равное 0,3, то это говорит, что он, скорее, реальный пользователь, чем бот. Во время подозрительной активности, пользователю может быть предложено разгадать капчу.
- Значение 0.1 говорит о том, что пользователь – бот.
Выполнение анализа траффика нужно не только для того, чтобы понимать, кто зашел на сайт, но и для того, чтобы выстраивать свои дальнейшие действия. При низких значениях нет смысла выводить рекламные баннеры, так как уникальных переходов все равно не будет, и владелец площадки ничего с этого не заработает. Но и значение, равное 0.1 не говорит со стопроцентной вероятностью, что на ресурс вошел бот. Проверять пользователей нужно с низким значением, причем, если при 0.1 делать проверки нужно всегда, то для пользователей с 0.3 нужно делать это периодически.
Также имеет смысл использовать на сайте cookies, и тогда защита сайта от парсинга упроститься – проведенные ранее результаты проверки будут сохранены, и постоянные пользователи не будут вынуждены каждый раз разгадывать капчу при входе на портал. При этом, даже анализ траффика не является панацей, так как есть сервисы, позволяющие за деньги разгадывать различные виды капч в автоматическом режиме. Например, услуги reCAPTCHA стоят от 160 рублей за 1000 решенных капч. Для создателя мотивированного траффика это не деньги, учитывая результат, который он может получить.
Специфика создания ловушки для ботов
Капча на сайте может выводиться для отдельных пользователей с подозрительной деятельностью, но это ничего не гарантирует. Существуют также профилактические меры, способные заранее разработать стратегию защиты от ботов. Речь идет про honeypot. Метод подразумевает создание приманок для ботов, которые будут собирать данные о них и формировать их список. Далее будет ясна стратегия действия таких ботов и перечень средств, с помощью которых может быть нанесен удар порталу и его серверам. Собранной информацией будут пользоваться специалисты в сфере безопасности сайтов. Ловушка представлена в виде ссылки, куда заходить будут только боты. Это может быть прозрачной картинкой минимального размера, по которой реальный пользователь никогда кликать не будет.
Выполнение анализа свойств IP-адреса
Выявить, зашел на сайт реальный пользователь или робот, можно путем изучения свойств IP-адреса. Маркером является значение type – у реальных пользователей там прописывается значение isp, тогда как боты имеют значение hosting или business.
Метод не является на сто процентов точным, так как при использовании прокси-серверов, свойства реального IP-адреса могут быть изменены. Результатом такого анализа является сбор подозрительных пользователей и дальнейшая блокировка их доступа на сайт. Блокировать доступ имеет смысл в следующих ситуациях:
- Если нагрузка на ресурс начнет аномально расти при входе пользователя, что приведет к проблемам с загрузкой сайта и для других пользователей.
- Перекрывать доступ нужно при попытках парсинга.
- Также нужно заносить пользователей в черный список при выполнении DDoS атаки на площадку.
Не все боты несут опасность для сайта, поэтому блокировать весь список роботов нельзя. В противном случае на сайт не попадут краулеры поисковиков и социальных сетей – они используются для загрузки данных с площадки, предназначенных для предпросмотра ссылок. От этого пострадает сам ресурс.
Задача владельца площадки сделать защиту сайта от парсинга таким образом, чтобы она распознавала белых и черных роботов. Черные роботы должны быть помещены в стоп-лист, тогда как белые роботы должны попадать на ресурс без трудностей. Для этого выполняется анализ IP адресов роботов и разделение их на два списка. Большой проблемой для владельцев ресурса является создание белого списка роботов, так как в процессе идентификации приходится обрабатывать большое количество информации. У опытных менеджеров проектов есть наработанные методики быстрой идентификации белых роботов, которые не несут опасности порталу. Белые роботы имеют PTR запись, тогда как черные роботы имеют данную запись реже. Такой анализ подходят только для проверки ботов. Пользовательский траффик не использует записи RTR для получения имени хоста.
Использование сервисов для защиты сайтов от парсинга
Владелец сайта сам может решить, какой использовать сервис – бесплатный или платный. Популярным сервисом является CloudFlare и Distil Networks .CloudFlare, где есть как бесплатные, так и более эффективные платные тарифы. Сервис выдает капчи пользователям, при появлении которых начинает резко возрастать нагрузка. Есть смысл использовать такой сервис на сайтах конструкторах или при создании сети PBN сайтов. Так как сайты PBN находятся на одном сервере, но имеют разные IP адреса, то при использовании CloudFlare перестанет работать только атакованный сайт, а не вся сеть.
Коммерческие, развлекательные и другие порталы с высокой посещаемостью должны использовать более эффективные методы защиты сайта при парсинге. Это системы на основе Google reCAPTCHA, которые будут анализировать траффик роботов. Проблема в том, что даже платные решения, по типу Distil Networks, дать полную защиту не могут. Мошенникам придется тратить больше средств на парсинг, но они все равно смогут это сделать, если сильно захотят и достаточно вложат денег на атакующие мероприятия.
Популярные вопросы
Что нужно понимать под парсингом сайта?
Парсингом сайта называется комплекс мер по извлечению данных с сайта. Впоследствии скопированный контент может использоваться для разных целей, например для продвижения иных сайтов или аналитики.
Что могут преследовать пользователи, применяя методы парсинга?
Целью является получение той или иной полезной информации с сайта конкурента, а как эту информацию использовать, решает уже сам мошенник. Он может выполнить следующее:
- Скопировать чужую статью, немного переделать ее, и поставить на другом портале, без ссылки на оригинальный текст.
- Скопировать отзывы пользователей.
- Изучить данные с площадки, которые могут быть полезны конкурентам, например, это цены на товары.
- Проанализировать выполненные изменения на площадке, изучить новостной поток сайта, если он получает доступ к ним первым, скопировать данные о погоде и прочее.
При помощи парсинга можно сильно затруднить жизнь конкуренту, так как бот может добавить товары на сайт, причем, в массовом количестве. Это повлияет на аналитику сайта и на его дальнейшую деятельность. В конечном счете, в базе ресурса, у которого не была грамотно организована защита сайта при парсинге, будут накапливаться ненужные данные.
Насколько законными являются действия мошенников при парсинге?
Тут все упирается в местное законодательство, но в большинстве стран мошенникам ничего не будет. Другой вопрос – копирование оригинального контента, за выполнение которого может наступить ответственность. В США есть несколько законов, которые позволяют бороться от парсинга или копирования контента. Для действия такого закона нужно, чтобы пострадавший ресурс относился к компании-юридическому лицу в США. Речь идет про законы об авторском праве, про закон компьютерном мошенничестве и злоупотреблениях.
Как защитить сайт от парсинга? Альтернативные методы
Кроме перечисленных мер по защите, имеет смысл разместить информацию с Правилами пользования сайта, где будет написано о запрете копирования информации и последствиях, которые наступят при обнаружении попыток парсинга. Но даже такие записи не имеют правового статуса, поэтому мошенник может выйти из ситуации без последствий. Более действенным методом выступает блокировка пользователя IP-адреса по определенному критерию. Есть такие критерии, как:
- Блокировка при наличии определенного значения в PTR записи.
- Блокировки при наличии определенного значения в строке user agent.
- Блокировка при использовании файла robots.
- Занесение пользователя в черный список при наличии избыточного траффика.
- Занесение в черный список при изменении имен классов, верстки страниц и их стилей.
Сайт может иметь интеллектуальную систему анализа поведения пользователя на странице. Чтобы понять, как защитить сайт от парсинга, можно сравнить поведение реального пользователя и пользователя-робота. Системой анализируется поведение его на площадке — движение курсора, координаты нажатия на кнопки и другие характерные признаки.
Выводы
Владельцы сайтов, особенно с высоким уровнем посещения пользователей, должны быть готовы к тому, что их контент может быть украден. Поэтому перед тем, как заводить свой ресурс, нужно понять, как защищается сайт от парсинга и какие методы защиты наиболее эффективны. Процедура парсиннга настраивается довольно просто, так как требуется только настроить сканирование данных, их извлечение и дальнейшую публикацию на новом портале. Если никаких мер защиты не предпринимать, то оригинальный сайт начнет терять свой траффик.
Избежать проблем в будущем можно при помощи профилактических мер. Например, стоит использовать систему Google reCAPTCHA, что позволит проверить траффик роботов и разделить их на два списка – разрешенных роботов и заблокированных ботов. Система анализа и блокировки роботов должна быть настроена на работу в автоматическом режиме. Также с парсингом можно бороться путем внедрения проверок при помощи графических капч. В результате этого нагрузка на сайт уменьшиться, скорость загрузки страницы будет выполняться быстрее, появится защита от спама, от подбора паролей, от несанкционированного анализа площадки от конкурентов.
Мало понимать, как защищается сайт от парсинга, нужно еще и проанализировать, как методы защиты повлияют на обычных пользователей. С неудобствами столкнется только часть активной аудитории, так как анализ рисков выполняется в фоновом режиме. Пользователям придется лишь иногда вводить капчу, если система заподозрит подозрительные действия.