Обзор Semalt: веб-очистка для удовольствия и прибыли

Вы можете очистить сайт без использования API. В то время как владельцы сайтов настаивают на том, чтобы прекратить очистку, они меньше заботятся об API и вместо этого делают больший упор на сайты. Тот факт, что многие сайты недостаточно защищают от автоматического доступа, создает свободу действий для скребков. Некоторые простые обходные пути помогут вам собрать необходимые данные.

Начало работы с выскабливанием

Очистка требует понимания структуры нужных вам данных и их доступности. Это начинается с получения ваших данных. Найдите URL, который возвращает необходимую вам информацию. Просмотрите веб-сайт и проверьте, как меняются URL-адреса при переходе по различным разделам.

Также можно выполнить поиск по нескольким терминам на сайте и проверить, как меняются URL-адреса в зависимости от вашего условия поиска. Вы должны видеть параметр GET, такой как q =, который изменяется каждый раз, когда вы ищете новый термин. Сохраните параметры GET, необходимые для загрузки ваших данных, и удалите остальные.

Как справиться с нумерацией страниц

Пагинация не дает вам сразу получить доступ ко всем нужным вам данным. Когда вы нажимаете страницу 2, параметр смещения = добавляется к URL-адресу. Это либо количество элементов на странице, либо номер страницы. Увеличивайте это число на каждой странице ваших данных.

Для сайтов, которые используют AJAX, откройте вкладку сети в Firebug или Inspector. Проверьте XHR-запросы, определите и сфокусируйтесь на тех, которые извлекают ваши данные.

Получить данные из разметки страницы

Это достигается с помощью CSS-хуков. Щелкните правой кнопкой мыши определенный раздел ваших данных. Потяните Firebug или Inspector и просмотрите дерево DOM, чтобы получить максимальный <div>, который оборачивает один элемент. Получив правильный узел из дерева DOM, просмотрите исходный код страницы, чтобы убедиться, что ваши элементы доступны в необработанном HTML.

Для успешной работы сайта вам понадобится библиотека для разбора HTML, которая читает HTML и превращает его в объект, который вы можете перебирать, пока не получите то, что вам нужно. Если ваша HTTP-библиотека требует, чтобы вы установили некоторые файлы cookie или заголовки, перейдите на сайт в веб-браузере и получите заголовки, отправляемые вашим браузером. Положите их в словарь и отправьте запрос.

Когда вам нужно войти, чтобы очистить

Если вам необходимо создать учетную запись и войти в систему, чтобы получить нужные данные, вам нужна хорошая HTTP-библиотека для обработки входов в систему. Вход в Scraper открывает доступ к сторонним сайтам.

Если ограничение скорости вашего веб-сервиса зависит от IP-адреса, установите код, который подключается к веб-сервису, к Javascript на стороне клиента. Затем перешлите результаты обратно на ваш сервер от каждого клиента. Результаты появятся в очень многих местах, и ни в одном из них не будет превышен предел скорости.

Плохо сформированная разметка

Некоторые наценки могут быть сложными для проверки. В таких случаях покопайтесь в своем HTML-парсере для настроек допустимости ошибок. Либо трактуйте весь HTML-документ как длинную строку и делите строку.

В то время как вы можете очищать все виды данных в сети, некоторые сайты используют программное обеспечение, чтобы остановить очистку, а другие запрещают веб- очистку. Такие сайты могут подать в суд на вас и даже посадить вас в тюрьму за сбор их данных. Так что будьте умны во всем своем поиске в Интернете и делайте это безопасно.