Бот или не бот — вот в чем вопрос

Идентификация пользователей интернета по «веб-отпечатку» (fingerprint) формирует новую реальность. Интернет теряет анонимность прямо сейчас. Это происходит не по причине насилия регулятора, а естественным путем вследствие появления доступной технологии…

Разработка cache-сервера для сохранения аккаунтов в задачах веб-парсинга

Всем привет!Одной из самых больших проблем при решении задач веб-парсинга данных является риск блокировки аккаунта. В общем случае эта проблема возникает только по одной причине – это большое количество запросов к веб-порталу за единицу времени.Существ…

Парсинг сайта Госзакупок (ЕИС закупки)

Для оценки контрагента довольно полезную информацию можно получить с сайта «ЕИС закупки», в частности из реестра недобросовестных поставщиков. Расскажу, как быстро проверить контрагентов, имея список ИНН. Читать далее…

Парсинг для взрослых или Инфраструктура для промышленного парсинга

В студенческие годы я написал на заказ много парсеров магазинов и социальных сетей. Со временем парсеры усложнялись и из скриптов превращались в полноценные веб-приложения c базой данных и Rest API. В статье описан шаблон веб-приложения, который исполь…

[recovery mode] Скрапинг с Goutte (crawler). Парсинг сайтов с использованием библиотеки Goutte

В новой записи я вам покажу PHP библиотеку для парсинга (скрапинга) сайтов. С помощью данной библиотеки вы сможете забирать любую информацию со стороннего сайта, переходить по ссылкам, автоматически отправлять формы. Читать далее…

Как получить контент веб-страницы, если по ссылке с именем хоста не получилось

Как получить контент веб-страницы, если по ссылке с именем хоста не получилось. Простым языком об использовании PHP с cURL на одном примере сайта с JavaScript-защитой. Читать далее…

Проверка контрагентов. Парсинг fedresurs

В этой статье хочу познакомить читателя с таким ресурсом, как «Единый федеральный реестр сведений о фактах деятельности юридических лиц» (fedresurs.ru), рассказать о его применимости и показать возможность прошерстить ресурс не руками по большому колич…

Как я спарсил WebGL карту с Федерального сайта

Как я спарсил WebGL карту с Федерального сайта. Написал эту статью для тех, у кого похожая задача. Читать далее