HabraTab — девайс для хаброзависимых

Что-то часто стал заглядывать в профиль после каждой новой публикации. Так вот я и решил сделать табло, которое стояло бы на столе, и показывало место в рейтинге, карму, ну и само значение очков рейтинга. Что же получилось?…

Kodi перестал обновлять информацию о фильмах, потому что TMDB заблокировал доступ пользователям из России

Kodi — это мультимедийный центр со свободным кодом, который в том числе позволяет представить все локальные файлы с фильмами в виде своего собственного собственного домашнего кинотеатра с описанием и постерами. Kodi стал для меня аналогом ТВ-приставки …

[recovery mode] Работаем с XML как с массивом, версия 2

Всем привет. Хочу поделиться с вами опытом в парсинге XML файлов размером до четырёх гигабайт. Я научу вас, как это делать быстро.В двух словах для быстрого парсинга файлов надо пользоваться XMLReder в связке с yield.О моей реализации этой связки чита…

Парсим сайты с защитой от роботов

В этой статье мы разберемся, как работает типичная защита от роботов, рассмотрим подходы к автоматическому парсингу сайтов с такой защитой, и разработаем свое решение для её обхода. В конце статьи будет ссылка на гитхаб.Речь не идет о каком-либо виде «…

Легальные инструменты для сбора данных в интернете: что они умеют и как ими пользоваться. Детальный разбор

Огромная доля информации, которая нужна для понимания потенциальных клиентов и конкурентов, уже может храниться в интернете. Но как ее получить, а после этого обработать? Долгое время единственными способами был неэффективный сбор вручную и сложная раз…

Как собрать базу организаций за час

Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе. Читать далее…

Парсили сайты, парсим и будем парсить. И не нужно этому мешать

Здравствуйте, меня зовут Максим Кульгин. Моя компания xmldatafeed.com занимается парсингом много лет. На днях мы вернули 16 000 руб. клиенту, так как не смогли парсить весь iherb.com с нужной клиенту скоростью (а там очень много товаров). Про…

Взламывают сайты после выхода статей. Пишем подробно, как защитить ваш сайт на WordPress

Меня зовут Максим Кульгин, и моя компания clickfraud занимается защитой от скликивания рекламы в «Яндекс.Директ». Каждый раз, когда мы публикуем статью, и если она вдруг становится более-менее популярной, начинается атаки на наши сайты. Атаки…

Как мы затащили MoscowCityHack2022

10-13 июня 2022 года прошел MoscowCityHack2022. Наша команда NorthShine заняла на нем первое место в первом кейсе. Задача была написать «сервис проверки поддельных новостей (fake news) в сфере технологий и инноваций». Мы провели небольшой ресерч и опр…

Самостоятельный парсинг ваших конкурентов. Топ 10 расширений для Chrome, которые не требуют программирования

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Подготовили для вас подробный обзор расширений для Chrome, с помощью которых вы можете сами заниматься парсингом без привлечения так…