Добрый вечер, уважаемые читатели. Несколько дней назад мне нужно было спарсить примерно 5000 сайтов с выдачи яндекса. Раньше мне не приходилось этого делать. О том, как я решил поставленную задачу, вы сможете прочитать дальше.
Итак, опишу задачу, которая стояла передо мной. Нужно было спарсить около 5000 доменов с выдачи. Но это ещё не все. Запросы, по которым я хотел парсить, не простые, то есть, не просто «ключевое слово 1 + ключевое слово 2 + ключевое слово N». Мне нужно было парсить, используя операторы site, home и titile.
Сформируем требования:
Сразу я подумал, что существует масса php скриптов, которые умеют это делать. Как же я был удивлен, когда узнал, во-первых, что их не так много, а, во-вторых, что практически все из них не работают: где-то регулярка изменилась (для перехода на другую страницу), где-то вообще ошибки в синтаксисе и так далее.
После поиска скрипта, я решил переключится на поиск десктопного парсера яндекса. Второй раз за вечер я был удивлен, но, в этот раз удивлен приятно. Я быстро нашёл программу под простым название Yandex Parser. Это отличный бесплатный парсер яндекса и гугла, написанный, как я понял на C#.
Его преимущества:
Недостатки:
Данной программой я легко собрал все домены, которые меня интересовали. В общем, если вам нужно что-то парсить, то данная программа вам отлично подойдёт для этих целей.
Категории: Веб-мастеринг