Программа парсер яндекса

Добрый вечер, уважаемые читатели. Несколько дней назад мне нужно было спарсить примерно 5000 сайтов с выдачи яндекса. Раньше мне не приходилось этого делать. О том, как я решил поставленную задачу, вы сможете прочитать дальше.

Программа парсер яндекса

Итак, опишу задачу, которая стояла передо мной. Нужно было спарсить около 5000 доменов с выдачи. Но это ещё не все. Запросы, по которым я хотел парсить, не простые, то есть, не просто «ключевое слово 1 + ключевое слово 2 + ключевое слово N». Мне нужно было парсить, используя операторы site, home и titile.

Сформируем требования:

  1. Возможность самому формировать запрос к поисковой системе.
  2. Программа должна уметь парсить, как яндекс, так и гугл.
  3. Возможность выставить паузу между заросами, чтобы не пришлось использовать антикапчу.

Сразу я подумал, что существует масса php скриптов, которые умеют это делать. Как же я был удивлен, когда узнал, во-первых, что их не так много, а, во-вторых, что практически все из них не работают: где-то регулярка изменилась (для перехода на другую страницу), где-то вообще ошибки в синтаксисе и так далее.

После поиска скрипта, я решил переключится на поиск десктопного парсера яндекса. Второй раз за вечер я был удивлен, но, в этот раз удивлен приятно. Я быстро нашёл программу под простым название Yandex Parser. Это отличный бесплатный парсер яндекса и гугла, написанный, как я понял на C#.

Его преимущества:

  1. Он бесплатный.
  2. Автор программы никуда не потерялся, поэтому программа всегда работает.
  3. Парсер работает, как с гуглом, так и с яндексом.
  4. Регулярные выражения выведены в отдельный текстовый файл, который вы всегда можете редактировать под текущую версту поисковиков.
  5. Можно задать любую паузу между запросами.
  6. Можно сформировать произвольный запрос к поисковой системе, используя любое число операторов.
  7. В программу встроен браузер, поэтому, если поисковик запросит капчу, то вы сможете ввести её вручную.

Недостатки:

  1. Нет поддержки антикапчи.
  2. Работает в один поток (ну, это вполне логично: без антикапчи в многопоточном режиме программа не продержалась бы и минуты).

Данной программой я легко собрал все домены, которые меня интересовали. В общем, если вам нужно что-то парсить, то данная программа вам отлично подойдёт для этих целей.

Категории: Веб-мастеринг