Парсинг поисковых систем

Yahoo! Logo

Обычно поисковые системы не позволяют себя парсить простым смертным. Например, великий и ужасный Google банит айпишник на несколько часов, если делать запросы слишком часто. А еще гугл иногда выдает свою аццкую капчу, и иногда меняет форматирование своей выдачи, что осложняет жизнь нашим коллегам.

Однако, есть и дружелюбные поисковики, которые вполне официально разрешают себя парсить. Всего лишь надо зарегистрировать аккаунт на Yahoo, получить app id key и настроить свой парсер, благо API под него доступно там же на самых популярных языках программирования.

Никаких пауз между запросами, никакой подделки юзерагента или сбрасывания cookie делать не надо, все работает быстро и надежно. Выдачу можно забирать в XML, что значительно упрощает парсинг. Однако не стоит забывать, что в термсах Yahoo прописаны ограничения: не более 5000 запросов с одного IP. Как видите, ничто не запрещает использовать все доступные IP адреса для получения желаемого результата.

Парсинг поисковых систем: 2 комментария

  1. Если использовать например 10 прокси то за день можно без напряга сделать 50 000 запросов?

  2. Уже нельзя. Yahoo прикрыл этот сервис год назад, и вместо него открыл другой – Yahoo BOSS API. Там парсить можно сколько душе угодно, но если число запросов больше разрешенного лимита, то за это придется заплатить.

Обсуждение закрыто.