Блог холостого бомжа

Как заработать в интернете на свадьбу?
/ Главная / Софт
singlehomeless@gmail.com
обратная связь

Официальный парсинг выдачи Яндекса

Многие, наверняка, знают, что если начать мучать веб-морду Яндекса своим собственным скриптом, отправляя по несколько запросов в секунду, то через несколько запросов Яндекс обидится и забанит на час-другой  IP с которого так усердствовали. Подозреваю, что создав несколько рецидивов бан можно схлопотать надолго или навечно.

Ситуация решается вставкой пауз между запросами по паре секунд, так вроде бы Яндекс не серчает и позволяет неторопливо, но планомерно (часами напролёт) мучить себя.

С shared-хостинга подобные акции проводить бесполезно: кто-то из клиентов, висящих на данном сервере, как правило, лимит запросов уже выкрутил до вас, не будучи столь осторожным (да и откуда гарантия, что пока вы ждёте две секунды, кто-то не отправит запрос своим скриптом между вашими). Всякий, кто планирует парсить Яндекс, должен обзавестись хотя бы дешёвеньким VPS`ом.

Но коли на VPS вы уже раскошелились, то есть для взаимодействия с Яндексом способ более цивилизованный — использовать Яндекс.XML. Это сервис Яндекса, отдающий результаты поиска по XML, парсить которые на запчасти, вычленяя изыски вёрстки, совсем не надо, всё предоставляется уже в нарядном структурированном формате.

Скажу больше, готовый код для определения позиции сайта по некоторому запросу приготовлен сотрудниками Яндекса для всех желающих: http://xml.yandex.ru/examples.xml?id=372989.

Ограничения два:

  1. Вам нужен свой IP (но это не проблема, ведь у вас уже есть VPS, а у него есть свой выделенный адрес);
  2. Не разрешается загружать сервис более, чем тысячей запросов в сутки.

Последнее ограничение портит прикуп, но даже это не помешает вам, например, быстро прогнать 200 запросов с глубиной до пятой страницы (и делать это каждый день). Если вы продвигаете пару-другую сайтов и испытываете потребность в системе мониторинга, то этого должно хватить вполне. Ведь ограничений по частоте запросов нет, свою тысячу обращений вы можете израсходовать хоть за несколько минут.

Если вам нужен больший ресурс, то, думаю, где найти VPS с немецким айпишником чуть менее, чем за €3, вы, я думаю, уже знаете. К тому же, этот самый VPS может выполнять и какие-то дополнительные полезные функции (хранить бэкапы, хостить саттелиты и пр.).

Новая акция «Модуляция» от Тормоза по реализации модулей для «Закладочника» на выгодных условиях

Итак, Тормоз продолжает угощать всех заинтересованных.

Про его «Закладочник» и про комфортные пути получения этой софтины я писал совсем недавно, но очень скоро, а точнее — прямо сейчас, со скидкой можно купить модули для «Закладочника»: «Журналюга» и «SEO-блоггер».

Первый из них позволит прогнать вш пост по сервисам социальных новостей (а-ля News2), а второй — по соц. сетям манимейкерского, сеошного и вебмастерского толка. Первый модуль сейчас продаётся за $9 (без скидки — $32), второй — за $3 (без скидки — $16).

Поторопитесь их купить!

Хотя можно даже и не покупать, потому что Тормоз опять раздаёт подарки. Чтобы их получить нужно срочно написать про акцию «Модуляцию» (примерно так, как я это сейчас и сделал). Успеете — глядишь Тормоз и подарит вам один из модулей.

Толк от модулей не исследован до конца, но определенную задачу-минимум они решают. Даже две таких задачи:

  1. Загоняют страницу (а то и большую часть свеженького сайта) в индекс ПС;
  2. По результатам прогона дают разовый всплекс трафика (возможно, трафик слабым эхом возвращается и после, но такого эффект я пока ещё не испытал в силу малого опыта использования).

Возможны и другие положительные эффекты, о которых вы конечно же сможете рассказать сами у себя в блогах.

Тормоз в последнее время радует своей активностью: скидки и подарки народу, яркие примеры использования яховских труб с пиаром удачных результатов на Хабре. Определённо товарищ молодец.

Получил в подарок «Закладочник»

Тормоз великодушно свой «Закладочник» мне всё-таки подарил. За что ему спасибо.

Протестирую сей скрипт и отпишусь о результатах недели примерно через две. Дело в том, что на днях предстоит запускать один клиентский сайт, там будет нормальный уникальный контент, страниц этак 30. Ну, и, тематика у сайта совсем не подозрительная. Такие сайты должны влетать в индекс вскоре после первого добавления в «аддурилку» в панели вебмастеров Яндекса. У меня было такое: примерно через неделю девственный сайт оказывался в индексе (хотя не исключаю, что я удачно под какой-то апдейт попал).

В общем теперь у меня цель такая: проверить, решается ли та же проблема прогоном по закладкам?

Совсем плачевного результата особо не боюсь: если вдруг сайту как-то и наврежу (скажем закладки его в индекс не затащат, а после них и «аддурилка» не поможет), то бабахну все ссылки с соц. закладок, напишу Платону повинную. Сайт некоммерческой тематики, так что должны простить в любому случае.

Думаю, что результатов ждать стоит недели через две.

UPD: Тестирование откладывается до выхода новой версии «Закладочника». Выйдет она, видимо, скоро.

Тормоз продаёт «Закладочник» по интересной цене, так что поторопитесь

Известный SEO-труженик Тормоз продаёт также известный «Закладочник» собственной разработки. Суть софтины проста: автоматизация прогона по закладочным сервисам ваших сайтов/блогов/форумов.

Дело в том, что в рамках двухсуточной акции, «Закладочник» с течением времени дорожает, в итоге его цена вернётся к обычной (прирастает по доллару в час), но пока можно успеть купить «Закладочник» за $41 (ну, или за 41 WMZ, что точнее, т.к. за наличные или безналичные доллары вам Тормоз вряд ли что-то продаст).

Мои читатели, если поторопятся, могут сэкономить $7, но осталось меньше часа, так что поторопиться надо серьезно, отбросив выходную лень.

Я же рассказываю про «Закладочник» с особым интересом: в рамках акции Тормоз дарит Закладочник блоггерам. Мой блог не дотягивает до установленных показателей, но попробую Тормозу предложить два поста (второй напишу в своём соседнем блоге, который не совсем про SEO, но очень даже про IT, читает его тоже, полагаю, целевая аудитория).

Если «Закладочник» мне всё-таки достанется, то обещаю написать подробный обзор этой софтины, совместив его с экспериментом на тему «Достаточно ли прогона по закладкам для того, чтобы загнать девственно новый сайт в индекс Яндекса за 2–3 недели без апрува в панель вебмастера от Яндекса». Если эксперимент даст положительные результаты, то лично мне «Закладочник» придётся очень ко двору.

Парсер выдачи «статистики запросов Яндекса» (wordstat)

Делал для себя парсер выдачи http://wordstat.yandex.ru. Подозреваю, что кому-то может пригодиться (скажем для роботизированного поиска низкочастотников с целью клепания страничек под них), а потому выкладываю исходник.

Скрипт работает на момент публикации этого поста (11 апреля 2009). Он перестанет работать, если Яндекс сменит вывод (вёрстку, оформление) wordstat`а.

Чтобы код понять, надо немного знать php. Комментировал я всё неприлично подробно. Чтобы парсер использовать — достаточно скопировать весь код в файл parser.php, сохранить файл и закинуть куда-то к себе на сервер. Нужно, правда, чтобы на сервере кроме интерпретатора php была ещё и библиотека cURL, но оная имеется на любом адекватном хостинге, даже на пятикопеечных. Также нужно нормальное время исполнения скрипта, в худшем случае он будет работать 40 секунд (для пяти страниц выдачи), приходится искусственно притормаживать перед запросом очередной страницы у wordstat`а. Если этого не делать, то wordstat начнёт просить капчу (если вы на капчу таки нарвались, то подождите часок-другой, пока wordstat простит ваш IP-адрес).

Собственно, тем кто код понимает, вряд ли составит труда нечто подобное написать за час самостоятельно. Но вдруг нужна таки готовая функция.

Новичкам готов рассказать дополнительно как и чего работает. И если людям это нужно, то возможно буду что-то и в будущем выкладывать в паблик с подробными комментариями. А вот, собственно, и код.