Сегодня при попытке зайти в аккаунт Google AdSense увидел следующее:
Интерфейс аккаунта AdSense временно недоступен вследствие технического обслуживания системы. AdSense не будет работать 10 Октябрь 2009 г. приблизительно с 10:00 до 14:00 (Pacific Daylight Time). Учтите, что отслеживание ваших доходов в это время будет продолжаться в обычном режиме, и нерабочее состояние системы не повлияет на таргетинг ваших объявлений. Приносим извинения за причиненные неудобства.
Правильно, надо отучать манимейкеров втыкать на статсы.
Многие, наверняка, знают, что если начать мучать веб-морду Яндекса своим собственным скриптом, отправляя по несколько запросов в секунду, то через несколько запросов Яндекс обидится и забанит на час-другой IP с которого так усердствовали. Подозреваю, что создав несколько рецидивов бан можно схлопотать надолго или навечно.
Ситуация решается вставкой пауз между запросами по паре секунд, так вроде бы Яндекс не серчает и позволяет неторопливо, но планомерно (часами напролёт) мучить себя.
С shared-хостинга подобные акции проводить бесполезно: кто-то из клиентов, висящих на данном сервере, как правило, лимит запросов уже выкрутил до вас, не будучи столь осторожным (да и откуда гарантия, что пока вы ждёте две секунды, кто-то не отправит запрос своим скриптом между вашими). Всякий, кто планирует парсить Яндекс, должен обзавестись хотя бы дешёвеньким VPS`ом.
Но коли на VPS вы уже раскошелились, то есть для взаимодействия с Яндексом способ более цивилизованный — использовать Яндекс.XML. Это сервис Яндекса, отдающий результаты поиска по XML, парсить которые на запчасти, вычленяя изыски вёрстки, совсем не надо, всё предоставляется уже в нарядном структурированном формате.
Скажу больше, готовый код для определения позиции сайта по некоторому запросу приготовлен сотрудниками Яндекса для всех желающих: http://xml.yandex.ru/examples.xml?id=372989.
Ограничения два:
- Вам нужен свой IP (но это не проблема, ведь у вас уже есть VPS, а у него есть свой выделенный адрес);
- Не разрешается загружать сервис более, чем тысячей запросов в сутки.
Последнее ограничение портит прикуп, но даже это не помешает вам, например, быстро прогнать 200 запросов с глубиной до пятой страницы (и делать это каждый день). Если вы продвигаете пару-другую сайтов и испытываете потребность в системе мониторинга, то этого должно хватить вполне. Ведь ограничений по частоте запросов нет, свою тысячу обращений вы можете израсходовать хоть за несколько минут.
Если вам нужен больший ресурс, то, думаю, где найти VPS с немецким айпишником чуть менее, чем за €3, вы, я думаю, уже знаете. К тому же, этот самый VPS может выполнять и какие-то дополнительные полезные функции (хранить бэкапы, хостить саттелиты и пр.).
Какая-то странная ситуация вышла: попытался добавить забаненный Яндексом сайт в панель веб-мастеров того же Яндекса. В ответ, собственно, получил сообщение о том, что, мол, сайт ваш забанен, за поисковый спам (со ссылочкой на пункт в FAQ о том, что такое хорошо и что такое плохо по версии Яндекса). Ну, думаю, значит баненные сайты в панель не берут.
Но дело в том, что данный сайт не мой, что с ним было раньше я не знаю (и по архивам особо не искал), но теперь на нём страниц этак 20–30 совершенно уникального контента на техническую тематику. Контент этот (получилось что-то вроде урезанной версии диплома с заменой многих технических подробностей на короткие научно-популярные объяснения) хорошо знакомый человек писал с душой, отчасти из желания себя показать, но по большей части — для людей. Стало обидно, что вот, быть может, кому-то все эти спецификации и расчёты нужны будут, кто-то будет гуглить, но не найдёт (т.е. тут я не тот глагол выбрать: если гуглить, то сайт найдётся, потому что Google его не банил, а вот «яндексовать» — бесполезно). Домен раньше принадлежал подразделению НИИ, потом коммерческой конторе, которую особо ушлые сотрудники НИИ открыли, а вот теперь достался состоявшемуся (недавно защитившемуся) инженеру.
В общем, я решил идти до конца и написать Платону, дабы тот разобрался. Проверил на всякий пожарный контент на уникальность — всё в порядке. Пошёл искать куда б написать, помню, что для добавленных сайтов прямая ссылочка на форму фидбэка была, но этот-то не добавляется. Нашёл в итоге какую-то форму, написал, закрыл вкладку и по порядку оказался на той, что с «аддурилкой». И что-то меня сподвигло клацнуть на «добавить» — теперь сайт добавился.
Не знаю, что это за магия, воспроизвести мне свои действия не на чем, поскольку больше нету баненных доменов (и, дай Бог, чтоб не прибавилось), но, если что, имейте в виду, что добавление может как-то открываться после того, как вы в сюппорт сообщение отправите. Если кто-то из читающих с чем-то похожим сталкивался, то опишите свой опыт, а то у меня впечатления, как у увидевшего НЛО.
Сервис уже не нов, все пользователи панели веб-мастера Яндекса (думаю, что почти все сеошники и пользуются, дабы получать из первых рук информацию) узнали о Метрике прямо из панельки, ну, а, остальные могли прочитать в официальном блоге Яндекса.
Почему появилась (хотя она была давно, но только для клиентов Директа) Метрика, думаю, всем понятно: Google уже давно предлагает всем желающим Analytics — мощный и удобный (я даже забыл теперь про серверных зверей в духе awstats, которые парсят непосредственно апачевские логи). Недостатка у Analytics`а я вижу ровно два с половиной. О них и расскажу далее.
Делал для себя парсер выдачи http://wordstat.yandex.ru. Подозреваю, что кому-то может пригодиться (скажем для роботизированного поиска низкочастотников с целью клепания страничек под них), а потому выкладываю исходник.
Скрипт работает на момент публикации этого поста (11 апреля 2009). Он перестанет работать, если Яндекс сменит вывод (вёрстку, оформление) wordstat`а.
Чтобы код понять, надо немного знать php. Комментировал я всё неприлично подробно. Чтобы парсер использовать — достаточно скопировать весь код в файл parser.php, сохранить файл и закинуть куда-то к себе на сервер. Нужно, правда, чтобы на сервере кроме интерпретатора php была ещё и библиотека cURL, но оная имеется на любом адекватном хостинге, даже на пятикопеечных. Также нужно нормальное время исполнения скрипта, в худшем случае он будет работать 40 секунд (для пяти страниц выдачи), приходится искусственно притормаживать перед запросом очередной страницы у wordstat`а. Если этого не делать, то wordstat начнёт просить капчу (если вы на капчу таки нарвались, то подождите часок-другой, пока wordstat простит ваш IP-адрес).
Собственно, тем кто код понимает, вряд ли составит труда нечто подобное написать за час самостоятельно. Но вдруг нужна таки готовая функция.
Новичкам готов рассказать дополнительно как и чего работает. И если людям это нужно, то возможно буду что-то и в будущем выкладывать в паблик с подробными комментариями. А вот, собственно, и код.