www.romver.ru
/ Раздел Статьи / Google Dance

Как заказать сайт



 Термин "Google Dance" часто используется для описания обновлений индексной базы поисковой системы Google. Всреднем, обновление индексной базы происходит один раз в месяц. Это можно заметить по значительным изменениям в выдаче поисковой системы и особенно, если посмотреть сохраненную страницу в кеше поисковой системы, отображающему статус последнего прохождения робота. Однако апдейт не происходит резкой сменой одной выдачи другой. На самом деле, это длится несколько дней до полного завершения обновлений. За это время новые результаты пересчетов сменяют старые. На начальной стадии обновлений новые результаты видны в отдельных случаях. Но дальше, они видны более часто. Google "танцует".
Технические особенности Google

Поисковая система Google вцелом состоит больше, чем из 10,000 серверов архитектуры PC, работающих под управлением операционной системы Linux. Это разумное решение Google с точки зрения ценовой политики и целесообразности. В качестве Web-сервера "гугловцы" используют Apache-сервер. На самом деле, обновление индексной базы данных не может быть произведено на всех датацентрах одновременно. Они одним за другим обновляют свои данные.

Многие web-мастера думают, что в течении Google-Dance работники Google в какой-то мере могут управлять потоком выдаваемой информации, а именно самостоятельно решать: серверу со старой или серверу с новой индексной базой отвечать на запросы пользователей. Но, с момента переиндексации это было бы очень сложно. И, как мы покажем ниже, в переделах системы это не контролируется. На самом деле, причиной разной выдачи служит система именования доменов (DNS).
Google Dance и DNS

Не только индексная база Google разделена на больше чем 10,000 серверов, но так же и эти серверы размещены в восьми различных дата-центрах. Эти дата-центры в большей своей части размещены в Соединенных Штатах Америки (а именно в Santa Clara, California и Herndon, Virginia). В июне месяце 2002 года компания Google впервые запустила свой дата-центр в Европе, он находится в Швейцарии в городе Цюрих. К счастью, планируется запуск большего числа дата-центров, которые, возможно, будут распостранены по всему миру. Тем не менее, в январе и апреле 2003 года Google стартовала 2 дата-центра подряд, которые опять же находятся на територии Соединенных Штатов.

Соответсвенно, направляя данные ко всем своим дата-центрам, Google мог теоретически делать запись всех запросов централизованно и затем рассылать их по всем своим дата-центрам. Но реальностью является то, что каждый дата-центр имеет свой собственный IP-адрес и способ доступа к этим IP-адресам управляется системой именования имен, т.е. DNS.

По существу, DNS работает следующим образом: в Интернет при передаче данных всегда имеют место промежуточные IP адреса. Информация о том, какому домену принадлежит тот или иной IP адрес управляюется сервером DNS. Когда обычный пользователь вводит имя домена в адресной строке, локальный DNS сервер по запросу выдает ему IP адрес, который принадлежит данному домену, чтобы дальше осуществлять "общение" с тем доменом, который отвечает за определенную зону IP адресов. (структура DNS представляет собой дерево. Все IP адреса разделены по зонам, которыми управляют вышестоящие сервера. Чтобы описать весь процесс понадобится отдельная тема.) DNS сервера способны кешировать IP адреса, поэтому не всегда возникает необходимость вышестоящий по иерархии сервер спрашивать о разрешимости того или иного имени.

Запись для доменного имени и его продолжительность нахождения в кеше того или иного ответсвенного за зону сервера DNS зависит от его настроек. Это время называется "временем жизни" домена (Time To Live). Как только это время истекает, кеширующий DNS сервер доставляет новые данные снова от вышестоящего DNS сервера. Довольно часто "время жизни" домена устанавливается не больше, чем один день. Для сравнения - время жизни домена www.google.com только 5 минут, поэтому DNS сервер может только на 5 минут задержать у себя в кеше только на 5 минут, а потом снова потребуется запрос IP адреса.

Каждый раз, когда идет контакт с DNS сервером Google, сервер отсылает на запрос IP адрес только одного дата-центра. Поэтому, запросы Google всегда направляются к различным дата-центрам с различными записями DNS. С одной стороны записи DNS могут базироваться на данных, взятых с единого дата-центра. В этом случае Google легко производил загрузку, балансируя этим использованием DNS. С другой стороны, географическое место положение кеширующего сервера может повлиять на частоту получения IP адресов отдельных дата-центров. Так расстояние для преедачи данных может быть уменьшено. Чтобы показать DNS записи домена www.google.com, мы показываем их здесь на примере одного кеширующего DNS.

В настоящий момент DNS и Google-Dance связаны - это простой ответ. В течении денса дата-центры не получают новые данные в одно и то же время. На самом деле, новые данные передаются от одного дата-центра к другому. Когда пользователи делают запросы в течении танца, они могут получать данные от дата-центра, котрый имеет "старый индекс" и получить "новый индекс" всего лишь несколько минут спустя. С точки зрения пользователей, обновление индексной базы занимает всего несколько минут. Конечтно же, что процедура обновления индексной базы есть ни что иное, как совершенно обратное, поэтому выдача поисковой системы "скачет" между старыми и новыми показателями.
Google Dance и домены www2 и www3

Начало Google-Dance можно всегда заметить на тестовых доменах www2.google.com и www3.google.com. Эти домены обычно имеют устойчивые DNS записи, которые делают разрешение имени только для одного IP адреса (часто одного и того же). Перед началом танца, по крайней мере один из доменов настроен на получение новых данных из уже обновленной индексной базы.

Построение новой индексной базы поисковой системы раз в месяц может стать причиной ряда проблем. Поисковые роботы проходят миллиарды страниц и затем обрабатывают терра-байты информации. Поэтому тестирование новой индексной базы происходят беспрерывно. Конечно же Google не нуждается в тестировании своих доменов. Главным образом потому, что существует много "примочек", чтобы проверить новую индексную базу изнутри, и для этого не требуется много времени.

Поэтому, необходимость иметь сервера www2 и www3 в том, чтобы для web-мастеров существовала возможность прогнозирования их ранжирования после денса. Много из этих web-мастеров обсуждают обновления после денса на форумах в сети. Эти обсуждения могут быть предметом наблюдения для работников Google. Часто обычные пользователи еще не могут видеть изменений, так как записи DNS для www.google.com не указывают на IP адрес дата-центра, который был изменен в первую очередь, когда началось обновление.

Как только группа тестировщиков, состоящая из участников форума, не находит каких-либо кардинальных отличий в новой выдаче поисковой системы, DNS записи изменяются таким образом, что новая индексная база становится доступной для www.google.com и начинается обновление основной базы. В это время начинается денс. Однако, если обнаруживаются серьездные нарушения в течении этого обновления, существует возможность отменить обновление основной базы поисковой системы. Домен www.google.com не будет получать информацию из "треснувшего" дата-центра, и общая часть пользователей не заметят этого. Поэтому индексная база поисковой системы не может быть восстановлена и сбор информации в сети снова не начинается.

Следовательно, результаты поиска, которые были видны на доменах www2.google.com и www3.google.com всегда будут отображаться на www.google.com чуть позже после обновления основной базы. Однако, может наблюдаться незначительное "качение". С одной стороны, индексные базы разных дата-центров не могут быть абсолютно идентичными друг-другу. Мы можем легко это проверить, посмотрев результаты поиска одного и того же запроса на разных дата-центрах, которые часто различны. Сдругой стороны, в это время идет пересчет PageRank, google запускает механизм пересчета PageRank для сайтов, и Вы так же можете наблюдать эти изменения во время денса.

Полезная утилита для проверки Google-dance www.google-dance-tool.com/

IP-адреса и домены data-центров Google.

Процесс выполнения Google Dance можно, в основных чертах, наблюдать, запрашивая IP-адреса data-центров Google. Хотя запросы на IP-адреса обычно редиректятся на www.google.com, Google имеет домены, которые соответствуют IP-адресам отдельных data-центров. Эти домены, равно как и их IP-адреса, представлены в следующем списке.

Domain

IP Address

www-ex.google.com

216.239.33.100

www-sj.google.com

216.239.35.100

www-va.google.com

216.239.37.100

www-dc.google.com

216.239.39.100

www-ab.google.com

216.239.51.100

www-in.google.com

216.239.53.100

www-zu.google.com

216.239.55.100

www-cw.google.com

216.239.57.100

www-fi.google.com

216.239.41.100

www-gv.google.com

216.239.59.100

www-kr.google.com

66.102.11.100

www-mc.google.com

66.102.7.100

www-lm.google.com

66.102.9.100



Примечание: Запросы на www-zu и www-sj в настоящее время перенаправляются на другие data-центры. В добавок к тому, что результаты запросов на эти IP-адреса сильно различаются в процессе Google Dance, эти запросы, похоже, перенаправляются внутри системы на другие data-центры. Если посмотреть на статистику DNS-записей Google, в настоящее время www.google.com не перенаправляет запросы на www-zu и www-sj . Из этого можно сделать вывод, что данные data-центры находятся в режиме оффлайн.

Примечание редактора:На момент публикации перевода данной статьи Google изменил IP-адреса своих data-центров. Подробнее об этом можно прочитать ЗДЕСЬ.

Те, кто следит за обновлениями индекса Google, зачастую полагают, что Google Dance завершен, когда они видят новый индекс на www.google.com, или когда они не находят на www.google.com старого индекса в течение какого-то времени. На самом деле, обновление не закончено до того момента, пока все домены из приведенного выше списка не станут выдавать результаты из нового индекса.

Обновления индекса на отдельных data-центрах, похоже, не растянуто во времени и происходит мгновенно. Коль скоро определенный data-центр показал результаты из нового индекса, он уже не переключится на старый. Скорее всего, это происходит потому, что индекс на каждом data-центре обладает избыточностью, и сначала обновляется только часть серверов (видимо, половина от общего количества). В течение этого периода, активна и выдает результаты запросов только другая половина серверов. Как только завершается процесс обновления первой части серверов, они становятся активными и начинают обрабатывать запросы, пока другая часть серверов получает новый индекс. Таким образом, с точки зрения пользователя, обновление отдельного data-центра происходит мгновенно.

Нужно отметить, также, что доступ к отдельным data-центрам обычно контролируется только DNS, но иногда запросы переадресуются. Определить подобные случаи несложно: если при запросе на один из вышеперечисленных доменов ссылки в кэше на Google-сервер не совпадают с IP-адресом, принадлежащим домену, тогда имеет место переадресация запроса. Такие случаи свидетельствуют о том, что Google ограничивает (по разным причинам) доступ к определенному data-центру.

Google Dance и тестовые домены www2 и www3

Начало Google Dance всегда можно наблюдать на тестовых доменах www2.google.com и www3.google.com . Эти домены обычно имеют неизменные записи DNS, следовательно домены привязаны к определенному (зачастую одинаковому для обоих адресов) IP-адресу. Перед началом Google Dance, по крайней мере один из тестовых доменов приписывается к IP-адресу того data-центра, который первым получит новый индекс.

Создание абсолютно нового индекса один раз в месяц - весьма непростое задание. В конце концов, Google должен просканировать несколько миллиардов документов, и затем обработать Терабайты данных. Поэтому неизбежен процесс тестирования нового индекса. Сотрудникам Google, естественно, не обязательно самим тестировать индекс. Почти наверняка у них есть немало внутренних возможностей для проверки индекса, но времени на проведения подобных тестов у них явно не хватит.

Поэтому домены www2 и www3 предназначены, скорее, для того, чтобы показать новый индекс вебмастерам, которые интересуются своими будущими рейтингами. Многие из этих вебмастеров обсуждают вопросы, связанные с новым индексом на сетевых форумах Google. Эти обсуждения доступны работникам Google. Причем основная масса пользователей еще не может наблюдать новый индекс, потому что DNS записи для www.google.com обычно не указывают на IP-адрес data-центра, обновляемого первым при начале очередного обновления.

К моменту, когда тестовое сообщество участников форумов Google не находит каких-либо серьезных нарушений, вызванных новым индексом, DNS записи Google готовы приписать к www.google.com тот data-центр, который будет обновляться первым. Именно в этот момент начинается Google Dance. Но если серьезные нарушения обнаружатся на этой тестовой стадии, еще остается возможность отменить обновления на других data-центрах. Домен www.google.com не будет направлять запросы на data-центр с "испорченным" индексом, и широкая общественность ничего не заметит. В этом случае индекс должен быть пересчитан, либо сеть будет сканироваться заново.

Итак, результаты поиска, видимые на www2.google.com и www3.google.com, появляются на www.google.com позднее, в процессе планового обновления индекса. Однако, возможны небольшие вариации. С одной стороны, индекс на одном data-центре никогда не совпадает полностью с индексом на другом data-центре. Это можно легко проверить, посмотрев количественные показатели результатов одного и того же запроса, сделанного на разных доменах, указанных выше. Зачастую они будут различаться. С другой стороны, часто предполагается, что иттеративный расчет значений PageRank еще не закончен к моменту начала Google Dance, поэтому предварительные значения оказывают влияние на рейтинги.

Новые значения PageRank в течение Google Dance

Многих вебмастеров интересуют изменения рейтингов их вебсайтов в течение Google Dance. Но, кроме этого, многим также хочется узнать их новые значения PageRank. Обычно Тулбар Google берет значения PageRank из того data-центра, который определен IP-адресом в актуальной записи DNS для www.google.com. Поэтому, когда начинается Google Dance, Тулбар обычно показывает старые значения PageRank.

Google передает на Тулбар значения PageRank в виде обычных текстовых файлов. Ранее для этого использовался XML, а на текстовые файлы перешли в августе 2002 года. Файлы PageRank можно запросить непосредственно с домена www.google.com . Обычно URL подобных файлов имеют следующий вид:

http://www.google.com/search?client=navclient-auto&ch=

0123456789&features=Rank&q=info:http://www.domain.com/

Файлы PageRank содержат только одну текстовую строку. Завершает эту строку аббревиатура "PageRank".

Параметры, включенные в приведенный здесь URL необходимы для того, чтобы отобразить файлы PageRank в браузере. Значение "navclient-auto" для параметра "client" идентифицирует Тулбар. URL передается через параметр q. Значение "Rank" для параметра "features" определяет, что запрашиваются файлы PageRank. Если его опустить, серверы Google будут передавать файлы XML. Параметр "ch" передает Google контрольную сумму для данного URL, причем эта контрольная сумма может изменяться только тогда, когда Google обновляет версию своего Тулбара.

Файлы PageRank, запрашиваемые Тулбаром Google, сохраняются в кэше Internet Explorer. Поэтому их URL и контрольные суммы можно легко узнать, заглянув в папку Temporary Internet Files. Зная контрольные суммы ваших URL, вы можете просматривать файлы PageRank в вашем браузере. Поскольку файлы PageRank хранятся в кэше браузера и явно доступны для просмотра, и пока запросы не производятся автоматически, просмотр файлов PageRank в браузере не будет нарушением Правил Google. Однако будьте осторожны. Тулбар передает Google свой собственный User-Agent, в виде:

Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4/10)

1.1.60-deleon - это версия Тулбара, которая, естественно, может изменяться. OS - операционная система, которая у вас установлена. Таким образом, Google способен определять запросы от браузеров, если они не поступают через прокси, и если User-Agent не изменен соответствующим образом.

Сейчас давайте посмотрим, как мы можем получить новые значения PageRank. Посмотрев на кэш Internet Explorer, вы заметите, что файлы PageRank запрашиваются не с домена www.google.com, а с IP-адресов, подобных 216.239.33.102 . К тому же, URL файлов PageRank часто содержат параметр "failedip", который имеет значение типа "216.239.35.102;1111" (назначение этого параметра пока что не совсем ясно). Однако получить новые значения PageRank довольно просто. Нужно изменить IP-адреса в URL таким образом, чтобы запрос посылался на те data-центры, которые уже содержат обновленный индекс. Необходимая для этого информация у вас уже есть.



Создание сайтов и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(981) 760-8865

e-mail: w e b m a s t e r @ r o m v e r . r u
icq 3681771  © 1997 - 2024 romver.ru