|
АБРАКАДАБРА (Тоже самое но в читаемом виде)
Termin "Google Dance" 4asto ispol'zuetsa dla opisania obnovleniy indeksnoy
bazi poiskovoy sistemi Google. Vsrednem, obnovlenie indeksnoy bazi proisxodit
odin raz v mesac. Eto mojno zametit' po zna4itel'nim izmeneniam v vida4e
poiskovoy sistemi i osobenno, esli posmotret' soxranennuu stranicu v ke6e poiskovoy sistemi, otobrajau6emu status poslednego proxojdenia
robota. Odnako apdeyt ne proisxodit rezkoy smenoy odnoy vida4i drugoy. Na samom
dele, eto dlitsa neskol'ko dney do polnogo zaver6enia obnovleniy. Za eto vrema
novie rezul'tati peres4etov smenaut starie. Na na4al'noy stadii obnovleniy novie
rezul'tati vidni v otdel'nix slu4aax. No dal'6e, oni vidni bolee 4asto. Google
"tancuet". Texni4eskie osobennosti Google
Poiskovaa sistema Google vcelom sostoit bol'6e, 4em iz 10,000 serverov
arxitekturi PC, rabotau6ix pod upravleniem operacionnoy sistemi Linux. Eto
razumnoe re6enie Google s to4ki zrenia cenovoy politiki i celesoobraznosti. V
ka4estve Web-servera "guglovci" ispol'zuut Apache-server. Na samom dele,
obnovlenie indeksnoy bazi dannix ne mojet bit' proizvedeno na vsex datacentrax
odnovremenno. Oni odnim za drugim obnovlaut svoi dannie.
Mnogie
web-mastera dumaut, 4to v te4enii Google-Dance rabotniki Google v kakoy-to mere
mogut upravlat' potokom vidavaemoy informacii, a imenno samostoatel'no re6at':
serveru so staroy ili serveru s novoy indeksnoy bazoy otve4at' na zaprosi
pol'zovateley. No, s momenta pereindeksacii eto bilo bi o4en' slojno. I, kak mi
pokajem nije, v peredelax sistemi eto ne kontroliruetsa. Na samom dele, pri4inoy
raznoy vida4i slujit sistema imenovania domenov (DNS). Google Dance i DNS
Ne tol'ko indeksnaa baza Google razdelena na bol'6e 4em 10,000 serverov, no
tak je i eti serveri razme6eni v vos'mi razli4nix data-centrax. Eti data-centri
v bol'6ey svoey 4asti razme6eni v Soedinennix 6tatax Ameriki (a imenno v Santa
Clara, California i Herndon, Virginia). V iune mesace 2002 goda kompania Google
vpervie zapustila svoy data-centr v Evrope, on naxoditsa v 6veycarii v gorode
Curix. K s4ast'u, planiruetsa zapusk bol'6ego 4isla data-centrov, kotorie,
vozmojno, budut raspostraneni po vsemu miru. Tem ne menee, v anvare i aprele
2003 goda Google startovala 2 data-centra podrad, kotorie opat' je naxodatsa na
teritorii Soedinennix 6tatov.
Sootvetsvenno, napravlaa dannie ko vsem
svoim data-centram, Google mog teoreti4eski delat' zapis' vsex zaprosov
centralizovanno i zatem rassilat' ix po vsem svoim data-centram. No real'nost'u
avlaetsa to, 4to kajdiy data-centr imeet svoy sobstvenniy IP-adres i sposob
dostupa k etim IP-adresam upravlaetsa sistemoy imenovania imen, t.e.
DNS.
Po su6estvu, DNS rabotaet sleduu6im obrazom: v Internet pri pereda4e
dannix vsegda imeut mesto promejuto4nie IP adresa. Informacia o tom, kakomu
domenu prinadlejit tot ili inoy IP adres upravlauetsa serverom DNS. Kogda
obi4niy pol'zovatel' vvodit ima domena v adresnoy stroke, lokal'niy DNS server
po zaprosu vidaet emu IP adres, kotoriy prinadlejit dannomu domenu, 4tobi dal'6e
osu6estvlat' "ob6enie" s tem domenom, kotoriy otve4aet za opredelennuu zonu
IP adresov. (struktura DNS predstavlaet soboy derevo. Vse IP adresa razdeleni po
zonam, kotorimi upravlaut vi6estoa6ie servera. 4tobi opisat' ves' process
ponadobitsa otdel'naa tema.) DNS servera sposobni ke6irovat' IP adresa, poetomu
ne vsegda voznikaet neobxodimost' vi6estoa6iy po ierarxii server spra6ivat' o
razre6imosti togo ili inogo imeni.
Zapis' dla domennogo imeni i ego
prodoljitel'nost' naxojdenia v ke6e togo ili inogo otvetsvennogo za zonu servera
DNS zavisit ot ego nastroek. Eto vrema nazivaetsa "vremenem jizni" domena (Time
To Live). Kak tol'ko eto vrema istekaet, ke6iruu6iy DNS server dostavlaet novie
dannie snova ot vi6estoa6ego DNS servera. Dovol'no 4asto "vrema jizni" domena
ustanavlivaetsa ne bol'6e, 4em odin den'. Dla sravnenia - vrema jizni domena
www.google.com tol'ko 5 minut, poetomu DNS server mojet tol'ko na 5 minut
zaderjat' u seba v ke6e tol'ko na 5 minut, a potom snova potrebuetsa zapros IP
adresa.
Kajdiy raz, kogda idet kontakt s DNS serverom Google, server
otsilaet na zapros IP adres tol'ko odnogo data-centra. Poetomu, zaprosi Google
vsegda napravlautsa k razli4nim data-centram s razli4nimi zapisami DNS. S odnoy
storoni zapisi DNS mogut bazirovat'sa na dannix, vzatix s edinogo data-centra. V
etom slu4ae Google legko proizvodil zagruzku, balansirua etim ispol'zovaniem
DNS. S drugoy storoni, geografi4eskoe mesto polojenie ke6iruu6ego servera mojet
povliat' na 4astotu polu4enia IP adresov otdel'nix data-centrov. Tak rasstoanie
dla preeda4i dannix mojet bit' umen'6eno. 4tobi pokazat' DNS zapisi domena
www.google.com, mi pokazivaem ix zdes' na primere odnogo ke6iruu6ego
DNS.
V nastoa6iy moment DNS i Google-Dance svazani - eto prostoy otvet. V
te4enii densa data-centri ne polu4aut novie dannie v odno i to je vrema. Na
samom dele, novie dannie peredautsa ot odnogo data-centra k drugomu. Kogda
pol'zovateli delaut zaprosi v te4enii tanca, oni mogut polu4at' dannie ot data-centra, kotriy imeet
"stariy indeks" i polu4it' "noviy indeks" vsego li6' neskol'ko minut spusta. S
to4ki zrenia pol'zovateley, obnovlenie indeksnoy bazi zanimaet vsego neskol'ko
minut. Kone4tno je, 4to procedura obnovlenia indeksnoy bazi est' ni 4to inoe,
kak sover6enno obratnoe, poetomu vida4a poiskovoy sistemi "ska4et" mejdu starimi
i novimi pokazatelami. Google Dance i domeni www2 i www3
Na4alo Google-Dance mojno vsegda zametit' na testovix domenax www2.google.com
i www3.google.com. Eti domeni obi4no imeut ustoy4ivie DNS zapisi, kotorie delaut
razre6enie imeni tol'ko dla odnogo IP adresa (4asto odnogo i togo je). Pered
na4alom tanca, po krayney mere odin iz domenov nastroen na polu4enie novix
dannix iz uje obnovlennoy indeksnoy bazi.
Postroenie novoy indeksnoy bazi
poiskovoy sistemi raz v mesac mojet stat' pri4inoy rada problem. Poiskovie
roboti proxodat milliardi stranic i zatem obrabativaut terra-bayti informacii.
Poetomu testirovanie novoy indeksnoy bazi proisxodat besprerivno. Kone4no je
Google ne nujdaetsa v testirovanii svoix domenov. Glavnim obrazom potomu, 4to
su6estvuet mnogo "primo4ek", 4tobi proverit' novuu indeksnuu bazu iznutri, i dla
etogo ne trebuetsa mnogo vremeni.
Poetomu, neobxodimost' imet' servera
www2 i www3 v tom, 4tobi dla web-masterov su6estvovala vozmojnost'
prognozirovania ix ranjirovania posle densa. Mnogo iz etix web-masterov
obsujdaut obnovlenia posle densa na forumax v seti. Eti obsujdenia mogut bit'
predmetom nabludenia dla rabotnikov Google. 4asto obi4nie pol'zovateli e6e ne
mogut videt' izmeneniy, tak kak zapisi DNS dla www.google.com ne ukazivaut na IP
adres data-centra, kotoriy bil izmenen v pervuu o4ered', kogda na4alos'
obnovlenie.
Kak tol'ko gruppa testirov6ikov, sostoa6aa iz u4astnikov
foruma, ne naxodit kakix-libo kardinal'nix otli4iy v novoy vida4e poiskovoy
sistemi, DNS zapisi izmenautsa takim obrazom, 4to novaa indeksnaa baza
stanovitsa dostupnoy dla www.google.com i na4inaetsa obnovlenie osnovnoy bazi. V
eto vrema na4inaetsa dens. Odnako, esli obnarujivautsa ser'ezdnie naru6enia v
te4enii etogo obnovlenia, su6estvuet vozmojnost' otmenit' obnovlenie osnovnoy
bazi poiskovoy sistemi. Domen www.google.com ne budet polu4at' informaciu iz
"tresnuv6ego" data-centra, i ob6aa 4ast' pol'zovateley ne zametat etogo. Poetomu
indeksnaa baza poiskovoy sistemi ne mojet bit' vosstanovlena i sbor informacii v seti snova ne na4inaetsa.
Sledovatel'no, rezul'tati poiska, kotorie bili vidni na domenax
www2.google.com i www3.google.com vsegda budut otobrajat'sa na www.google.com
4ut' pozje posle obnovlenia osnovnoy bazi. Odnako, mojet nabludat'sa
nezna4itel'noe "ka4enie". S odnoy storoni, indeksnie bazi raznix data-centrov ne
mogut bit' absolutno identi4nimi drug-drugu. Mi mojem legko eto proverit',
posmotrev rezul'tati poiska odnogo i togo je zaprosa na raznix data-centrax,
kotorie 4asto razli4ni. Sdrugoy storoni, v eto vrema idet peres4et PageRank,
google zapuskaet mexanizm peres4eta PageRank dla saytov, i Vi tak je mojete
nabludat' eti izmenenia vo vrema densa.
Poleznaa utilita dla proverki Google-dance www.google-dance-tool.com/
IP-adresa i domeni data-centrov
Google.
Process vipolnenia Google Dance mojno, v
osnovnix 4ertax, nabludat', zapra6ivaa IP-adresa data-centrov Google. Xota
zaprosi na IP-adresa obi4no redirektatsa na www.google.com, Google imeet domeni,
kotorie sootvetstvuut IP-adresam otdel'nix data-centrov. Eti domeni, ravno kak i
ix IP-adresa, predstavleni v sleduu6em spiske.
Domain |
IP Address
|
www-ex.google.com |
216.239.33.100 |
www-sj.google.com |
216.239.35.100 |
www-va.google.com |
216.239.37.100 |
www-dc.google.com |
216.239.39.100 |
www-ab.google.com |
216.239.51.100 |
www-in.google.com |
216.239.53.100 |
www-zu.google.com |
216.239.55.100 |
www-cw.google.com |
216.239.57.100 |
www-fi.google.com |
216.239.41.100 |
www-gv.google.com |
216.239.59.100 |
www-kr.google.com |
66.102.11.100 |
www-mc.google.com |
66.102.7.100 |
www-lm.google.com |
66.102.9.100 |
Prime4anie:
Zaprosi na www-zu i www-sj v nastoa6ee vrema perenapravlautsa na drugie
data-centri. V dobavok k tomu, 4to rezul'tati zaprosov na eti IP-adresa sil'no
razli4autsa v processe Google Dance, eti zaprosi, poxoje, perenapravlautsa
vnutri sistemi na drugie data-centri. Esli posmotret' na statistiku DNS-zapisey Google, v
nastoa6ee vrema www.google.com ne perenapravlaet zaprosi na www-zu i www-sj . Iz
etogo mojno sdelat' vivod, 4to dannie data-centri naxodatsa v rejime offlayn.
Prime4anie redaktora:Na moment publikacii
perevoda dannoy stat'i Google izmenil IP-adresa svoix data-centrov. Podrobnee ob
etom mojno pro4itat' ZDES'.
Te, kto sledit za
obnovleniami indeksa Google, za4astuu polagaut, 4to Google Dance zaver6en, kogda
oni vidat noviy indeks na www.google.com, ili kogda oni ne naxodat na
www.google.com starogo indeksa v te4enie kakogo-to vremeni. Na samom dele,
obnovlenie ne zakon4eno do togo momenta, poka vse domeni iz privedennogo vi6e
spiska ne stanut vidavat' rezul'tati iz novogo indeksa.
Obnovlenia
indeksa na otdel'nix data-centrax, poxoje, ne rastanuto vo vremeni i proisxodit
mgnovenno. Kol' skoro opredelenniy data-centr pokazal rezul'tati iz novogo
indeksa, on uje ne pereklu4itsa na stariy. Skoree vsego, eto proisxodit potomu,
4to indeks na kajdom data-centre obladaet izbito4nost'u, i sna4ala obnovlaetsa
tol'ko 4ast' serverov (vidimo, polovina ot ob6ego koli4estva). V te4enie etogo
perioda, aktivna i vidaet rezul'tati zaprosov tol'ko drugaa polovina serverov.
Kak tol'ko zaver6aetsa process obnovlenia pervoy 4asti serverov, oni stanovatsa
aktivnimi i na4inaut obrabativat' zaprosi, poka drugaa 4ast' serverov polu4aet
noviy indeks. Takim obrazom, s to4ki zrenia pol'zovatela, obnovlenie otdel'nogo
data-centra proisxodit mgnovenno.
Nujno otmetit', takje, 4to dostup k
otdel'nim data-centram obi4no kontroliruetsa tol'ko DNS, no inogda zaprosi
pereadresuutsa. Opredelit' podobnie slu4ai neslojno: esli pri zaprose na odin iz
vi6epere4islennix domenov ssilki v ke6e na Google-server ne sovpadaut s
IP-adresom, prinadleja6im domenu, togda imeet mesto pereadresacia zaprosa. Takie
slu4ai svidetel'stvuut o tom, 4to Google ograni4ivaet (po raznim pri4inam)
dostup k opredelennomu data-centru.
Google Dance i testovie domeni www2
i www3
Na4alo Google Dance vsegda mojno nabludat'
na testovix domenax www2.google.com i www3.google.com . Eti domeni obi4no imeut
neizmennie zapisi DNS, sledovatel'no domeni privazani k opredelennomu (za4astuu
odinakovomu dla oboix adresov) IP-adresu. Pered na4alom Google Dance, po krayney
mere odin iz testovix domenov pripisivaetsa k IP-adresu togo data-centra,
kotoriy pervim polu4it noviy indeks.
Sozdanie absolutno novogo indeksa
odin raz v mesac - ves'ma neprostoe zadanie. V konce koncov, Google doljen
proskanirovat' neskol'ko milliardov dokumentov, i zatem obrabotat' Terabayti
dannix. Poetomu neizbejen process testirovania novogo indeksa. Sotrudnikam
Google, estestvenno, ne obazatel'no samim testirovat' indeks. Po4ti navernaka u
nix est' nemalo vnutrennix vozmojnostey dla proverki indeksa, no vremeni na
provedenia podobnix testov u nix avno ne xvatit.
Poetomu domeni www2 i
www3 prednazna4eni, skoree, dla togo, 4tobi pokazat' noviy indeks vebmasteram,
kotorie interesuutsa svoimi budu6imi reytingami. Mnogie iz etix vebmasterov
obsujdaut voprosi, svazannie s novim indeksom na setevix forumax Google. Eti
obsujdenia dostupni rabotnikam Google. Pri4em osnovnaa massa pol'zovateley e6e
ne mojet nabludat' noviy indeks, potomu 4to DNS zapisi dla www.google.com obi4no
ne ukazivaut na IP-adres data-centra, obnovlaemogo pervim pri na4ale o4erednogo
obnovlenia.
K momentu, kogda testovoe soob6estvo u4astnikov forumov
Google ne naxodit kakix-libo ser'eznix naru6eniy, vizvannix novim indeksom, DNS
zapisi Google gotovi pripisat' k www.google.com tot data-centr, kotoriy budet
obnovlat'sa pervim. Imenno v etot moment na4inaetsa Google Dance. No esli
ser'eznie naru6enia obnarujatsa na etoy testovoy stadii, e6e ostaetsa
vozmojnost' otmenit' obnovlenia na drugix data-centrax. Domen www.google.com ne
budet napravlat' zaprosi na data-centr s "ispor4ennim" indeksom, i 6irokaa
ob6estvennost' ni4ego ne zametit. V etom slu4ae indeks doljen bit' peres4itan,
libo set' budet skanirovat'sa zanovo.
Itak, rezul'tati poiska, vidimie
na www2.google.com i www3.google.com, poavlautsa na www.google.com pozdnee, v
processe planovogo obnovlenia indeksa. Odnako, vozmojni nebol'6ie variacii. S
odnoy storoni, indeks na odnom data-centre nikogda ne sovpadaet polnost'u s
indeksom na drugom data-centre. Eto mojno legko proverit', posmotrev
koli4estvennie pokazateli rezul'tatov odnogo i togo je zaprosa, sdelannogo na
raznix domenax, ukazannix vi6e. Za4astuu oni budut razli4at'sa. S drugoy
storoni, 4asto predpolagaetsa, 4to itterativniy ras4et zna4eniy PageRank e6e ne
zakon4en k momentu na4ala Google Dance, poetomu predvaritel'nie zna4enia
okazivaut vlianie na reytingi.
Novie zna4enia PageRank v
te4enie Google Dance
Mnogix vebmasterov interesuut
izmenenia reytingov ix vebsaytov v te4enie Google Dance. No, krome etogo, mnogim
takje xo4etsa uznat' ix novie zna4enia PageRank. Obi4no Tulbar Google beret
zna4enia PageRank iz togo data-centra, kotoriy opredelen IP-adresom v aktual'noy
zapisi DNS dla www.google.com. Poetomu, kogda na4inaetsa Google Dance, Tulbar
obi4no pokazivaet starie zna4enia PageRank.
Google peredaet na Tulbar zna4enia PageRank
v vide obi4nix tekstovix faylov. Ranee dla etogo ispol'zovalsa XML, a na
tekstovie fayli pere6li v avguste 2002 goda. Fayli PageRank mojno zaprosit'
neposredstvenno s domena www.google.com . Obi4no URL podobnix faylov imeut
sleduu6iy vid:
http://www.google.com/search?client=navclient-auto&ch=
0123456789&features=Rank&q=info:http://www.domain.com/
Fayli PageRank soderjat tol'ko odnu tekstovuu stroku. Zaver6aet etu
stroku abbreviatura "PageRank".
Parametri, vklu4ennie v privedenniy
zdes' URL neobxodimi dla togo, 4tobi otobrazit' fayli PageRank v brauzere.
Zna4enie "navclient-auto" dla parametra "client" identificiruet Tulbar. URL
peredaetsa 4erez parametr q. Zna4enie "Rank" dla parametra "features"
opredelaet, 4to zapra6ivautsa fayli PageRank. Esli ego opustit', serveri Google
budut peredavat' fayli XML. Parametr "ch" peredaet Google kontrol'nuu summu dla
dannogo URL, pri4em eta kontrol'naa summa mojet izmenat'sa tol'ko togda, kogda
Google obnovlaet versiu svoego Tulbara.
Fayli PageRank, zapra6ivaemie
Tulbarom Google, soxranautsa v ke6e Internet Explorer. Poetomu ix URL i
kontrol'nie summi mojno legko uznat', zaglanuv v papku Temporary Internet Files.
Znaa kontrol'nie summi va6ix URL, vi mojete prosmatrivat' fayli PageRank v va6em
brauzere. Poskol'ku fayli PageRank xranatsa v ke6e brauzera i avno dostupni dla
prosmotra, i poka zaprosi ne proizvodatsa avtomati4eski, prosmotr faylov
PageRank v brauzere ne budet naru6eniem Pravil Google. Odnako bud'te ostorojni.
Tulbar peredaet Google svoy sobstvenniy User-Agent, v vide:
Mozilla/4.0
(compatible; GoogleToolbar 1.1.60-deleon; OS SE 4/10)
1.1.60-deleon -
eto versia Tulbara, kotoraa, estestvenno, mojet izmenat'sa. OS - operacionnaa
sistema, kotoraa u vas ustanovlena. Takim obrazom, Google sposoben opredelat'
zaprosi ot brauzerov, esli oni ne postupaut 4erez proksi, i esli User-Agent ne
izmenen sootvetstvuu6im obrazom.
Sey4as davayte posmotrim, kak mi mojem
polu4it' novie zna4enia PageRank. Posmotrev na ke6 Internet Explorer, vi
zametite, 4to fayli PageRank zapra6ivautsa ne s domena www.google.com, a s
IP-adresov, podobnix 216.239.33.102 . K tomu je, URL faylov PageRank 4asto
soderjat parametr "failedip", kotoriy imeet zna4enie tipa "216.239.35.102;1111"
(nazna4enie etogo parametra poka 4to ne sovsem asno). Odnako polu4it' novie
zna4enia PageRank dovol'no prosto. Nujno izmenit' IP-adresa v URL takim obrazom,
4tobi zapros posilalsa na te data-centri, kotorie uje soderjat obnovlenniy
indeks. Neobxodimaa dla etogo informacia u vas uje
est'.
|