www.romver.ru
/ Ïîëíûé ñïèñîê ñòàòåé / Ïðèíöèïû ðàáîòû ïîèñêîâîé ìàøèíû Ðàìáëåð

Êàê çàêàçàòü ñàéò


ÀÁÐÀÊÀÄÀÁÐÀ (Òîæå ñàìîå íî â ÷èòàåìîì âèäå)

Principi raboti poiskovoy ma6ini Rambler

…ili kak vijit' v usloviax postoanno rastu6ego Interneta.
(publikuetsa s lubeznogo razre6enia press-slujbi OAO “Rambler Internet Xolding”)

Internet postoanno rastet, tak je kak rastet i 4islo pol'zovateley, kotorie obra6autsa s zaprosami k poiskovim sistemam. Uveli4enie ob&ema informacii i koli4estva zaprosov, v svou o4ered', privodit k povi6eniu trebovaniy k skorosti raboti poiskovix ma6in, ka4estvu poiska i nagladnosti predstavlenia rezul'tatov. Tak, dla togo 4tobi pol'zovatel' ostalsa dovolen rezul'tatom, na segodna6niy den' poiskovoy sisteme nujno sobrat', obrabotat', obnovit', nayti i otsortirovat' v dva raza bol'6e dokumentov, 4em god nazad. A osnovnaa zada4a poiska kak raz i sostoit v tom, 4tobi pol'zovatel' bil dovolen ego rezul'tatami.
Kogda pol'zovatel' obra6aetsa s zaprosom k poiskovoy ma6ine, on xo4et nayti to, 4to emu nujno, maksimal'no bistro i prosto. Polu4aa rezul'tat, on ocenivaet rabotu sistemi, rukovodstvuas' neskol'kimi osnovnimi parametrami. Na6el li on to, 4to iskal? Esli ne na6el, to skol'ko raz emu pri6los' pereformulirovat' zapros, 4tobi nayti iskomoe? Naskol'ko aktual'nuu informaciu on smog nayti? Naskol'ko bistro obrabativala zapros poiskovaa ma6ina? Naskol'ko udobno bili predstavleni rezul'tati poiska? Bil li iskomiy rezul'tat pervim ili sotim? Kak mnogo nenujnogo musora bilo naydeno naravne s poleznoy informaciey? Smojet li on, vernuv6is' zavtra i dav tot je zapros, polu4it' te je rezul'tati?
Dla togo, 4tobi otveti na eti voprosi ostavalis' udovletvoritel'nimi, razrabot4iki poiskovix ma6in postoanno sover6enstvuut algoritmi i principi poiska, dobavlaut novie funkcii, uskoraut rabotu sistemi. V etoy stat'e mi obratimsa k mexanizmu raboti poiskovoy ma6ini Rambler, i na primere ee ustroystva prodemonstriruem, kak dostigaetsa povi6enie ka4estva i skorosti poiska v usloviax postoannogo rosta ob&ema informacii v seti Internet.

Polnota

Polnota - eto odna iz osnovnix xarakteristik poiskovoy sistemi, kotoraa predstavlaet soboy otno6enie koli4estva naydennix po zaprosu dokumentov k ob6emu 4islu dokumentov v Intrnete, udovletvorau6ix dannomu zaprosu. Naprimer, esli v seti Internet imeetsa 100 stranic, soderja6ix slovoso4etanie “Krasnaa plo6ad'”, a po sootvetstvuu6emu zaprosu bilo naydeno vsego 70 iz nix, to polnota poiska budet 0,7. 4em polnee poisk, tem men'6e veroatnost', 4to pol'zovatel' ne smojet nayti nujniy emu dokument, pri uslovii, 4to on voob6e su6estvuet v Internete.
Polnota poiska v bol'6oy mere zavisit ot raboti sistemi sbora i obrabotki informacii. V svazi s postoannim rostom koli4estva dokumentov v seti, eta sistema v pervuu o4ered' doljna bit' mas6tabiruemoy. V Ramblere mas6tabiruemost' dostigaetsa za s4et parallel'nogo ispolnenia zada4i proizvol'nim koli4estvom ma6in.
Sborom informacii zanimaetsa robot-pauk, kotoriy obxodit stranici s zadannimi URL i ska4ivaet ix v bazu dannix, a zatem arxiviruet i perekladivaet v xranili6e suto4nimi porciami. Robot razme6aetsa na neskol'kix ma6inax, i kajdaa iz nix vipolnaet svoe zadanie. Tak, robot na odnoy ma6ine mojet ka4at' novie stranici, kotorie e6e ne bili izvestni poiskovoy sisteme, a na drugoy - stranici, kotorie ranee uje bili ska4eni ne menee mesaca, no i ne bolee goda nazad. Xranili6e u vsex ma6in edino. Pri neobxodimosti rabotu mojno raspredelit' drugim sposobom, naprimer, razbiv spisok URL na 10 4astey i razdav ix 10 ma6inam. Parallel'naa rabota programmi pozvolaet legko viderjivat' dopolnitel'nuu nagruzku: pri uveli4enii koli4estva stranic, kotorie nujno oboyti robotu, dostato4no prosto raspredelit' zada4u na bol'6ee 4islo ma6in.
V xranili6e informacia v sjatom vide sobiraetsa i razbivaetsa na kuski po 50 Mb. Eti 4asti postepenno raspredelautsa mejdu 70 ma6inami, na kotorix zapu6ena programma-indeksator. Kak tol'ko indeksator na odnoy iz ma6in zakan4ivaet obrabotku o4erednoy 4asti stranic, on obra6aetsa za sleduu6ey porciey. V rezul'tate na pervom etape formiruetsa mnogo malen'kix indeksnix baz, kajdaa iz kotorix soderjit informaciu o nekotoroy 4asti Interneta. Takim obrazom, vsa intellektual'naa obrabotka dannix osu6estvlaetsa parallel'no, poetomu uskorenie processa indeksacii dostigaetsa prostim dobavleniem ma6in v sistemu.
Posle togo, kak vse 4asti informacii obrabotani, na4inaetsa ob&edinenie rezul'tatov. Blagodara tomu, 4to 4asti4nie indeksnie bazi i osnovnaa baza, k kotoroy obra6aetsa poiskovaa ma6ina, imeut odinakoviy format, procedura ob&edinenia avlaetsa prostoy i bistroy operaciey, ne trebuu6ey nikakix dopolnitel'nix modifikaciy 4asti4nix indeksov. Osnovnaa baza u4astvuet v analize kak odna iz 4astey novogo indeksa. Tak, esli ob&edinautsa 70 novix 4astey, to v analize u4astvuet 71 fragment (70 novix + osnovnaa baza predidu6ey redakcii). Krome togo, ediniy format pozvolaet provodit' testirovanie 4asti4nix baz e6e do ob&edinenia ix s osnovnoy, i obnarujivat' o6ibki na bolee rannem etape.
Special'naa programma (“slivator”) sostavlaet tablici perenumeracii dokumentov bazi. Soderjimoe vsex 4astey ob&edinaetsa. Sredi stranic s odinakovimi adresami vibiraetsa naibolee svejaa versia; esli pri ska4ivanii URL posledney informaciey bila o6ibka 404 (zapra6ivaemaa stranica ne su6estvuet), ona vremenno udalaetsa iz indeksnoy bazi. Parallel'no osu6estvlaetsa skleyka dubley: stranici, kotorie imeut odinakovoe soderjimoe, no razli4nie URL, ob&edinautsa v odin dokument.
Sborka edinoy bazi iz 4asti4nix indeksnix baz predstavlaet soboy prostoy i bistriy process. Sopostavlenie stranic ne trebuet nikakoy intellektual'noy obrabotki i proisxodit so skorost'u 4tenia dannix s diska. Esli informacii, kotoraa generiruetsa na ma6inax-indeksatorax, polu4aetsa sli6kom mnogo, to procedura “slivania” 4astey proxodit v neskol'ko etapov. V na4ale 4asti4nie indeksi ob&edinautsa v neskol'ko promejuto4nix baz, a zatem promejuto4nie bazi i osnovnaa baza predidu6ey redakcii peresekautsa. Takix etapov mojet bit' skol'ko ugodno. Promejuto4nie bazi mogut slivat'sa v drugie promejuto4nie bazi, a uje potom ob&edinat'sa okon4atel'no. Poetapnaa rabota nezna4itel'no zamedlaet formirovanie edinogo indeksa i ne otrajaetsa na ka4estve rezul'tatov.

To4nost'

To4nost' - e6e odna osnovnaa xarakteristika poiskovoy ma6ini, kotoraa opredelaetsa kak stepen' sootvetstvia naydennix dokumentov zaprosu pol'zovatela. Naprimer, esli po zaprosu “Krasnaa plo6ad'” naxoditsa 150 dokumentov, v 70 iz nix soderjitsa slovoso4etanie “Krasnaa plo6ad'”, a v ostal'nix prosto prisutstvuut eti slova (“krasnaa baba kri4ala na vsu plo6ad'”), to to4nost' poiska s4itaetsa ravnoy 70/150 (~0,5). 4em to4nee poisk, tem bistree pol'zovatel' naxodit nujnie emu dokumenti, tem men'6e “musora” sredi nix vstre4aetsa, tem reje naydennie dokumenti ne sootvetstvuut zaprosu.
Povi6enie to4nosti v poiskovoy ma6ine Rambler dostigaetsa za s4et ispol'zovania razli4nix texnologiy na vsex etapax obrabotki i poiska informacii. Odnim iz naibolee interesnix processov avlaetsa raspoznavanie grammati4eskix omonimov. Omonimi - eto slova, kotorie imeut odinakovoe napisanie, no razli4niy smisl. Razli4aut leksi4eskie i grammati4eskie omonimi. Leksi4eskie omonimi otnosatsa k odnoy 4asti re4i, kak, naprimer, su6estvitel'noe “bor”: xvoyniy les, stal'noe sverlo i ximi4eskiy element. Grammati4eskie omonimi otnosatsa k raznim 4astam re4i, poetomu po napisaniu u nix obi4no sovpadaut tol'ko otdel'nie formi. Primerami grammati4eskix omonimov mogut slujit' slova “pe4'” - su6estvitel'noe russkaa “pe4'” i glagol “pe4'” pirojki; “radovoy” - prilagatel'noe “radovoy” sotrudnik i su6estvitel'noe “radovoy” Ivanov.
Omonimi ne tol'ko uveli4ivaut razmer indeksnoy bazi (tak kak dla kajdogo takogo slova prixoditsa xranit' vse ego vozmojnie zna4enia), no i otricatel'no skazivautsa na to4nosti poiska. Esli pol'zovatel' i6et slovo “dannie”, emu neinteresno polu4it' v naydennom vse dokumenti, kotorie soderjat slovo “dat'”. Dla togo, 4tobi rezul'tati poiska bili to4nee, modul' sintaksi4eskogo analiza provodit razbor okrujenia slov-omonimov s cel'u ustanovlenia ix naibolee veroatnix zna4eniy. Naprimer, esli radom so slovom “pe4'” stoit su6estvitel'noe (“pirojki”, “karto6ka”), to s visokoy veroatnost'u “pe4'” v dannom kontekste avlaetsa glagolom. Na segodna6niy den' analizator sposoben raspoznavat' zna4enia tol'ko grammati4eskix omonimov.
Sintaksi4eskiy analiz pozvolaet takje s opredelennoy veroatnost'u raspoznavat' nekotorie imena sobstvennie. Naprimer, esli v tekste neskol'ko slov podrad napisano s bol'6oy bukvi, oni 4a6e vsego predstavlaut soboy ima sobstvennoe (Petr Petrovi4, Moskovskiy Gosudarstvenniy Universitet). Dannie o takix konstrukciax u4itivautsa pri indeksacii i obrabotke zaprosa.
E6e odin sposob povi6enia to4nosti poiska - eto videlenie ustoy4ivix obozna4eniy i poisk ix kak otdel'nix leksi4eskix edinic. Na segodna6niy den' v Ramblere realizovana sistema raspoznavania takix konstrukciy, naprimer C++, b/u, p/p-k. Esli po zaprosu S++ podnimat' vse teksti, v kotorix prisutstvuut latinskaa bukva S, a takje znak +, to polu4itsa ogromnoe koli4estvo dokumentov, daleko ne vse iz kotorix sootvetstvuut zaprosu; krome togo, eto bol'6aa rabota, zna4itel'no uveli4ivau6aa vrema poiska.
Ogromnuu rol' v povi6enii to4nosti poiska igraet ranjirovanie. Pol'zovatel' o4en' redko prosmatrivaet bol'6e tr¸x stranic s rezul'tatami poiska. Poetomu sub&ektivno on ocenivaet to4nost' po “verxnim” dokumentam. Daje esli nujniy dokument nayden poiskovoy ma6inoy, no raspolojen na dvuxsotoy pozicii, skoree vsego, on nikogda ne budet nayden pol'zovatelem.
Po umol4aniu v Ramblere rezul'tati ranjiruutsa po stepeni sootvetstvia zaprosu (relevantnosti) i gruppiruutsa po saytam. Pri ranjirovanii ocenivautsa razli4nie xarakteristiki tekstov, takie kak:
- Koli4estvo vxojdeniy slov (slovoso4etaniy) v dokument - 4em bol'6e raz slovoso4etanie “Krasnaa plo6ad'” prisutstvuet v tekste, tem vi6e veroatnost', 4to v nem deystvitel'no govoritsa o Krasnoy plo6adi;
- Raspolojenie slov zaprosa v dokumente - esli slovoso4etanie “Krasnaa plo6ad'” prisutstvuet v zagolovkax ili nazvanii dokumenta, to dokument s bol'6ey veroatnost'u posva6en Krasnoy plo6adi;
- Formi slov zaprosa - preimu6estvo otdaetsa vxojdeniam, v kotorix slova imeut tot je padej, 4islo, sklonenie i t.d., 4to i v zaprose pol'zovatela (“Krasnaa plo6ad'”, a ne “Krasnoy plo6ad'u”). Pomimo to4nogo sovpadenia, videlautsa dve gruppi form slov - blizkie i dalekie. Blizkimi s4itautsa izmenenia po padejam, skloneniam, sprajeniam, 4islam i rodam. Dalekimi formami avlautsa pri4astia, deepri4astia i t.p. Pri ranjirovanii preimu6estvo otdaetsa blizkim formam slov zaprosa.
- Otnositel'naa 4astota (otno6enie koli4estva vxojdeniy slov zaprosa v dokument k ob6emu koli4estvu slov v dokumente) - esli slovoso4etanie vstre4aetsa 10 raz v dokumente iz 100 slov, to on skoree sootvetstvuet zaprosu, 4em esli ono vstre4aetsa te je 10 raz v dokumente iz 20 tisa4 slov;
- Rasstoanie mejdu slovami zaprosa - esli zapros sostoit iz neskol'kix slov, to v naydennix dokumentax ocenivaetsa, naskol'ko blizko drug ot druga raspolojeni eti slova. Preimu6estvo otdaetsa dokumentam, v kotorix slova zaprosa naxodatsa blije drug k drugu, potomu 4to v etom slu4ae oni s bol'6ey veroatnost'u svazani mejdu soboy. Naprimer, esli slovo “Krasnaa” raspolojeno v tekste na 5 pozicii, a slovo “plo6ad'” - na 650, to skoree vsego v dokumente re4' idet ne o Krasnoy plo6adi.
- Pose6aemost' dokumenta - v nekotorix slu4aax poiskovoy ma6ine Rambler izvestna pose6aemost' stranic (esli eti stranici avlautsa u4astnikami reytinga Tor 100). Preimu6estvo otdaetsa bolee pose6aemim resursam.
- Ssilo4niy ves dokumenta - pri ranjirovanii u4itivaetsa ssilo4niy ves stranici, rass4itanniy na osnovanii u4eta giperssilok, soderja6ix slova zaprosa. Tak, esli na dokument slovami “Krasnaa plo6ad'” ssilaetsa bol'6oe koli4estvo avtoritetnix stranic, to emu otdaetsa prioritet po zaprosu Krasnaa plo6ad'.
Pomimo avtomati4eskix sposobov uveli4enia to4nosti poiska, su6estvuut razli4nie sredstva, s pomo6'u kotorix pol'zovatel' sam mojet uto4nit' poisk po otdel'nim zaprosam. V pervuu o4ered' k nim otnositsa special'niy azik poiskovogo zaprosa, ispol'zua kotoriy mojno ograni4ivat' koli4estvo naydennix dokumentov. Naprimer, zapros ili ego 4ast', vzatie v kavi4ki, obrabativautsa bukval'no, s u4etom vsex stop-slov, form, poradka, znakov prepinania. Eto povi6aet to4nost' poiska, no umen'6aet ego polnotu: esli 4ast', zaklu4ennaa v kavi4ki, neto4na, nujniy dokument nayden ne budet.
Ispol'zovanie logi4eskogo operatora OR (ILI) pozvolaet ras6irit' sferu poiska i uveli4it' ego polnotu, v to vrema kak operator NOT (I-NE), naoborot, povi6aet to4nost' poiska za s4et naxojdenia dokumentov, kotorie soderjat odni slova zaprosa i ne soderjat drugie. Dla povi6enia to4nosti mojno takje zadavat' rasstoanie mejdu slovami. Esli v iskomom slovoso4etanii poradok slov obi4no soxranaetsa (naprimer, Krasnaa plo6ad'), to v zaprose dla povi6enia to4nosti imeet smisl ograni4it' rasstoanie, ukazav ego v skobkax 4erez zapatuu: (2, Krasnaa plo6ad'). Eto pozvolit otseat' dokumenti, v kotorix slova krasnaa i plo6ad' ne raspolojeni radom, a razbrosani po tekstu.
Uveli4it' to4nost' mojno s pomo6'u ispol'zovania poiska v naydennom. Kajdiy sleduu6iy, uto4nau6iy poisk, provoditsa uje ne po vsey indeksnoy baze, a tol'ko po rezul'tatam predidu6ego poiska. Takim obrazom, krug naydennix dokumentov sujaetsa. Naprimer, esli dat' zapros Krasnaa plo6ad', a zatem, provesti poisk v naydennom po zaprosu Moskva, to rezul'tat budet soderjat' tol'ko te dokumenti, v kotorix govoritsa o Krasnoy plo6adi goroda Moskvi.

Aktual'nost'
Aktual'nost' - ne menee vajnaa xarakteristika poiska, kotoraa opredelaetsa vremenem, proxoda6im s momenta publikacii dokumentov v seti Internet, do zanesenia ix v indeksnuu bazu. Naprimer, na sleduu6iy den' posle terakta v Tu6ino ogromnoe koli4estvo pol'zovateley obratilis' k poiskovoy ma6ine Rambler s sootvetstvuu6imi zaprosami. Ob&ektivno s momenta publikacii novostnoy informacii na etu temu pro6lo men'6e sutok. Odnako osnovnie dokumenti uje bili zaindeksirovani i dostupni dla poiska, blagodara su6estvovaniu “bistroy bazi”, kotoraa obnovlaetsa dva raza v den', a pri neobxodimosti mojet obnovlat'sa bistree.
Na segodna6niy den' indeksnaa baza poiskovoy sistemi Rambler sostoit iz 8 4astey, kajdaa iz kotorix jivet svoey nezavisimoy jizn'u. Ves' Internet uslovno razdelen na 7 sektorov i nazivaetsa svoim cvetom: krasniy, oranjeviy, jeltiy, zeleniy, goluboy, siniy, fioletoviy. Sayt kompanii Rambler otnositsa k golubomu sektoru. Informacia o web-resursax kajdogo sektora xranitsa v sootvetstvuu6ey 4asti indeksnoy bazi. Vos'maa 4ast' - “bistraa baza” - vklu4aet v seba stranici, na kotorix razme6en s4et4ik Tor 100 i kotorie e6e ne uspeli popast' v osnovnuu indeksnuu bazu.
Vse 4asti indeksnoy bazi sobirautsa i obnovlautsa po otdel'nosti. Tak, segodna proisxodit pereindeksacia i obnovlenie krasnogo sektora, zavtra - oranjevogo i jeltogo, poslezavtra - zelenogo i t.d. Blagodara takomu stupen4atomu algoritmu v poiskovoy ma6ine kajdiy den' poavlaetsa svejaa informacia ob odnoy sed'moy 4asti Interneta. Polniy cikl obnovlenia zanimaet okolo nedeli. Pri etom sbor informacii proisxodit parallel'no, a neposredstvenno na izgotovlenie indeksa dokumentov odnogo sektora uxodit vsego neskol'ko 4asov. Poetomu su6estvuet principial'naa vozmojnost' obnovlat' indeksnuu bazu bistree.
Razdelenie Interneta na 7 sektorov uslovno. Pri neobxodimosti on mojet bit' razbit na 10, 20 ili 40 sektorov, kajdiy iz kotorix budet obrabativat'sa avtonomno. V takoy sisteme zalojena vozmojnost' zna4itel'nogo uveli4enia nagruzki. S rostom ob&ema informacii v seti Internet rastet i indeksnaa baza poiskovoy ma6ini. Postepenno pereindeksacia i sborka bazi na4inaet zanimat' vse bol'6e vremeni, a process obnovlenia indeksa stanovitsa bolee gromozdkim. Postuplenie novix dannix zatagivaetsa, informacia na4inaet terat' svou aktual'nost'. Vozmojnost' “peredela” Interneta na bol'6ee 4islo sektorov pozvolaet uderjivat' razmer kajdoy 4asti bazi v optimal'nom diapazone, kontrolirovat' vrema ee sborki i obnovlenia.
“Bistraa baza” otli4aetsa ot ostal'nix 4astey indeksa men'6im ob&emom i o4en' operativnim obnovleniem: vrema ee postroenia zanimaet okolo dvux 4asov. V baze soderjitsa informacia o stranicax, na kotorix bil ustanovlen s4et4ik Tor 100. U4astnikami reytinga Tor 100 avlautsa novostnie portali, sayti krupnix kompaniy, Internet-magazini, forumi, - vse naibolee popularnie resursi v seti. Kajdiy raz pri ustanovke s4et4ika na novuu stranicu sayta, zaregistrirovannogo v Tor 100, informacia peredaetsa v poiskovuu sistemu. Stranica i6etsa vo vsex cvetax osnovnoy bazi i, esli ona e6e ne izvestna poiskovoy sisteme, otpravlaetsa v o4ered' na obrabotku. Pered obrabotkoy stranici dopolnitel'no fil'truutsa, iz nix otbirautsa samie pose6aemie. Takim obrazom, “slivki” s Interneta sobirautsa dva raza v den'.
“Bistraa baza” predstavlaet soboy razumnoe re6enie problemi aktual'nosti dannix v poiske. Informacionnoe agentstvo mojet vilojit' novost' 4erez desat' minut posle ee poavlenia, potomu 4to tratit vrema tol'ko na verstku stranici. Poiskovaa ma6ina doljna sna4ala zaindeksirovat' tekst, a na eto trebuetsa gorazdo bol'6e vremeni. “Bistraa baza” oxvativaet vse resursi Internet, zaregistrirovannie v Tor 100, na kotorix bil razme6en s4et4ik, i kotorie e6e ne uspeli popast' v osnovnuu bazu. Pri etom indeksiruutsa kak stranici s novostami, tak i drugie svejie dokumenti, poaviv6iesa v Tor 100. V rezul'tate 4erez sutki posle terakta v poiske Ramblera bila dostupna ne tol'ko osnovnaa informacia, opublikovannaa na saytax novostnix agentstv, kotoruu mojno nayti i pro4itat' v razdelax novostey, no i kommentarii, viskazivania o4evidcev, obsujdenia na forumax, vse, 4to bilo k etomu vremeni opublikovano na naibolee pose6aemix stranicax Interneta.
Skorost' poiska
Skorost' poiska tesno svazana s ego ustoy4ivost'u k nagruzkam. Na segodna6niy den' v rabo4ie 4asi k poiskovoy ma6ine Rambler prixodit okolo 60 zaprosov v sekundu. Takaa zagrujennost' trebuet sokra6enia vremeni obrabotki otdel'nogo zaprosa. Zdes' interesi pol'zovatela i poiskovoy sistemi sovpadaut: posetitel' xo4et polu4it' rezul'tati kak mojno bistree, a poiskovaa ma6ina doljna otrabativat' zapros maksimal'no operativno, 4tobi ne tormozit' vi4islenie sleduu6ix. Sxemati4no obrabotka poiskovogo zaprosa izobrajena na risunke 1.

Zapros postupaet v poiskovuu sistemu 4erez mar6rutizator Cisco 6000 series. Cisco peredaet ego naimenee zagrujennoy ma6ine pervogo urovna - frontend (1.1 - 1.3, na ris. ma6ine 1.3). Frontend, v svou o4ered', otpravlaet zapros dal'6e, na odin iz semi proxy-serverov, takje vibiraa naibolee svobodniy server (2.1 - 2.7, na ris. ma6ine 2.2). Odnovremenno frontend otpravlaet zapros na ma6ini, osu6estvlau6ie poisk po tovaram (3.1 - 3.2, na ris. ma6ine 3.1) i po baze Tor 100 (4.1 - 4.2, na ris. ma6ine 4.1). Na proxy provoditsa poisk po ssilo4nomu indeksu, i ego rezul'tati vmeste s poiskovim zaprosom peredautsa na ma6ini, kotorie soderjat osnovnuu indeksnuu bazu, - backends (5.1.x - 5.7.x, na ris. ma6inam 5.1.2, 5.2.10, 5.3.1 i t.d.) Ta je informacia otpravlaetsa na ma6ini s “bistroy bazoy” (6.1 - 6.2, na ris. 6.1).
Na teku6iy moment v poisk vklu4eno okolo 70 backend’ov. Oni sgruppirovani po 10 ma6in, i kajdaa gruppa soderjit kopiu odnoy iz 4astey poiskovogo indeksa. Takim obrazom, informacia o saytax, uslovno vxoda6ix v krasniy sektor Interneta, naxoditsa na backend’ax pervoy gruppi (5.1.1 - 5.1.10 na ris), oranjeviy sektor - na backend’ax vtoroy gruppi (5.2.1 - 5.2.10) i t.d. Proxy-server vibiraet naimenee zagrujenniy backend v kajdoy gruppe ma6in i otpravlaet na nego poiskoviy zapros s rezul'tatami ssilo4nogo poiska. Na backend’ax osu6estvlaetsa poisk po 4astam indeksnoy bazi i ranjirovanie s u4etom rezul'tatov poiska po ssilo4nomu indeksu. Pri ranjirovanii dla vsex naydennix dokumentov vis4itivautsa vesa po konkretnomu zaprosu.
Posle togo, kak zapros obrabotan na backend’ax, informacia o rezul'tatax i ranjirovanii otdaetsa obratno na proxy-server. Tuda je postupaut otsortirovannie rezul'tati s ma6in “bistroy bazi”. Proxy integriruet dannie, polu4ennie s vos'mi ma6in: kleit dubli, ob&edinaet zerkala saytov, pereranjiruet dokumenti v ob6iy spisok po vesam, rass4itannim na backend’ax. Tak, pervim v spiske naydennogo mojet bit' dokument s ma6ini 5.3.1, vtorim i tret'im - s 6.1, 4etvertim - s 5.5.2 i t.d. Na proxy-servere takje realizuetsa postroenie citat k dokumentam i podsvetka slov zaprosa v tekste. Polu4ennie rezul'tati otdautsa na frontend.
Pomimo informacii s proxy-servera, frontend polu4aet rezul'tati iz poiska po tovaram i iz bazi Tor 100, otsortirovannie, s citatami i podsvetkoy slov zaprosa. Frontend osu6estvlaet okon4atel'noe ob&edinenie rezul'tatov, generiruet html so spiskom naydennogo, vstavlaet banneri i perevazki (ssilki na razli4nie razdeli Ramblera) i otdaet html Cisco, kotoriy mar6rutiziruet informaciu pol'zovatelu.
Kajdiy iz etapov obrabotki zaprosa mnogokratno produblirovan i za6i6en sistemoy balansirovki nagruzki. Blagodara dublirovaniu informacii poiskovaa sistema Rambler avlaetsa ustoy4ivoy k sboam na otdel'nix u4astkax, avariam, otkazam oborudovania. Esli odna ix ma6in perestala funkcionirovat', nagruzka pereraspredelaetsa na drugie ma6ini, i vipadenia dokumentov iz poiska ne proisxodit. Mas6tabiruemost' dostigaetsa prostim dobavleniem v sistemu ma6in sootvetstvuu6ego urovna. Do nedavnego vremeni v Ramblere rabotalo 40 backend’ov. V svazi s tem, 4to osen'u nagruzka na poiskovie sistemi obi4no vozrastaet, 4islo backend’ov bilo uveli4eno do 70, 4to pozvolilo zna4itel'no uskorit' vi4islenie zaprosov.
E6e odin sposob povi6enia skorosti poiska - “ke6irovanie”, soxranenie informacii o zaprosax i rezul'tatax poiska v bufere. Mnogie ludi daut odni i te je poiskovie zaprosi. Vi4islat' ix kajdiy raz zanovo bilo bi nerazumnoy tratoy vremeni. Poetomu esli zapros uje obrabativalsa v te4enie nekotorogo intervala vremeni, rezul'tati poiska otdautsa pol'zovatelu “iz ke6a”.
Lingvisti4eskiy analiz teksta dokumentov i zaprosa takje pozvolaet uskorit' obrabotku informacii. Naprimer, opredelenie zna4enia omonimov umen'6aet koli4estvo nerelevantnix zaprosu dokumentov, kotorie nujno ranjirovat' i citirovat'. Videlenie ustoy4ivix obozna4eniy (S++, b/u) na etapax indeksacii i obrabotki zaprosa privodit odnovremenno k povi6eniu to4nosti i sokra6eniu vremennix zatrat na obrabotku kajdogo otdel'nogo elementa obozna4enia (ran'6e zapros S++ obrabativalsa kak otdel'no latinskoe S, otdel'no plus i e6e odin plus. Zapros vi4islalsa dolgo, a sredi rezul'tatov poiska bilo mnogo nerelevantnix dokumentov, naprimer, stranici, soderja6ie matemati4eskie formuli i t.p.) S etoy je cel'u ispol'zuutsa slovari stop-slov. Stop-slova - eto naibolee 4astotnie slova azika, kotorie vstre4autsa prakti4eski v lubom tekste i avlautsa maloinformativnimi. V osnovnom, eto slujebnie slova - predlogi, 4astici, artikli. Esli net special'nix ukazaniy, poiskovaa ma6ina ignoriruet stop-slova, vstre4au6iesa v zaprose, 4tobi ne tratit' vrema na obrabotku dopolnitel'noy informacii, snijau6ey ka4estvo poiska.
Nagladnost'
Nagladnost' predstavlenia rezul'tatov avlaetsa neobxodimim komponentom udobnogo poiska. Na ploxoy vitrine legko ne zametit' xoro6iy tovar. Po bol'6instvu zaprosov poiskovaa ma6ina naxodit sotni, a to i tisa4i dokumentov. V sledstvie ne4etkosti zaprosov ili neto4nosti poiska, daje pervie stranici ne vsegda soderjat tol'ko nujnuu informaciu. Eto ozna4aet, 4to pol'zovatelu 4asto prixoditsa provodit' svoy sobstvenniy poisk vnutri spiska naydennogo. Razli4nie elementi otvetnoy stranici pomogaut orientirovat'sa v rezul'tatax poiska.
Gruppirovka po saytam prednazna4ena dla togo, 4tobi na stranice mojno bilo vivesti kak mojno bol'6e Internet-resursov, relevantnix zaprosu pol'zovatela. Eto bivaet vajnim, kogda neobxodimo polu4it' informaciu iz razli4nix isto4nikov. Esli bolee informativnoy dla posetitela avlaetsa data obnovlenia ili relevantnost' otdel'nix dokumentov, v otvetnoy stranice Ramblera su6estvuet vozmojnost' sortirovki po etim parametram.
V nekotorix slu4aax poleznim bivaet znanie imeni sayta. Esli pol'zovatela interesuet konkretniy Internet-resurs, ima mojet dat' emu gorazdo bol'6e informacii, 4em zagolovok stranici ili citata.
Esli zaprosu sootvetstvuet bol'6e odnoy stranici s sayta, to v ka4estve rezul'tata poiska pred&avlaetsa naibolee relevantnaa iz nix, a nije raspolagaetsa 4asti4niy spisok ostal'nix dokumentov. Eto uveli4ivaet koli4estvo potencial'no poleznoy informacii na otvetnoy stranice i 4asto pozvolaet uto4nit' poisk bez dopolnitel'nogo zaprosa.
Citata pomogaet opredelit', naskol'ko poleznuu informaciu soderjit naydenniy dokument. O4en' 4asto posetitelu ne trebuetsa perexodit' po ssilke, 4tobi obnarujit', 4to tekst ne sootvetstvuet ego interesam i potrebnostam. Inogda otvet na vopros pol'zovatela soderjitsa neposredstvenno v citate dokumenta. Eto ekonomit vrema i povi6aet effektivnost' raboti poiskovoy sistemi.
Vosstanovit' tekst - inogda edinstvenniy sposob polu4it' dostup k soderjimomu naydennogo dokumenta. Resurs bivaet nedostupen po raznim pri4inam. Dokument mojet bit' udalen, perenesen, izmenen, no ego tekstovoe soderjanie nekotoroe vrema soxranaetsa v indeksnoy baze. Krome togo, vnutri samogo dokumenta 4asto otsutstvuet navigacia, pozvolau6aa bistro nayti fragment, relevantniy zaprosu. V vosstanovlennom tekste vse slova zaprosa podsve4ivautsa.
Associacii predstavlaut soboy spisok zaprosov, kotorie 4asto podautsa pol'zovatelami v te4enii odnoy poiskovoy sessii. Algoritm postroenia associaciy ustroen tak, 4to oni po4ti vsegda svazani mejdu soboy po smislu. V nekotorix slu4aax associacii pozvolaut povisit' ka4estvo poiska za s4et uto4nenia zaprosa (zapros “otdix v Pol'6e” - associacii “otdix v Pol'6e s det'mi”, “semeyniy otdix”, “pansionati v Pol'6e”), ispravlenia rasprostranennix o6ibok (zapros “gjujlf” - associacia “pogoda”), vozmojnosti sorientirovat'sa v neznakomoy tematike (zapros “antibiotik” - associacii “sumamed”, “cifran”, “biseptol” i t.d.)
Vmesto zaklu4enia
Zaklu4enie pi6etsa v konce i predpolagaet kone4nost'. No rost informacii beskone4en, a potomu net predela sover6enstvovaniu poiskovix ma6in. Vajney6ey zada4ey razrabot4ikov avlaetsa ulu46enie ka4estva poiska, dvijenie v storonu bol'6ey effektivnosti i udobstva v ispol'zovanii sistemi. S etoy cel'u postoanno menautsa poiskovie algoritmi, sozdautsa dopolnitel'nie servisi, dorabativaetsa dizayn.
Odnako dla togo, 4tobi vijit' v mire dinami4nogo Interneta, pri razrabotke neobxodimo zakladivat' bol'6oy zapas ustoy4ivosti, postoanno zagladivat' v zavtra6niy den' i primerat' budu6uu nagruzku na segodna6niy poisk. Vse, 4to segodna programmiruetsa v Ramblere, rass4itano “na virost”. Takoy podxod pozvolaet zanimat'sa ne tol'ko postoannoy bor'boy i prisposobleniem poiskovoy ma6ini k rastu6im ob&emam informacii, no i realizovivat' 4to-to novoe, deystvitel'no vajnoe i nujnoe dla povi6enia effektivnosti poiska v seti Internet.
 
Avtor - gray@searchengines.ru Gray
vzat' s http://www.searchengines.ru/articles/004575.html
3
Ñîçäàíèå ýêñêëþçèâíûõ ñàéòîâ, þçèáèëèòè àíàëèç è áåñïëàòíûé àíàëèç ïîä çàïðîñû îñíîâíûõ ïîèñêîâûõ ìàøèí
Êîíòàêòíàÿ èíôîðìàöèÿ :
òåë. +7(98I) 7608865

Íàïèñàòü ïèñüìî íà e-mail
icq 415547094  romverðåéòèíã íà mail.ru ñàéòà romverinbox.ru
© 1997 - 2024 romver.ru

Ïîëíàÿ êàðòà ñàéòà Display Pagerank