www.romver.ru
/ /



( )

Realizacia xoro6ego poiska po saytu 4asto sil'no nedoocenennaa po slojnosti zada4a. Poisk avlaetsa slabim mestom saytov nastol'ko 4asto, 4to kogda a viju stroku poiska, u mena srazu je voznikaet predvzatoe o6u6enie predstoa6ego fiasko. I 4tobi li6niy raz ne rasstraivat'sa, a srazu pereadresuu svoy vopros guglu ili andeksu i bistro naxoju to, 4to trebovalos'. 4to je delat', 4tobi kak-to ulu46it' etu situaciu?

Forma poiska po saytu ot Andeksa i Gugla
Lu46e vsego eto ponali i sdelali za nas sozdateli popularnix poiskovix sistem. I mi mojem vospol'zovat'sa rezul'tatami ix trudov, prosto ustanoviv formu poiska po saytu ot Andeksa ili Gugla.Eto prostoy put', no u nego est' svoi minusi:
  1. V poiske mogut bit' dostupni ne vse stranici sayta. Poiskovaa sistema ne garantiruet vklu4enia v poisk vsex stranic sayta, a krome togo ne vse stranici mogut bit' dostupni poiskovomu robotu.
  2. Bol'6aa zaderjka mejdu poavleniem novix stranic na sayte i ix dostupnost'u v poiske.
  3. Nel'za zadavat' uto4nenia dla poiska. Naprimer, zadat' poisk tol'ko v odnom podrazdele sayta ili po cenovomu diapazonu tovara.
  4. Nel'za ideal'no vstroit' rezul'tati poiska v dizayn sayta. Eto pere4erkivaet vse plusi takogo poiska dla bol'6instva solidnix portalov.
Vot nepolniy pere4en' problem, s kotorimi mojet stolknut'sa na4inau6iy poiskovod. Poetomu takoe re6enie mojno rekomendovat' tol'ko saytam, ne osobo bespokoa6imsa o svom kommer4eskom imidje.

Ka4estvo poiska
Dla na4ala nujno ponat', iz 4ego voob6e skladivaetsa ponatie ka4estva poiska. Ka4estvo poiska zavisit ot mnogix faktorov. O mnogix iz nix mojno pro4itat' v knige izvestnogo poiskovogo optimizatora kandidata texni4eskix nauk Igora A6manova. (Skaju po sekretu, 4to nedavno videl e na torrents.ru). Vse faktori uslovno mojno razbit' na tri kategorii: polnota, to4nost' i ranjirovanie.

Polnota
Polnota eto koli4estvo stranic, po kotorim vipolnaetsa poisk. Su6estvuet dva podxoda k indeksirovaniu dannix dla poiska: iznutri i snaruji.
  1. Iznutri eto indeksirovanie isxodnix dannix sayta, obi4no xrana6ixsa v BD. Etot sposob isklu4aet popadanie v rezul'tati poiska musornix stranic, no i svazan s riskom umen'6enia polnoti poiska.
  2. Snaruji indeksirovanie poiskovim robotom. Etot podxod v bol'6instve slu4aev garantiruet visokuu polnotu, no i porojdaet mnojestvo problem, kotorie budut opisani v budu6ix stat'ax.
Esli pol'zovatel' vidit na sayte poiskovuu stroku bez soprovoditel'nogo teksta, to on ojidaet, 4to, vveda zapros kontakti, on popadet na stranicu kontaktov. A esli eto ne tak, to eto o6ibka vebmastera, potomu 4to klient vsegda prav :)

Pri4ina etogo 4a6e vsego v tom, 4to na bol'6instve saytov realizovan poisk tol'ko po dinami4eskim dannim iz-za togo, 4to poiskovaa programma polu4aet dannie iz bazi dannix. Bolee togo, obi4no vebmaster (ili sozdatel' CMS) re6aet, kakie tablici v BD samie vajnie, a kakie nedostoyni vnimania. V rezul'tate za bortom poiska ostautsa nekotorie malozna4imie dinami4eskie dannie i vse stati4eskie stranici.

S drugoy storoni, esli postavit' cel'u obespe4enie maksimal'noy polnoti poiska, to v rezul'tatax mojet okazat'sa mnogo musornix i dubliruu6ixsa stranic, 4to toje negativno skazivaetsa na loal'nost' pol'zovateley.

To4nost'
To4nost' poiska eto xarakteristika sootvetstvia naydennix stranic poiskovomu zaprosu. V ne vxodat u4et morfologii, snatie omonimii, u4et ope4atok, poisk po sinonimam i dr. Naprimer, esli pol'zovatel' i6et koli4estvo golov Ar6avina, to asno, 4to golovi tut ni pri 4em, i nujno pokazivat' tol'ko informaciu pro zabitie goli. Vot e6e odin interesniy primer omonimii. No eto vis6iy pilotaj, a samoe prostoe, 4to xo4et uvidet' pol'zovatel' eto poisk po vsem vozmojnim slovoformam.

Dla u4eta morfologii ispol'zuutsa razli4nie algoritmi: stemmeri, morfologi4eskie slovari i gibridnie algoritmi. Vse oni v toy ili inoy stepeni nesover6enni. Naprimer, slovo est' mojet imet' formi bil, budet, em. Prostoy stemmer etogo ne poymt. Morfologi4eskiy slovar' vrad li predostavit slovoformi dla slova upa4ka. Bolee slojnie gibridnie algoritmi, ispol'zuu6ie slovarnie bazi i nabori evristik, bolee sover6enni, no i oni neideal'ni. Sey4as situacia s u4etom morfologii primerno takaa:
  1. Pri poiske po BD tol'ko li6' sredstvami SQL obi4no ispol'zuut stemmer. Eto naixud6iy u4et morfologii
  2. Open source poiskovie sistemi, takie kak Sphinx, Lucene, Xapian obi4no podderjivaut ustanovku svoego morfologi4eskogo analizatora, no v ka4estve vstroennogo algoritma dla russkogo azika obi4no takje ispol'zuetsa stemmer.
  3. Andeks.Server,FAST, Google Appliance imeut prodvinutie gibridnie algoritmi u4eta morfologii. Veroatno, Andeks.Server i Google Appliance imeut nailu46iy morfologi4eskiy analizator dla russkogo azika iz su6estvuu6ix, tak kak oni ispol'zuut tot je algoritm, 4to i v veb-poiske.


Ranjirovanie
Pod ranjirovaniem ponimaetsa poradok sortirovki naydennix dokumentax na stranice rezul'tatov poiska. Inogda dostato4no sortirovat' rezul'tati po prostomu kriteriu, naprimer, po date modifikacii, no 4a6e vsego trebuetsa uporado4ivanie dokumentov v poradke umen'6enia blizosti poiskovogo zaprosa rezul'tatu.Na ranjirovanii razrabot4iki krupnix poiskovix sistem slomali mnogo kopiy, poetomu ix produkti daut nailu46ie rezul'tati. Situacia s ranjirovaniem primerno takaa:
  1. Pri ispol'zovanii poiska sredstvami SQL dostupno ranjirovanie tol'ko po prostim kriteriam, takim kak data.
  2. Open Source sistemi (Sphinx, Lucene, dr.) imeut vstroennie prodvinutie alogritmi ranjirovania. Obi4no eto modifikacii alogritma tekstovoy relevantnosti.
  3. Kommer4eskie produkti (Andeks.Server, FAST, Google Appliance, dr.) imeut slojnie mnogofaktornie algoritmi ranjirovania, sekret kotorix xranitsa v tayne pod sem'u zamkami tak je, kak recept prigotovlenia Koka-Koli.
Vivodi
  1. Dla nebol'6ogo nekommer4eskogo sayta podoydet forma poiska Andeksa/Gugla.
  2. Dla poiska po razdelu sayta, ne trebuu6ego analiza morfologii zaprosa, slojnogo ranjirovania i soderja6ego nebol'6oe koli4estvo dannix, mojno ispol'zovat' SQL zapros + stemmer.
  3. Dla dostato4no bol'6ogo sayta, soderja6ego netrivial'nie stat'i stoit ispol'zovat' dvijok s xoro6ey morfologiey i ranjirovaniem:Andeks.Server,FAST, Google Appliance, dr.
  4. Lucene, Sphinx, i dr. podoydut, esli du6a lejit k Open Source i trebovania k poisku udovletvorautsa vozmojnostami dvijka.

dernuto s xabra

3
  ,
:
. +7(812) 984 5721

e-mail
icq 415547094  romver  mail.ru  romverinbox.ru
1997 - 2020 romver.ru

Display Pagerank