www.romver.ru
/ Полный список статей / Поисковая система “mnoGoSearch”

Как заказать сайт


АБРАКАДАБРА (Тоже самое но в читаемом виде)

Nastoa6aa rabota avlaetsa ot4etom ob u4astii v konferencii ROMIP-2008. Glavnoy cel'u raboti bila aprobacia metodov ras4eta relevantnosti dokumenta zaprosu pri poiske po Web-stranicam i kollekcii normativnix dokumentov. Vvedenie MnoGoSearch avlaetsa svobodno rasprostranaemoy poiskovoy sistemoy, rabotau6ey v operacionnix sistemax semeystva Unix, prednazna4ennoy dla organizacii poiska na odnom ili mnogix Web-serverax. Pervaa versia mnoGoSearch bila vipu6ena v noabre 1998 pod nazvaniem UDMSearch. V oktabre 2001 goda poavilis' kommer4eskie modifikacii sistemi, realizovannie dla operacionnix sistem Windows. Poslednie versii sistemi mojno nayti na sayte http://www.mnogosearch.org/. 1. Kratkoe opisanie sistemi mnoGoSearch sostoit iz dvux 4astey. Pervaa 4ast' - indeksiruu6iy mexanizm (indexer). Indexer probegaet po ssilkam i soxranaet v baze dannix informaciu o dokumentax, terminax i ssilkax. Vtoraa 4ast' sostoit iz CGI-programmi, predostavlau6ey vozmojnost' poiska v dannix, sobrannix indexer’om. Osnovnie vozmojnosti mnoGoSearch vklu4aut:

Podderjku osnovnix protokolov Interneta (HTTP, HTTPS, FTP, NNTP) i rabota s lokal'nimi faylami;

Vstroennuu podderjku dokumentov formata txt, html, xml, a tak je vozmojnost' podklu4enia vne6nix programm-konvertorov dla lubix drugix tipov dokumentov, takix kak doc, pdf, rtf, xls, ppt, i t.d.;

Ne4ѐtkiy poisk na osnove sinonimov, podstrok, a tak je generacii slovoform (padeji, sklonenia, i t.d.) s ispol'zovaniem slovarey grammati4eskogo analizatora ispell;

2. Napravlenia razvitia sistemi Poslednie versii mnoGoSearch pozvolaut indeksirovat' neskol'ko millionov dokumentov na odnom komp'utere, a v versii 3.3 bil dobavlen modul' klasterizacii, raspredelau6iy dannie i processi ix obrabotki mejdu neskol'kimi komp'uterami, 4to pozvolilo sozdavat' poiskovie sistemi po kollekciam, sostoa6im iz neskol'kix desatkov i daje soten millionov dokumentov. Na takix bol'6ix ob&emax dokumentov zada4a ranjirovania vidavaemix na zapros dokumentov avlaetsa odnoy iz samix vajnix, i v nastoa6ee vrema pri razrabotke mnoGoSearch imenno ey udelaetsa osoboe vnimanie. Tak, v versii 3.3 format poiskovogo indeksa bil ras6iren, 4to dalo vozmojnost' dobavlenie novix vajnix sostavlau6ix v formulu relevantnosti. 3. Formula relevantnosti mnoGoSearch Formula ras4eta relevantnosti mnoGoSearch sostoit iz sleduu6ix 4astey (faktorov):

SectionBreakdown() – funkcia raspredelenia slov po sekciam dokumenta. Etalonnim s4itaetsa dokument, gde kajdoe slovo iz poiskovogo zaprosa vstre4aetsa v kajdoy sekcii dokumenta (naprimer, v slu4ae HTML dokumentov tipovaa nastroyka vklu4aet sekcii title, body, meta keywords, i t.d., kotorie zadautsa pered indeksaciey). Pri ras4ete funkcii raspredelenia slov sostavlaetsa vektor dlinoy koli4estvo_sekciy*koli4estvo_slov_v_zaprose. Vektor etalonnogo dokumenta zapolnaetsa edinicami. Vektor analiziruemogo dokumenta zapolnaetsa nulami tam, gde slovo ne naydeno v sekcii i edinicami tam, gde slovo naydeno v sekcii. Zatem, vi4islaetsa matemati4eskaa korrelacia mejdu dvuma vektorami i vozvra6aetsa v ka4estve zna4enia faktora SectionBreakdown(). Tak, naprimer, v slu4ae zaprosa iz dvux slov v poiskovoy sisteme, nastroennoy dla raboti po trem sekciam, razmeri vektorov budut ravni 6. Esli oba slova zaprosa naydeni tol'ko v title i nigde bol'6e, to v ka4estve rezul'tata vernetsa 4islo ~0.57 – veli4ina matemati4eskoy korrelacii mejdu vektorami (1,1,0,0,0,0) i (1,1,1,1,1,1).

WordDistance() – funkcia blizosti slov. Dokumenti, gde slova zaprosa stoat radom drug s drugom, ocenivautsa vi6e, nejeli te, gde slova “razbrosani” po raznim 4astam dokumenta. Krome opredelenia neposredstvennogo rasstoania mejdu slovami, v ras4et takje beretsa poradok slov i polnie vxojdenia poiskovix fraz.

MinPos() – funkcia stepeni blizosti pervogo naydennogo slova k na4alu sekcii dokumenta.

WordDensity() – funkcia 4astoti iskomix slov v dokumente.

NumWords() – funkcia ob6ego koli4estva naydennix slov.

WordForm() – funkcia “morfologi4eskogo sootvetstvia”. Etoy funkciey vi6e ocenivautsa te dokumenti, v kotorom slova vstre4autsa v to4no takoy je forme, kak i v zaprose, 4em dokumenti s drugimi formami slov zaprosa (naprimer, drugimi padejami su6estvitel'nix, vremenami glagolov, sinonimami).

Zna4enia vsex pere4islennix faktorov lejat v diapazone ot 0 do 1. Pri vi4islenii kajdogo faktora ispol'zuetsa dopolnitel'niy nastroe4niy vektor wf, kotoriy pozvolaet menat' vesa razli4nix sekciy dokumenta (naprimer, mojno sdelat' sekciu title bolee zna4imoy, po sravneniu s sekciey body). Dla polu4enia edinogo 4islennogo pokazatela relevantnosti zna4enia peremnojautsa. Stepen' vliania kajdogo faktora zadaetsa nastroe4nimi koefficientami, a pri ukazanii nulevogo koefficienta – sootvetstvuu6iy emu faktor v ras4ete ne u4itivaetsa. 4. Nastroyka mnoGoSearch dla u4astia v ROMIP 2008

V 2008-m godu mi u4astvovali v dorojkax “poisk po web-kollekcii” (kollekcii by.web i km.ru) i “poisk po kollekcii normativnix dokumentov” (kollekcia legal). Pri nastroyke sistemi vo vsex kollekciax dla generacii slovoform bil ispol'zovan slovar' russkogo azika Aleksandra Lebedeva (izna4al'no prednazna4enniy dla sistemi grammati4eskoy proverki ispell, no s uspexom primenaemiy i v poiske). Sistema rabotala v rejime “AND - nayti vse slova”, avtomati4eskiy perexod v rejim “OR - nayti xota bi odno slovo” pri nulevom ili malom koli4estve rezul'tatov rejima “AND” ne osu6estvlalsa. Dla kollekciy by.web i km.ru ispol'zovalas' nastroyka s sekciami body, title, meta keywords i meta description. Ves vsex sekciy s4italsa odinakovim. Koefficient funkcii 4astoti slov WordDensity bil ustanovlen v 200 (pri vozmojnom diapazone 1..255). Koefficient funkcii koli4estva slova NumWord bil ustanovlen v 1 (pri diapozone 0..255). Koefficient funkcii WordDistance bil ustanovlen v 2500 (pri oficial'nom diapazone 0..255, odnako v real'nosti etot parametr pozvolaet zadavat' i bol'6ie zna4enia bez perepolnenia razradnoy setki pri ras4etax). Koefficient funkcii MinPos bil raven 0 (po umol4aniu), to est' etot faktor ne u4itivalsa. Takje, bil ispol'zovan koefficient po umol4aniu u funkcii WordForm (255), to est' sistema ne delala predpo4tenia to4nim formam slov zaprosa pered padejnimi, vremennimi formami (i t.d.). Sinonimi ne ispol'zovalis'. Takaa nastroyka avlaetsa tipovoy nastroykoy mnoGoSearch dla poiska po web-kollekcii, za isklu4eniem uveli4ennogo vliania funkcii rasstoania mejdu slovami. U4astie v poiske po kollekcii normativnix dokumentov – na6 perviy opit. Mi popitalis' proizvesti bolee tonkuu nastroyku s u4etom osobennostey kollekcii. Tak, zagolovki mejdu tegami <P ID=”P0000”>i </P>pomimo body bili videleni i v otdel'nie sekcii, to je samoe bilo prodelano s zagolovkami s ID P0001-P0006. Vesa sekciy, sootvetstvuu6ix etim zagolovkam special'no ne uveli4ivalis', odnako fakt naxojdenia slov kak v body, tak i v odnom iz P000? delaet eti slova bolee zna4imimi, poskol'ku uveli4ivaut zna4enie funkcii raspredelenia slov po sekciam (SectioBreakdown). E6e sleduet otmetit', 4to v kollekcii legal bili podklu4eni sinonimi, pozvolau6ie naxodit' ne4etkie dati, 4tobi, naprimer, dokument s zagolovkom “Zakon ot 1 anvara 2008 goda” bil nayden pri zaprose “Zakon ot 01.01.2008”. V kollekcii legal bili ispol'zovani koefficienti funkciy-faktorov relevantnosti, analogi4nie web-kollekciam. 5. Analiz rezul'tatov

mnoGoSearch pokazal raznie rezul'tati na raznix kollekciax. Na kollekcii WEB.BY na6 rezul'tat bil stabil'no na 6-om i 7-m mestax po zna4eniu razli4nix metrik (sredi 15 u4astnikov), a metrika Precision zanala 3-e mesto. Na kollekcii KM.RU bil polu4en lu46iy rezul'tat po metrike Precision(5) i vtoroy rezul'tat po metrike Precision(10) sredi 15-ti predostavlennix rezul'tatov. Odnako rezul'tati po ostal'nim metrikam bili slabimi i kolebalis' mejdu 10-m i 11-m mestom. Xuje vsego sistema pokazala seba na kollekcii Legal. Eto bilo ojidaemim, poskol'ku, vo-pervix, mi perviy raz u4astvuem v etoy dorojke, a vo-vtorix, poisk sredi normativnix dokumentov avlaetsa neobi4nim primeneniem mnoGoSearch. Po bol'6instvu metrik bil pokazan 5-y rezul'tat iz 6-ti predostavlennix, li6' po odnoy metrike (Precision) udalos' podnat'sa do 3-go mesta. Po sovokupnosti rezul'tatov iz trex dorojek mojno skazat', 4to sistema vistupila v celom neploxo. Poskol'ku na kollekcii legal bil polu4en xud6iy rezul'tat, mi, prejde vsego, proveli detal'niy analiz dla poiska pri4in neuda4i imenno na etoy kollekcii. Na6a sistema voob6e ne smogla nayti 722 dokumenta iz 3601 pome4ennix kak "vital" (ni sredi 100 lu46ix, ni daje sredi ostal'nix rezul'tatov, vidannix sistemoy). 87 dokumentov (12%) bili poterani po pri4ine abbreviatur, naprimer, GK = GRAJDANSKIY KODEKS, FZ - FEDERAL'NIY ZAKON, i t.d. Iz etogo mojno sdelat' vivod, 4to dla uspe6nogo u4astia v sleduu6ix sezonax nam, bezuslovno, ponadobitsa slovar' abbreviatur iz sootvetstvuu6ey predmetnoy oblasti. 81 dokument (11%) bil poteran v rezul'tate o6ibki v funkcii ras4eta blizosti slov - v nekotorix situaciax polu4alsa nulevoy rezul'tat, i takie dokumenti voob6e otbrasivalis' kak nerelevantnie. Pri4em, o6ibka v bol'6instve slu4aev proizo6la na zaprosax s dvuma slovami, a pri bolee dlinnix zaprosax takix sboev prakti4eski ne voznikalo. Sleduu6aa pri4ina poteri - 71 dokument (9%) - upro6ennaa realizacia generatora slovoform. mnoGoSearch podklu4aet fayli ot sistemi ispell, prednazna4ennoy dla proverki orfografii. Ispol'zua slovari ispell, nel'za polu4at' raznie 4asti re4i. Tak, mnoGoSearch ne na6el dokumenti s prilagatel'nim "Leningradskiy" pri zaprose "Leningrad". Eto ne avlaetsa problemoy samogo ispell, poskol'ku pri proverke orfografii perexoda mejdu 4astami re4i ne trebuetsa, no, kak pokazali rezul'tati - eto vajno dla poiska. Sdelan vivod o neobxodimosti podklu4enia bolee slojnix sistem dla generacii slovoform. 61 dokument (8%) ne bil nayden v rezul'tate, kak okazalos', nepravil'nogo ispol'zovania faylov ot ispell. Posle konsul'tacii s avtorami ispell problemu udalos' ustranit'.

Zaklu4enie. Analiz rezul'tatov u4astia v ROMIP-2008 pozvolil uvidet' kak dostoinstva, tak i nedostatki na6ey poiskovoy sistemi, 4to neocenimo dla pravil'nogo vibora napravleniy dal'ney6ey raboti. Poetomu s4itaem, 4to u4astie v konferencii okazalos' dla nas plodotvornim. Xotim virazit' blagodarnost' orgkomitetu za predostavlennuu vozmojnost' u4astia v konferencii ROMIP-2008, a takje za bistruu pomo6' pri vozniknovenii teku6ix voprosov i zatrudneniy. V 4astnosti, xotim poblagodarit' Igora Nekrest'anova i Marinu Nekrest'anovu. Search engine “mnoGoSearch” Barkov A.I. This article presents a report on experiments in full text retrieval made as a part of ROMIP’2008. The main goal of these experiments was to approbate methods of document ranking implemented in mnoGoSearch throughout the last years.

3
Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(98I) 7608865

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2024 romver.ru

Полная карта сайта Display Pagerank