www.romver.ru
/ / .RU -2008



( )

V stat'e opisani modifikacii algoritma informacionnogo poiska, predstavlennogo KM.RU na seminare ROMIP-2007, i sistema optimizacii koefficientov dla opredelennogo nabora parametrov, sozdannaa s cel'u polu4enia nailu46ix rezul'tatov v poiske i ranjirovanii dokumentov. Osve6autsa rezul'tati u4astia proekta Poisk KM.RU v seminare ROMIP-2008. Obsujdaetsa dal'ney6iy put' razvitia proekta.
 1. Vvedenie Rabota nad ulu46eniem ka4estva poiska i ranjirovania dokumentov obi4no svazana s poavleniem novix faktorov, kotorie u4itivautsa pri rabote s dokumentami v otvet na zapros. Mi postaralis' sozdat' dla seba udobniy avtomati4eskiy sposob opredelenia zna4imosti opredelennix faktorov pri obrabotke zaprosa, a takje sposob optimizacii parametrov na6ego poiskovogo algoritma. V ka4estve bazi dla optimizacii mi ispol'zovali 1) materiali pro6logodnego seminara ROMIP: pari zapros-dokument i ocenki ekspertov kak meri sootvetstvia dokumenta zaprosu, 2) bazu sobstvennix ocenok. Zada4a, kotoraa stoala pered nami v etom godu: opredelit' zna4imost' novix faktorov, a takje viasnit', pomogaet li optimizacia nastroek ulu46it' rezul'tati raboti sistemi. Podobnuu rabotu v 2005 godu uje provodili u4astniki seminara ROMIP-2005 [4], i ix rezul'tati govorili o preimu6estve optimizirovannogo algoritma.

2. Xarakteristika kollekciy Smisl dokumenta mojet bit' ocenen po trem sostavlau6im:

1. Zagolovok (Title).

2. Tekst dokumenta.

3. Ssilki na dokument.

Isxoda iz etogo, opi6em svoystva kollekciy:

1. Legal naibol'6aa stepen' strukturirovannosti. Fakti4eski, zagolovok igraet naibolee su6estvennoe zna4enie v opredelenii relevantnosti dokumenta. Ssilki dostoverni.

2. KM.RU strukturirovana, no men'6e 4em legal. Dokumenti mogut soderjat' informaciu, ne otnosa6uusa k osnovnoy teme dokumenta (teku6ie novosti i t.p.). Zagolovok obi4no dostoveren. Ssilki obi4no dostoverni.

3. BY.WEB naimen'6aa stepen' strukturirovannosti. Dokumenti mogut soderjat' informaciu, ne otnosa6uusa k osnovnoy teme dokumenta. Zagolovok mojet bit' nedostovernim. Ssilki mogut bit' nedostoverni.

Dla kajdoy sostavlau6ey smisla dokumenta mojno provesti rad operaciy, dau6ix naibolee effektivnuu ocenku vesa dokumenta. Privedem klassifikaciu sovremennix metodov vistavlenia vesa dokumentu.

1. Proizvedenie 4astota slova iz zaprosa v dokumente TF i vstre4aemosti slova v kollekcii IDF. 4em bol'6e statistika, tem (v ob6em slu4ae) ona lu46e.

2. Ocenka rasstoania mejdu slovami zaprosa. Nekaa funkcia ot rasstoania F (rasstoanie). Passaji (polnie, nepolnie, s u4etom poradka slov i bez, s rasstoaniem mejdu slovami i bez), pari slov (s to4nim poradkom slov, s obratnim poradkom slov, so slovami mejdu paroy slov).

3. Koli4estvennie ocenki ves dokumenta i ves ssilok, rass4itanniy po ssilo4nomu rangu.


Vse ukazannie metodi mogut bit' primeneni dla koli4estvennoy ocenki 3-x smislovix 4astey dokumenta zagolovka, teksta i ssilok na dokument. Sootvetstvenno, pri takom podxode, naprimer, mojno otdel'no ocenivat' passaji v zagolovkax, tekste dokumenta i ssilkax na dokument. Tam je u4itivat' i pari slov. Ukazannie metodi gorazdo lu46e rabotaut na xoro6o strukturirovannix kollekciax i nedostato4no xoro6o na ploxo strukturirovannix. 3. Modifikacia algoritma poiska i ranjirovania dokumentov. Avtomati4eskaa optimizacia koefficientov 3.1 Struktura algoritma a) bazovaa formula; Za osnovu mi vzali formulu, rabota kotoroy bila prodemonstrirovana v pro6lom godu [2]. Etot algoritm s nekotorimi ulu46eniami sey4as rabotaet na portale KM.RU. b) modifikacii formuli. Dobavlenie novix faktorov, avtomati4eskaa optimizacia koefficientov. Dla vi4islenia relevantnosti dokumenta zaprosu mi ispol'zovali sleduu6uu zavisimost': W = k1*W1 + k2*W2 + k3*W3 + k4*W4(1), gde W itogovoe zna4enie relevantnosti dokumenta. k1, k2, k3, k4 koefficenti. Ostanovimsa podrobnee na kajdom iz slagaemix. W1 = TF*IDF(l) * F1(DocWeight), gde: TF*IDF(l) vi4islaetsa po tfd(l) = freqd(l)/( freqd(l) + 0.5 + 1.5*dld/avg_dl)

freqD(l) - 4astotnost' lemmi l v dokumente, dlD mera dlini dokumenta, avg_dl srednaa dlina dokumenta (dla kollekciy


BY.WEB i KM.RU mi ispol'zovali zna4enie avg_dl = 400, dla kollekcii Legal = 1500), IDF - Inverse term frequency - forma 6trafovania 4asto ispol'zuemix v kollekcii slov: idf(l) = log((|c| + 0.5)/df(l))/log(|c| + 1) gde |c| - koli4estvo dokumentov v kollekcii, df(l) - koli4estvo dokumentov, gde vstretilas' lemma l. V itogovoe zna4enie tf*idf vxodat, pomimo obi4noy vstre4aemosti slova v dokumente, nadbavki za prisutstvie slov v videlennix oblastax (title, zagolovki tipa h1-h4 i t.p.). V pro6lom godu dla upro6enia raboti mi u4itivali tol'ko vstre4aemost' slov v title. V etom godu vveli ostal'nie parametri, otve4au6ie za formatirovanie slov v dokumente (h1-h4 i pro4.). F1(DocWeight) funkcia ot vesa dokumenta, vi4islennogo po sxeme, predlojennoy v [1]. Osobennosti funkcii: a) F1, v tom 4isle, zanimaetsa privedeniem zna4enia DocWeight do nujnogo diapazona, fakti4eski, normirovkoy. Deystvie funkcii na ves dokumenta sil'no zavisit ot sposoba normirovki, 4to v itoge su6estvenno vliaet na poradok dokumentov v vida4e; b) 4ast' ssilok priznautsa neinformativnimi i v ras4ete ne u4astvuut. Fakti4eski W1 otve4aet za informacionnuu zna4imost' dokumenta i ego ves po otno6eniu k drugim dokumentam, vi4islenniy po sxeme ssilo4nogo ranjirovania, opisannoy v [1]. W2 = Σ (TF*IDF(Link)* F2(LinkWeight)), gde: TF*IDF(Link) - TF*IDF ssilki na danniy dokument; F2(LinkWeight)) funkcia privedenia vesov ssilok na dokument. LinkWeight vi4islaetsa analogi4no DocWeight T.o. W2 otve4aet za informacionnuu zna4imost' ssilok na danniy dokument i ix vesa.


W3 = F3(rasstoanie) funkcia, otve4au6aa za u4et rasstoania mejdu slovami zaprosa v dokumente. Imeet nenulevoe zna4enie pri proxojdenii kvoruma. Dalee ob etom podrobno. V pro6lom godu v F3(rasstoanie) vxodil passaj iz zaprosa, vstre4enniy v dokumente. Svoystva passaja: 1) Passaj mojet bit' nepolnim. On vi4islaetsa po kvorumu summi IDF vxoda6ix v nego slov i po kvorumu 4isla slov. Oba parametra zadautsa v nastroykax. Naprimer: passajem s4itaetsa tot, v kotoriy vo6lo 70% slov zaprosa, i ix ves ne menee 60% ot summi IDF vsex slov zaprosa. To4nie zna4enia podbirautsa s pomo6'u optimizacii parametrov.

2) Poradok slov v passaje ne imeet zna4enia. Mi namerenno vveli etu osobennost' passaja, prinimaa v ras4et svoystva russkogo azika, po kotoromu smisl 4asto ne zavisit ot poradka slov (xota i ne vsegda). Ras4et idet na to, 4tobi ne isklu4at' dobavku dla dokumentov, gde slova iz zaprosa sleduut v drugom poradke. Plus, 4to su6estvenno dla poiska po vebu, bol'6aa dobavka za jestkiy poradok slov daet bol'6oe pole deatel'nosti dla spama poiskovix ma6in.

a) Passaj vi4islaetsa tol'ko dla slov, vxoda6ix v odno predlojenie.

b) Rasstoanie mejdu slovami iz zaprosa v dokumente ne doljno previ6at' maksimal'nogo okna. Naprimer, 10 ili 15.

v) V etom godu mi vveli dopolnitel'noe svoystvo passaja: passajem s4itaetsa tot, dla kotorogo _vse_ slova iz zaprosa vstretilis' v dannom predlojenii +/-N predlojeniy. Za eto dokument polu4aet dopolnitel'nuu nadbavku. V progonax ROMIP mi ispol'zovali zna4enie N = 1. Mojno ispol'zovat' bOl'6ee zna4enie (naprimer, 2), no v na6ix eksperimentax ono dalo xud6iy rezul'tat.

Dopolnitel'no v etom godu bili vveden sleduu6iy parametr, zavisa6ie ot rasstoania:

4) Pari slov. Ves po param slov vi4islalsa kak opisano v [3]. Pri etom, ponimaa, 4to v rade slu4aev to4niy passaj lu46e opisivaet smisl dokumenta, mi parami slov u4itivaem v tom 4isle i poradok slov v


passaje. V na6ix eksperimentax parametr dal pribavku v ka4estve 5%. W4 - gruppa dopolnitel'nix parametrov (vvedena v etom godu): 1) Blizost' slov iz zaprosa k na4alu predlojenia. Do six por mi ne vstre4ali opisanie etogo faktora v rabotax po informacionnomu poisku. Osnovanie V russkom azike tema (izvestnaa informacia) predlojenia virajaetsa v tom 4isle i poradkom slov. Xota v russkom azike slova mogut stoat' v lubom poradke, pramoy poradok slov avlaetsa bolee upotrebitel'nim. Takim obrazom, to, o 4em idet re4' (tema), - obozna4eno v na4ale frazi. Pri obrabotke zaprosa mi davali dobavku dokumentu, gde klu4evie slova vstre4autsa v na4ale predlojenia. V na6ix eksperimentax parametr dal pribavku v ka4estve 5%; 2) Vstre4aemost' v dokumente to4nix slovoform iz zaprosa. Naibolee su6estvennimi v plane ulu46enia ka4estva okazalis' faktori: 1. Pari slov 2. Blizost' slov iz zaprosa k na4alu predlojenia. Poskol'ku poavlenie novix faktorov uslojnaet ustroystvo algoritma poiska, mi zadalis' cel'u sozdat' programmu avtomati4eskogo podbora parametrov i opredelenia vajnosti togo ili inogo faktora. 3.2 Optimizacia parametrov Mi postavili pered soboy zada4u sozdat' programmu, optimiziruu6uu koefficienti pered slagaemimi v formule relevantnosti. Programma osnovivaetsa na ekspertnix ocenkax dokumentov.

Bazoy dla nastroyki sistemi poslujili materiali pro6logodnego seminara ROMIP: zaprosi dla dorojki poiska po veb-kollekcii i dokumenti, vidannie sistemami-u4astnicami na dannie zaprosi. Orientirami, govora6imi, kakoy dokument xoro6iy, a kakoy ploxoy, stali ocenki ekspertov ROMIP.


Zada4a programmi-optimizatora podobrat' parametri, kotorie obespe4ivaut nailu46ie rezul'tati ocenki vida4i. a) principi, leja6ie v osnove programmi-optimizatora; 1) Optimizacia delaetsa na osnove ocenok aksessorov; 2) Dla optimizacii parametrov doljna su6estvovat' koli4est-vennaa mera ocenki dokumenta to, 4to govorit, 4em odin dokument lu46e drugogo. Mi primenali modificirovannoe zna4enie pokaza-tela bpref-10. 3) Optimizacia proxodila metodom modificirovannogo koor-dinatnogo spuska. b) problemi, voznik6ie v processe sozdania; Optimiziruemaa funkcia obladaet sleduu6imi svoystvami: 1) Funkcia kuso4naa; 2) Funkcia nemonotonnaa; 3) Funkcia obladaet zavedomo bOl'6im 4islom parametrov, 4em ispol'zuetsa dla ee vi4islenia. Isxoda iz etix svoystv, naxojdenie global'nogo maksimuma avlaetsa zavedomo nedostijimim. V takoy situacii mojno govorit' tol'ko o dostato4no xoro6em lokal'nom maksimume. V etix usloviax mi primenili dva sposoba optimizacii parametrov: 1) Parametri optimiziruutsa vse srazu; 2) Dla naibolee zna4imix s na6ey to4ki zrenia parametrov zadaetsa neskol'ko na4al'nix zna4eniy koefficienta. Dla kajdogo zna4enia koefficienta provoditsa ego optimizacia (optimiziruetsa tol'ko etot parametr, ostal'nie neizmenni). Iz neskol'kix optimizirovannix zna4eniy parametra vibiraetsa tot, v kotorom zna4enie funkcii relevantnosti maksimal'no. Posle 4ego v funkciu relevantnosti dobavlautsa drugie parametri i optimiziruutsa takim je sposobom. Oba sposoba: i 1, i 2 - postroeni na koordinatnom spuske, razli4ie v tom, 4to v 1 spusk delaetsa po vsem parametram po krugu, a v 2 kajdiy parametr optimiziruetsa do maksimal'nogo vozmojnogo zna4enia funkcii, potom naydennoe optimal'noe zna4enie parametra zapisivaetsa kak konstanta i dalee provoditsa optimizacia sleduu6ego parametra.


v) rezul'tati optimizacii parametrov V rezul'tate raboti sposob 2 okazalsa bolee effektivnim (effektivnost' v dannom slu4ae ozna4aet bOl'6ee zna4enie funkcii relevantnosti). V svazi s su6estvenno raznimi svoystvami kollekciy KM.RU, BY.WEB i Legal mi provodili optimizaciu koefficientov dla kajdoy kollekcii otdel'no. 4. Dopolnitel'nie vozmojnosti poiskovogo mexanizma Dla ulu46enia ka4estva raboti mi vveli sleduu6ie svoystva:

1) Primenenie slovara sokra6eniy. Primer: po zaprosu RF i6etsa RF i Rossiyskaa Federacia.

2) Primenenie spiska stop-slov.

5. Meri po strukturirovaniu kollekcii i zaprosov Izvestnie statisti4eskie metodi informacionnogo poiska lu46e rabotaut na xoro6o strukturirovannix dannix. Zada4a strukturizacii predstavlaetsa nam sleduu6ey. Dano:

1. Nestrukturirovannaa kollekcia.

2. Nestrukturirovannie zaprosi.

Celi:

1. Strukturirovat' kollekciu.

2. Strukturirovat' zaprosi.

V rezul'tate takix preobrazovaniy iz svazi |Nestrukturirovannie zaprosi → Nestrukturirirovannaa kollekcia| polu4aem svaz' |Strukturirovannie zaprosi → Strukturirirovannaa kollekcia|, rabotat' s kotoroy gorazdo leg4e. Strukturirovanie kollekcii

V usloviax ploxo strukturirovannoy kollekcii mi predprinali meri po udaleniu informacionnogo 6uma iz dokumentov. Pod informacionnim 6umom mi ponimaem to, 4to ne otnositsa k osnovnomu soderjaniu dokumentov: reklamnuu informaciu, ssilki na materiali na drugix saytax i t.p. Dla udalenia mi primenili metod, pozvolau6iy naxodit' oformlenie stranic sayta [4]. Metod ne udalaet ves' musor, no dovol'no xoro6o spravlaetsa s zada4ey. Strukturirovanie zaprosov Pod strukturirovaniem zaprosov mi ponimaem sleduu6ie 6agi:

1) Ispravlenie ope4atok;

2) Vi4lenenie smisla iz zaprosov;

3) Ras6irenie zaprosov.

P.1 realizuetsa s pomo6'u servisa ispravlenia ope4atok. P.2 udaetsa realizovat' tol'ko pri opredelennix usloviax. Naprimer, iz zaprosa printeri moskva mojno polu4it' dannie dla geotargetinga, dla zaprosa telefon kafe na pu6kinskoy provesti poisk po baze nomerov telefonov i vidat' sootvetstvuu6uu informaciu. No 4asto takuu operaciu proizvesti ne predstavlaetsa vozmojnim iz-za neopredelennosti zaprosa. P.3 - dla progonov ROMIP mi realizovali slovar' sokra6eniy.

6. U4astie v seminare i polu4ennie rezul'tati.

6.1 Dorojki, v kotorix mi prinali u4astie a) dorojki poiska V etom godu, kak i v pro6lom, mi u4astvovali v dorojke poiska po veb-kollekcii. Poisk osu6estvlalsa otdel'no po naboru dokumentov KM.RU i otdel'no po dokumentam belorusskogo Interneta (BY.WEB). Mi poprobovali seba v novix dla nas dorojkax: poiska po normativno-pravovoy kollekcii (Legal) i dorojke poiska po sme6annoy kollekcii, gde sobrani vmeste srazu tri nabora dokumentov: kollekcia KM.RU, kollekcia belorusskogo Interneta i normativno-pravovaa kollekcia. b) progoni Dla dorojki poiska po veb-kollekcii (i dla kollekcii KM.RU, i dla kollekcii BY.WEB) mi delali dva progona. V pervom progone ispol'zovalsa algoritm, kotoriy sey4as rabotaet na poiske po portalu KM.RU. Vtoroy progon osu6estvlalsa s pomo6'u algoritma s novimi poiskovimi faktorami i optimizirovannimi koefficientami.


Dla dorojki poiska po normativno-pravovoy kollekcii mi delali odin eksperimental'niy progon. Nam bilo interesno, kak poiskoviy mexanizm, optimizirovanniy dla veba, spravitsa so specifi4eskoy kollekciey. Dla dorojki poiska po sme6annoy kollekcii mi delali odin progon. Mi viasnali, dokument iz kakoy kollekcii budet na 1-m meste v vida4e po sootvetstvuu6emu zaprosu. Drugie pokazateli mi v ras4et ne prinimali, t.k. zada4a bila imenno takoy. 6.2 Polu4ennie rezul'tati, ix analiz Dla primenenia novix faktorov mi sozdali noviy mexanizm poiska i ranjirovania dokumentov. K sojaleniu, 4ast' opitov k srokam sda4i rezul'tatov provesti ne uspeli. Tem ne menee, prodoljili issledovania, rezul'tati kotorix, naradu s oficial'nimi dannimi, predstavlaem nije. Kollekcia BY.WEB Osnovnoy upor v etom godu mi delali na ka4estvo poiska po kollekcii BY.WEB U nas polu4ilis' sleduu6ie rezul'tati: Grafik TREC, ocenka OR dla kollekcii BY.WEB KM - rezul'tati raboti algoritma, rabotau6ego na portale KM.RU, KM optim - rezul'tati novogo algoritma. 00,10,20,30,40,50,600,10,20,30,40,50,60,70,80,91xxxx-1xxxx-2xxxx-3xxxx-4xxxx-5xxxx-6KMxxxx-8xxxx-9xxxx-10KM - optimxxxx-12xxxx-13xxxx-14xxxx-15


Privedem rezul'tati po osnovnim pokazatelam:

U4astnik

Prec(5)

Prec(10)

Bpref-10

Bpref

Recall

xxxx-1

0,3

0,26

0,24

0,19

0,37

xxxx-2

0,33

0,3

0,28

0,22

0,43

xxxx-3

0,24

0,2

0,17

0,14

0,24

xxxx-4

0,33

0,31

0,33

0,26

0,55

xxxx-5

0,31

0,26

0,24

0,2

0,38

xxxx-6

0,17

0,15

0,13

0,11

0,2

KM

0,31

0,28

0,26

0,22

0,38

xxxx-8

0,25

0,21

0,17

0,15

0,25

xxxx-9

0,29

0,27

0,22

0,19

0,31

xxxx-10

0,34

0,32

0,33

0,26

0,55

KM-optim

0,34

0,3

0,27

0,23

0,4

xxxx-12

0,31

0,26

0,24

0,2

0,39

xxxx-13

0,29

0,26

0,24

0,19

0,38

xxxx-14

0,25

0,21

0,17

0,15

0,25

xxxx-15

0,3

0,27

0,24

0,19

0,39

Po pokazatelu Precision(5) u nas rezul'tat na urovne lidera (progon xxxx-10), 4to sootvetstvuet na6im celam. Po Precision(10), Bpref i Bpref-10 - dostato4no xoro6ie zna4enia. Po pokazatelu Recall naxodimsa v osnovnoy gruppe. Otstavanie v Recall ot liderov predpolojitel'no osnovivaetsa na neispol'zovanii nami v progonax poiska po kvorumu. Posle sda4i rezul'tatov v ROMIP mi prodoljili issledovania. Predprinimalis' sleduu6ie 6agi: 1. Ubrali ispol'zovanie stop-slov. Interesno, 4to, proveriv etot rejim na raznix zaprosax i kollekciax (BY, KM.RU s zaprosami 2007 i 2008 godov) vezde mi polu4ili rezul'tat lu46iy, 4em pri isklu4enii stop-slov iz poiska. 2. Vklu4ili rejim ispravlenia ope4atok i ispol'zovania kvoruma. Pri etom kvorum po umol4aniu ne rabotal, a podklu4alsa tol'ko pri sleduu6ix usloviax: a) otsutstvie dokumentov v vida4e; ili b) otsutstvie passaja v dokumentax vida4i.


Rezul'tati na6ey raboti predstavleni na grafike nije. Grafik TREC po BY.WEB posle otrabotki moduley ispravlenia ope4atok i poiska po kvorumu (delalsa vne ROMIP posle sda4i osnovnix rezul'tatov) Posle primenenia eksperimental'nix moduley mi ulu46aem grafik, kotoriy pervie 6est' to4ek idet naravne s liderom, potom stanovitsa neskol'ko xuje, no lu46e grafika KM optim. Novie moduli nujdautsa v optimizacii, i obkatka ix na dannix ROMIP, pust' i v neoficial'nom rejime, pozvolila nam uvidet' ix perspektivnost'. Izu4aa povedenie grafika TREC i pokazateley Precision, mi sdelali neskol'ko vivodov otnositel'no raboti na6ego algoritma na zaprosax 2007 i 2008 goda k kollekcii BY.WEB: 00,10,20,30,40,50,60,71234567891011KM - kvorumKM - optimxxxx-10

1) Pokazateli prakti4eski ne zavisat ot primenenia ili net ssilo4nogo ranjirovania (kak vesov dokumentov, tak i tekstov ssilok).

2) Primenenie v ssilkax par slov i passajey ne daet ulu46enia ka4estva.

3) Primenenie passaja v zagolovke (Title) ne daet ulu46enia ka4estva.


Kollekcia KM.RU U nas polu4ilis' sleduu6ie rezul'tati: Grafik TREC, ocenka OR dla kollekcii KM.RU KM - rezul'tati raboti algoritma, rabotau6ego na KM.RU, KM optim - rezul'tati novogo algoritma. Vidno, 4to grafiki u4astnikov razdelilis' na dve gruppi. U pervoy gruppi grafikov rezko zadrano na4alo, sootvetstvenno, pervie to4ki u nix vi6e. Vtoraa gruppa grafikov gorizontal'naa. Na4al'nie to4ki na ix grafikax nije. Gruppi peresekautsa posle vtoroy to4ki, i dalee grafiki pervoy gruppi stremitel'no padaut, a vtoroy plavno snijautsa. Dumaem, 4to delenie na gruppi svazano s osobennostami algoritmov u4astnikov. Privedem rezul'tati po osnovnim pokazatelam: 00,10,20,30,40,50,60,70,81234567891011xxxx-1xxxx-2xxxx-3KM-optimxxxx-5xxxx-6xxxx-7xxxx-8xxxx-9KMxxxx-11xxxx-12xxxx-13xxxx-14xxxx-15

Pr(5)

Pr(10)

Bpref-10

Bpref

Recall

xxxx-1

0,54

0,43

0,29

0,27

0,42

xxxx-2

0,54

0,45

0,28

0,27

0,33

xxxx-3

0,40

0,33

0,20

0,19

0,28

KM-optim

0,53

0,45

0,36

0,34

0,43


90

xxxx-5

0,55

0,46

0,31

0,29

0,45

xxxx-6

0,42

0,40

0,34

0,32

0,50

xxxx-7

0,50

0,43

0,27

0,26

0,31

xxxx-8

0,49

0,45

0,39

0,37

0,58

xxxx-9

0,52

0,48

0,37

0,34

0,46

KM

0,49

0,44

0,36

0,34

0,43

xxxx-11

0,60

0,46

0,29

0,27

0,40

xxxx-12

0,48

0,44

0,34

0,30

0,40

xxxx-13

0,56

0,44

0,31

0,29

0,39

xxxx-14

0,51

0,46

0,27

0,26

0,33

xxxx-15

0,50

0,45

0,30

0,28

0,41

Posle sda4i rezul'tatov mi ispitali na kollekcii KM.RU poisk po kvorumu s sobludeniem opisannix vi6e usloviy. Vidno, 4to xarakter grafika ne izmenilsa, no sam grafik plavno podnalsa vverx. V celom grafik TREC okazalsa o4en' 4uvstvitelen k situaciam, kogda sistema ne naxodit dokumentov. Primeniv kvorum k 6esti zaprosam iz 6estidesati, zadannix k kollekcii KM.RU, mi polu4ili su6estvenno lu46iy grafik. V situaciax, kogda kvorum ne trebuetsa, modifikacia sistemi, predstavlennaa na ROMIP, otrabativaet xoro6o. Grafik TREC s mexanizmom kvoruma dla kollekcii KM.RU (delalsa vne ROMIP posle sda4i osnovnix rezul'tatov) 00,10,20,30,40,50,60,70,81234567891011KM - kvorumKM - optimxxxx-5


Kollekcia Legal U nas polu4ilis' sleduu6ie rezul'tati: Grafik TREC, ocenka OR dla kollekcii Legal Privedem rezul'tati po osnovnim pokazatelam: 00,10,20,30,40,50,60,70,80,900,10,20,30,40,50,60,70,80,91xxxx-1xxxx-2xxxx-3KMxxxx-5xxxx-6

Pr(5)

Pr(10)

Bpref-10

Bpref

Recall

xxxx-1

0,4

0,36

0,27

0,29

0,44

xxxx-2

0,53

0,48

0,37

0,42

0,63

xxxx-3

0,5

0,47

0,33

0,37

0,55

KM

0,5

0,42

0,28

0,33

0,51

xxxx-5

0,52

0,5

0,36

0,41

0,62

xxxx-6

0,38

0,34

0,2

0,24

0,34

Mi sdelali odin eksperimental'niy progon. Nam bilo interesno, kak poiskoviy mexanizm, optimizirovanniy dla veba, spravitsa so specifi4eskoy kollekciey. Rezul'tat pokazal, 4to na6e napravlenie lu46iy rezul'tat na maksimal'no visokoy pozicii viderjivaetsa. 1-a to4ka na grafike TREC naxoditsa dostato4no visoko. Pokazatel' precision(5) naxoditsa na xoro6em urovne po sravneniu s drugimi u4astnikami. Dalee mi idem vsled za osnovnoy gruppoy. Poskol'ku poisk po specifi4nim kollekciam ne avlaetsa na6im prioritetnim napravleniem, mi v celom dovol'ni rezul'tatom. Tem ne menee, mi re6ili viasnit' pri4inu padenia grafika i vozmojnost' ulu46enia ka4estva poiska po proizvol'noy kollekcii (v dannom slu4ae, normativnix dokumentov). Nesmotra na to, 4to v kollekcii prisutstvuet bol'6oe 4islo ssilok, re6ili viasnit', kak poisk otrabotaet bez ssilo4nogo ranjirovania. Testi pokazali, 4to v etom slu4ae rezul'tati polu4autsa lu46e. Vozmojno, eto ozna4aet, 4to k podobnoy kollekcii neprimenim tradicionniy podxod, ispol'zuu6iy ssilo4niy graf. Dopolnitel'no mi viasnili, 4to ka4estvo ranjirovania su6estvenno zavisit ot u4eta passajey v zagolovke dokumenta. Dal'ney6ee povi6enie ka4estva poiska mojet bit' svazano s ispol'zovaniem kvoruma i slovara specifi4eskix dla kollekcii sokra6eniy. Grafik TREC bez ssilo4nogo ranjirovania i s passajami v zagolovkax dla kollekcii Legal (delalsa vne ROMIP posle sda4i osnovnix rezul'tatov) Vivodi Eksperimenti na ROMIP pokazali, 4to optimizacia koefficientov v formule relevantnosti daet prirost ka4estva poiska. Novie parametri - pari slov i blizost' slov k na4alu predlojeniy toje zarekomendovali seba xoro6o. Eto osobenno zametno v poiske po veb-kollekcii. 00,10,20,30,40,50,60,70,81234567891011KM bez ssilo4nogoranjirovania i spassajami vzagolovkaxKM so ssilo4nimranjirovaniem

VII. Vozmojnie puti dal'ney6ego razvitia Osnovnie metodi ulu46enia ka4estva vida4i poiskovix ma6in v Internete do six por bili svazani s analizom dokumentov v veb-kollekcii, a analizu zaprosov pol'zovateley ne udelalos' doljnogo vnimania. Odnako sey4as vse bol'6e issledovateley obra6aetsa k etoy teme (poskol'ku nam interesen informacionniy poisk v seti Internet, mi govorim ob issledovanii zaprosov i tekstov dokumentov v ramkax veba). K analizu zaprosa mojno otnesti analiz ego sintaksi4eskogo ustroystva, morfologi4eskix osobennostey slov v zaprose, a takje ix semanti4eskogo zna4enia. Sintaksi4eskiy analiz zaprosa ot4asti predstavlaetsa trudnoproizvodimim, poskol'ku formulirovka mnogix veb-zaprosov ne sootvetstvuet stroeniu frazi v estestvennom azike (primer: Moskva printeri zakazat'). Sintaksi4eskiy analiz zaprosa mojet bit' interesen dla sozdania voprosno-otvetnogo poiska (na vopros: V kakom godu rodilsa Pu6kin i6em otvet: Pu6kin rodilsa v X godu, gde X sostavnoe 4islitel'noe ili 4etirexzna4noe 4islo). Odnako organizacia takogo vida poiska s sobstvennoy bazoy proindeksirovannix dokumentov trebuet namnogo bol'6e usiliy po sravneniu s tradicionnoy poiskovoy ma6inoy, poskol'ku voprosno-otvetniy poisk predpolagaet napisanie bol'6ogo koli4estva pravil, otrabotka kotorix budet zamedlat' process obrabotki zaprosa, i poiskovogo indeksa iz razme4ennix veb-dokumentov, kotoriy budet zna4itel'no previ6at' po ob&emu indeks tradicionnoy poiskovoy ma6ini, 4to mojet pozvolit' sebe ne kajdaa komanda razrabot4ikov. Poetomu sey4as na rinke net voprosno-otvetnoy sistemi, sposobnoy naravne konkurirovat' s promi6lennimi sistemami informacionnogo poiska v Internete. U4et morfologi4eskix osobennostey slov v zaprose potrebuet analiza morfologi4eskix osobennostey slov i v veb-dokumentax, 4to, o4evidno, zna4itel'no uveli4it ob&em poiskovogo indeksa. Process, skoree vsego, budet tesno svazan s sintaksi4eskim analizom slov v zaprose (naprimer, ispol'zovanie informacii o padejax dla opredelenia glavnogo slova v slovoso4etaniax braslet iz zolota, karta goroda).

Naibolee privlekatel'noy poka ostaetsa perspektiva provedenia semanti4eskogo analiza. Informaciu o semanti4eskix zna4eniax mojno ispol'zovat' dla opredelenia tematiki zaprosa, podbora sinonimov dla slov iz zaprosa, sozdania bazi svazannix ponatiy i dla pereformulirovki zaprosa drugimi slovami. Uje sey4as poiskovie sistemi umeut ras6ifrovivat' sokra6enia (MGU = Moskovskiy gosudarstvenniy universitet) i sopostavlat' russkiy i angliyskiy variant napisania slov (BMV = BMW). Dla nas predstavlaetsa interesnim postroenie bazi svazannix ponatiy dla slov russkogo azika, i mi na4ali eksperimentirovat' v etom napravlenii. Eksperimenti pokazali, 4to postroenie svazey mejdu slovami dla videlennoy temati4eskoy oblasti - eto vpolne re6aemaa zada4ey, odnako ispol'zovanie vibrannix nami metodov vrad li pozvolit sozdat' set' svazannix ponatiy dla vsex temati4eskix oblastey srazu. Poetomu na blijay6ee budu6ee mi stavim pered soboy dve zada4i: 1) nau4it'sa ustanavlivat' svazi mejdu slovami dla proizvol'noy viborki tekstov i za priemlemoe vrema; 2) nau4it'sa korrektno ispol'zovat' bazu svazannix ponatiy dla pereformulirovki veb-zaprosa. Togda kak pri prostix pereformulirovkax zaprosa (ras6ifrovka sokra6eniy, zamena russkogo napisania na angliyskoe) mojno maksimal'no ogradit' seba ot o6ibok, to pri bolee slojnix variantax pereformulirovki prixoditsa stalkivat'sa s radom trudnostey. Do six por osnovnim etapom obrabotki zaprosa Internet-pol'zovatela avlaetsa poisk slov iz zaprosa v veb-dokumentax, i pri zamene slov iz zaprosa na sinonimi, kotorie predstavlautsa nam o4evidnimi, poisk budet proizvodit'sa uje po drugim slovam, 4to mojet uxud6it' ka4estvo vida4i. Naprimer, v nastoa6ee vrema svaz' ponatiy Medvedev i prezident Rossii dla nas bezuslovna, i esli na zapros Medvedev mi vidadim sayt prezidenta Rossii, to etot dokument pol'zovatel', skoree vsego, so4tet xoro6im kak odin iz variantov otveta, odnako mi ne mojem vida4u dla zaprosa Medvedev polnost'u podmenit' vida4ey dla zaprosa prezident Rossii, t.k. v etom slu4ae pol'zovatel', vozmojno, ne polu4it dokumenti s biografiey Medvedeva, s ego interv'u i pro4., i eto e6e ne samoe ploxoe, xuje, esli pri takoy podmene vida4i mi otdadim dokumenti pro prezidenta Putina ili prezidenta El'cina, togda kak pol'zovatel', mojet bit', xotel uznat' li4nie fakti biografii prezidenta Medvedeva, i ego sovsem ne interesoval politi4eskiy aspekt.

Tem ne menee, nesmotra na mnojestvo trudnostey, svazannix s provedeniem semanti4eskogo analiza zaprosa, etot put' razvitia predstavlaetsa dostato4no perspektivnim, i mi planiruem provodit' eksperimenti v etom napravlenii. Esli takie sposobi ocenki relevantnosti dokumenta, kak ras4et tf*idf, vesa dokumenta, rasstoania mejdu klu4evimi slovami, mojno s4itat' koli4estvennimi pokazatelami, to analiz semanti4eskogo zna4enia zaprosa eto ocenka uje drugogo plana. Nesomnenno, mi ne xotim otkazivat'sa ot u4eta koli4estvennix pokazateley pri obrabotke zaprosa, no nadeemsa, 4to ispol'zovanie novoy informacii pomojet nam sdelat' ka4estvenniy 6ag vpered. Literatura

[1]. The anatomy of a large-scale hypertextual Web search engine S. Brin, L. Page. - http://infolab.stanford.edu/~backrub/google.html

[2]. KM.RU na ROMIP-2007, S.Tatevosan, N.Brizgalova - http://romip.ru/romip2007/romip2007_KM.RU.pdf

[3]. Algoritm tekstovogo ranjirovania Andeksa na ROMIP-2006 Andrey Gulin, Mixail Maslov, Il'a Segalovi4 - http://download.yandex.ru/company/03_yandex.pdf

[4]. Izvle4enie zna4imoy informacii iz web-stranic dla zada4 informacionnogo poiska M.S. Ageev, I.V. Ver6innikov, B.V. Dobrov - http://www.cir.ru/docs/ips/publications/2005_yandex_obraml.pdf

[5]. Optimizacia parametrov algoritma poiska na osnove analiza ocenok ekspertov, M.S. Ageev, B.V. Dobrov - http://romip.ru/romip2005/07_uirussia.pdf

KM.RU at RIRES-2008. Parameter optimization S. Tatevosyan, N. Bryzgalova The paper describes a new modification of the information retrieval algorithm, introduced by KM.RU at RIRES-2007, we also talk about an optimizing system aimed at getting the most efficient coefficients for algorithms parameters for obtaining better results in information retrieval and document ranking. The article reports on results of KM.RU at RIRES-2008 and our future plans.

Sergey Tatevosan, Natal'a Brizgalova KM onlayn {tatevosyan, bryzgalova}@post.km.ru

3
  ,
:
. +7(812) 984 5721

e-mail
icq 415547094  romver  mail.ru  romverinbox.ru
1997 - 2020 romver.ru

Display Pagerank