АБРАКАДАБРА (Тоже самое но в читаемом виде)
Znaete li vi, 4to poiskoviki mogut pitat'sa ubedit'sa v
relevantnosti sobstvennoy vida4i? Kak imenno oni mogut eto delat' mojno
uznat' iz nedavno odobrennogo patenta Yahoo.
Prejde, 4em pereyti k opisaniu avtomati4eskoy proverki relevantnosti
i variativnosti (raspredelenia rezul'tatov po zna4eniam v slu4ae
mnogozna4nogo zaprosa), v patente opisivautsa nedostatki ru4noy
proverki i opredelenia relevantnosti na osnove dannix o perexodax.
Ru4naa proverka relevantnosti
Odnim iz variantov proverki relevantnosti rezul'tatov poiska avlaetsa
proverka 4elovekam rezul'tatov po kajdomu zaprosu. Eto zanimaet
dovol'no mnogo vremeni, su6estvuet veroatnost' 4elove4eskoy o6ibki, a
pokrit' proverkoy vse zaprosi, vstre4au6iesa v seti prosto nevozmojno.
Daje sey4as mojno nayti ob&avlenia o vakansiax «Internet Judges». V
4astnosti, takie ob&avlenia razme6ala kompania Lionbridge Technologies,
s kotoroy ranee sotrudni4ali Google. Da, poiskovie ma6ini ispol'zuut
ru4nuu proverku i sistemu «internet sudey». Lud'mi avlautsa i
futbol'nie sud'i. Oni nikogda ne o6ibautsa, pravda?
Otslejivanie perexodov
V odnom iz patentov Yahoo opisivaetsa sistema ranjirovania izobrajeniy,
osnovannaa na klikax po nim pol'zovateley. Predpolagaetsa, 4to po
relevantnim zaprosu izobrajeniam pol'zovatel' kliknet i pereydet na
interesuu6uu ego stranicu. Sledovatel'no, v vida4e po zaprosu kartinki,
po kotorim 4a6e klikali, podimalis', a te, kotorie «nezaslujenno»
zanimali visokie mesta, postepenno opuskalis' vniz.
4to j, s kartinkami, gde su6estvuet predvaritel'niy prosmotr, eta
sistema vpolne mojet rabotat' effektivno. A 4to nas4et tekstovix
stranic? Problema v tom, 4to ludi vidat v vida4e li6' zagolovok
stranici, kratkuu annotaciu i adres stranici. Eti dannie ne obazatel'no
adekvatno predstavlaut soderjanie stranici. Sledovatel'no, daje perexod
po ssilke ne garantiruet relevantnost' stranici v vida4e.
Algoritm dla opredelenia relevantnosti i variativnosti poiskovix rezul'tatov
Process, zapatentovanniy Yahoo, ispol'zuet informaciu nedavnix poiskov
dla opredelenia so4etaemosti rezul'tatov poiska s teku6im zaprosom.
Avtomati4eskaa proverka relevantnosti i variativnosti dla veb i vertikal'nix poiskovix ma6in
Izobreteno Jignashu G. Parikh
Prinadlejit Yahoo
US Patent 7,558,787
Odobreno 7 iula, 2009
Podano na rassmotrenie 5 iula, 2006
Annotacia
Predstavlena texnika avtomati4eskoy proverki relevantnosti i variativnosti poiskovix rezul'tatov.
Poiskovoy ma6ine napravlaetsa zapros, na osnovanii kotorogo pri
pomo6i poiskovogo algoritma ma6ina vidaet poiskovie rezul'tati.
Opredelaetsa nabor topovix i svazannix terminov dla zaprosa. Dla
kajdogo svazannogo termina opredelaetsa ego 4astota otnositel'no
ostal'nix terminov v nabore. Esli termin ne vstre4aetsa ni v odnom iz
rezul'tatov, to slu4ilas' potera v variativnosti proporcional'naa
otnositel'noy 4astote svazannogo termina.
Ina4e, relevantnost' poiskovix rezul'tatov vi4islaetsa sravneniem
proporcii rezul'tatov soderja6ix termin s otnositel'noy 4astotoy
termina. Etot process povtoraetsa dla vsex terminov v nabore ili
svazannix terminov dla togo, 4tobi polu4it' polnuu kartinu
relevantnosti i variativnosti rezul'tatov.
Kogda kto-to proizvodit poisk v poiskovoy ma6ine, oni vvodat zapros v sootvetstvuu6ee pole i najimaut knopku vvoda.
Poiskovaa ma6ina vidaet nabor rezul'tatov, ranjirovannix soglasno
poiskovomu algoritmu. Algoritm, ispol'zuemiy dla ranjirovania etix
rezul'tatov, obi4no vklu4aet v seba elementi izmerau6ie relevantnost' i
vajnost' stranic sootvetstvuu6ix iskomomu zaprosu.
Etot patent opisivaet interfeys testirovania, kotoriy poiskovie
algoritmi i razrabot4iki poiskovix ma6in smogut ispol'zovat' dla
proverki variativnosti i relevantnosti poiskovix rezul'tatov. Ispol'zovanie svazannix terminov
Etot process opredelenia relevantnosti i variativnosti poiskovix
rezul'tatov na4inaetsa s opredelenia terminov, kotorie mogut bit'
svazani s iskomim zaprosom.
Kto-to i6et «Amazon», poiskovaa ma6ina polu4aet rezul'tati, svazannie s zaprosom, i otobrajaet ix pol'zovatelu.
Poaviv6iesa rezul'tati mogut otnosit'sa k magazinu «Amazon.com» ili
k reke Amazonke. Avtomati4eski to4no opredelit' trebuetsa li
pol'zovatelu informacia o pervom, vtorom ili 4em-to tret'em nevozmojno.
No poiskovaa ma6ina mojet obratit'sa k logam zaprosov i sessiy i drugim
naboram dannix dla opredelenia razli4nix zna4eniy zaprosa.
Imenno eti sub-koncepcii vi mojete uvidet' v poiskovom predpolojenii
poiskovoy ma6ini. O tom, kak oni formiruutsa, mi uje pisali ranee.
Takje poiskovie ma6ini otslejivaut vrema poiska zaprosov, 4to mojet bit' poleznim pri poiske informacii, zavisa6ey ot vremeni.
Tak 4to esli na Amazonke dva mesaca nazad slu4ilos' zemletrasenie,
to logi zaprosov togo vremeni mogut soderjat' mnogo zaprosov «Amazon
earthquake». 4erez mesac koli4estvo poiskov po etomu zaprosu budet
gorazdo men'6e i «amazon earthquake» mojet uje ne s4itat'sa svazannim
zaprosom, kakovim on, nesomnenno, s4italsa srazu posle opisannix
sobitiy.
Poisk v logax nedavnix zaprosov pokajet kak mnogo raz vvodilis'
zaprosi, vlu4av6ie v seba ili vvodiv6iesa vmeste s «Amazon». Tak 4to
esli zaprosi «amazon books», «amazon river» i «amazon rainforest» 4asto
vstre4alis' v issleduemix logax, to oni budut otobrajeni kak svazannie.
Takje poiskovie ma6ini mogut proverat' v logax, kakie zaprosi vvodilis'
za odnu sessiu s zaprosom «Amazon».
Otnositel'naa 4astota terminov i proverka relevantnosti
Kak tol'ko poiskovaa ma6ina opredelila nabor svazannix terminov dla
zaprosa, ona mojet vi4islit' otnositel'nuu 4astotu kajdogo iz etix
terminov otnositel'no original'nogo zaprosa v logax poiska. Vot primer
togo, kak mojet proxodit' takoy pods4et. Viderjka iz patenta:
Naprimer, obra6aas' k tablice 216, F.sub.term termina «books»
ravnaetsa 25. Eto ozna4aet, 4to «books» vstre4aetsa vmeste s «Amazon»
25 raz v vibrannoy 4asti loga zaprosov 210, pokazannogo v tablice 212.
Dalee, F.sub.total ravno 50, sootvetstvua ob6emu 4islu sovmestnix
poavleniy dla vsex terminov v nabore tablici 216.
Sledovatel'no, mojno sdelat' vivod, 4to F.sub.relative dla termina
«books» avlaetsa 25/50 ili 50%. Dalee v tablice 216 soderjatsa
otnositel'nie 4astoti vsex terminov v nabore svazannix terminov.
Konkretnee, 4astota «rainforest» ravna 12/50 ili 24%, «river» 8/50 ili
16%, i «fish» 5/50 ili 10%.
Otnositel'naa 4astota terminov dla kajdogo svazannogo termina v
nabore takje ispol'zuetsa dla opredelenia variativnosti. Eti
sootno6enia mogut bit' ispol'zovani dla ocenki rezul'tatov poiska.
Esli vi smotrite na top-10 stranici vida4i (ili kontent naydennix
stranic) po zaprosu «amazon», to soderjit li polovina rezul'tatov slovo
«books»? Soderjit li 4etvert' iz nix slovo «rainforest»? Upominaetsa li
slovo «river» v dvux iz nix? I est' li xot' odno s upominaniem slova
«fish»?
Esli sootno6enia mejdu logami zaprosov i rezul'tatami poiska po4ti
sovpadaut, to eto mojet slujit' priznakom visokoy relevantnosti vida4i.
Takje eto svidetel'stvuet o pravil'noy variativnosti.
V patente takje soderjitsa preduprejdenie o tom, 4to nekotorie
rezul'tati poiska mogut bit' v vis6ey stepeni relevantni, no pri etom
stradat' ot nedostatka variativnosti v slu4ae, esli zapros ne soderjit
mnojestva zna4eniy i svazannie termini ne otnosatsa k razli4nim temam.
Perevodnoy material, isto4nik Seobythesea
|