АБРАКАДАБРА (Тоже самое но в читаемом виде)
O4en' mena naprag “u4et neskol'kix tisa4 poiskovix parametrov dla odnogo dokumenta“.
Net, vovse ne kak optimizatora. Kak optimizatoru mne dostato4no
okazivat' vlianie na 3 parametra dokumenta – otnositel'nuu 4astotu
zaprosa v dokumente, otnositel'nuu 4astotu zaprosa v ankor-liste
dokumenta i ves dokumenta, kotoriy opredelaetsa kak summaperedavaemix
donorami vesov. Etogo v principe dostato4no dla uspe6nogo prodvijenia.
Mena bespokoat tisa4i parametrov kak nemnojko programmista i slegka matematika.
Na4nёm s togo, 4to odnim iz osnovnim principov programmirovania (i matematiki, i filosofii) avlaetsa princip Britvi Okkama:
entia non sunt multiplicanda praeter necessitatem
(ne preumnojay su6nosti bez nadobnosti)
Kak mne viditsa, dla uspe6nogo ranjirovania lubix dokumentov
neobxodimo i dostato4no 4 parametra: k trёm vi6eupomanutim dobavlaetsa
vozrast dokumenta, i primenaetsa on v slu4ae ravenstva etix trёx
parametrov (i dla odnix tipov zaprosov vozrast mojet idti v plus, a dla
drugix – v minus). A d'avol porilsa v to4nom vzve6ivanii peredavaemix
ssilkami vesov: seo-ssilki, estestvennie ssilki, ssilki s trastovix i
ssilki s ekspertnix dokumentov – vse oni doljni peredavat' ves
po-raznomu. Nu i e6ё raznie tipi zaprosov neobxodimo u4itsa opredelat',
4tobi iskat' nemnogo po-raznomu – no eto vsё ne imeet nikakogo
otno6enia k parametram samogo dokumenta…
Ladno, ladno, a ni4erta ne ponimau v poiske, a na samom dele,
bol'6instvo cennix dokumentov raspolagaetsa na saytax, sdelannix
krivorukimi vebmasterami (bil tut nedavno v nemalen'koy takoy kompanii,
golovnoy ofis kotoroy raspolojen v Dome Zingera na Nevskom, tak tam
saytom rulili 6 vebmasterov, a na podtverjdenie prav dla konsoli
vebmastera u6lo poltora 4asa) i poetomu na godniy dokument vedёt
edinstvennaa ssilka s tekstom podrobnee s takogo je odinoko
raspolojennogo dokumenta na bogom i Guglem (no ne Andeksom) zabitom
sayte, a posemu dla ka4estvennogo ranjirovania stol' bescennix dla
6irokix mass dokumentov nujni cel'nix 245
priznakov (kstati, kto-nibud' znaet, po4emu 245, a ne normal'nie dla
lubogo programmista 256?). Li4no a, kak i Pet'ka iz anekdota, takoe ne
tol'ko napisat', no i predstavit' ne mogu! A teper' zamet'te, 4to
vsego-to za kakie-to polgoda koli4estvo neobxodimix dla ranjirovania
parametrov vdrug uveli4ilis' v 8 (!) raz (minimum v 8, potomu 4to
“tisa4i” eto kak minimum dve ). Da v inom dokumente stol'ko bukv ne
bivaet skol'ko pridumali parametrov andeksoidi.
Xoro6o-xoro6o, u mena kak ne u gumanitaria o4en' skudnoe
voobrajenie, poetomu popro6u voobrazit' vas takuu situaciu: gospodinu
Voloju zvonit gospodin Medvedev i s 4ut' men'6im 4em u Putina metallom
v golose spra6ivaet, a po4emu eto po zaprosu prezident vidaёtsa vikipedia so stat'ey ne pro togo
prezidenta? Voobrazili? A teper' voobrazite kak andeksoidi budut
vspe6ke opredelat' kakoy iz tisa4 parametrov podkrutit', 4tobi
pravil'niy prezident v tope bil. Vot i u mena ne polu4aetsa. Net,
zvonok Medvedeva Voloju – zaprosto, a bistriy poisk i ispravlenie
o6ibki – nu nikak.
Gugl', k slovu, s zada4ey vibora pravil'nogo prezidenta v viki spravlaetsa na raz. Navernoe potomu, 4to PageRank vi4islat' umeet
Nu i na zagruzku opat' nemnoje4ko matematiki. Esli vam ne xvatilo
1000 parametrov, 4tobi vibrat' i otranjirovat' pervuu tisa4u dokumentov
iz vsex dokumentov, soderja6ix slova iz zaprosa pol'zovatela, to vi
pridumali rovnim s4ёtom ni4ego ne zna4a6uu tisa4u parametrov – oni
sovpadaut u o4en' mnogix dokumentov, a eto zna4it, 4to “u4ёt neskol'kix
tisa4 poiskovix parametrov dla odnogo dokumenta” – eto ne bolee 4em
stra6naa skazka na no4' dla rebёnka na4inau6ego seo6nika.
Disclaimer: dannaa zametka ni v koem raze ne
avlaetsa popitkoy u4it' kogo-libo pisat' otli4niy poisk, no avlaetsa
prosto virajeniem udivlenia, po4emu Volod'ka ne sbril usi. Pravil'noy
britvoy
Upd: kommentariy ot Il'i Segalovi4a.
Eto ne te “parametri”, kotorie “priznaki” ili “svoystva” (features), a te parametri, iz kotorix stroitsa model'.
Esli model', naprimer, polinom vtoroy stepeni (to est' v ka4estve
parametrov ispol'zuetsa i priznaki i vse ix proizvedenia) to 4islo
parametrov modeli proporcional'no kvadratu 4isla priznakov. 4em dlinnee
model' (4em v ney bol'6e ispol'zuetsa parametrov) tem to4nee mojno
postroit' ranjirovanie ili ugadat' klass ob&ekta ili ugadat' ocenku i
tp. Odnako slojnie, dlinnie modeli o4en' dorogo “obs4itivat'” po
resursam.
V etom relize mi vpervie dla seba primenili o4en' dlinnuu model' v ranjirovanii. Dla etogo pri6los' mnogoe perepisat'.
A priznakov u nas, i pravda, neskol'ko soten, i ix 4islo i rost ix
4isla, vi sover6enno pravi, t6atel'no kontroliruetsa i idet kone4no je
ne tak bistro. Written by Artёm 6kondin
|