www.romver.ru
/ Полный список статей / Распознавание непотистских ссылок

Как заказать сайт


АБРАКАДАБРА (Тоже самое но в читаемом виде)

Ot perevod4ika.
V stat'e Brayna Devisona «Raspoznavanie nepotistskix ssilok v Vebe» vpervie bilo ozvu4eno ponatie «nepotistskie ssilki», bila dana traktovka termina i predlojen algoritm viavlenia ssilok takogo tipa.

Xota i pro6lo uje bolee 7 let s momenta publikacii Brayna Devisona, dannaa rabota vse ravno ne poterala svoey aktual'nosti, tak kak ozvu4enniy u4enim podxod primenim i sovremennix realiax.

Pri perevode bilo re6eno ne udelat' mnogo vnimania 4astnostam algoritma viavlenia nepotistskix ssilok, a naoborot, podrobnee ostanovit'sa na samom metodi4eskom podxode.

V zaver6enii predlojen variant ispol'zovania rassmotrennogo algoritma v usloviax sovremennogo SEO. V lubom slu4ae, nam kajetsa, 4to optimizatoram budet polezno oznakomit'sa s dannim perevodom.

 

Tema nepota, pojaluy, odna iz samix 4asto obsujdaemix tem do poslednego vremeni. Obsujdali razli4nie storoni raboti fil'tra, algoritmi diagnostiki nepota i pro4ee.

V novom godu Andeks ser'ezno pomenal svoy algoritm i optimizatori podrasterali interes k nepotu, na4av vmesto etogo obsujdat' takie parametri kak vozrast ssilki, ka4estvo ssilau6egosa sayta, «trastovost'», t.e. doverie k saytu so storoni Andeksa.

K tomu je, paru nedel' nazad Andeks prikril vozmojnost' opredelat' nepot po vsem izvestnomu algoritmu – 4erez unikal'nie ssilki (vopros, prikril li Andeks rabotu samogo nepot-fil'tra, ostaetsa otkritim). Tak vot, v principe, ostalsa drugoy algoritm proverki nepota, dostato4no prostoy v ponimanii i slojniy v realizacii.

Algoritm sleduu6iy:

• Berem kakoy-libo prodvigaemiy zapros, naprimer, «plastikovie okna»

• Dobavlaem odno slovo, kotoroe delaet zapros ne takim konkurentnim; pri etom stranica ostaetsa relevantnoy novomu zaprosu. Pust' mi na6li kuso4ek teksta «plastikovie okna obespe4ivaut…» - eto kak raz nam podoydet

• Fiksiruem poziciu na6ego sayta po etomu zaprosu. Esli mesto za topom – vibranniy zapros podoydet

• Pokupaem ssilku na plo6adke, kotoruu xotim proverit'

• Posle indeksacii ssilki otslejivaem podvijki po zaprosu i delaem vivod.

Soglasites', kajdiy raz tak opredelat' nepot takim obrazom o4en' zatratno. A 4to esli odin raz sobrat' informaciu o zanepo4ennix stranicax, nayti u nix ob6ie 4erti i dalee po sozdannomu 6ablonu analizirovat' novie stranici, s kotorix xotite kupit' ssilki. Interesno?

Davayte posmotrim, 4to predlagaut nam amerikanskiy kollega.


Vstuplenie

Algoritmi opredelenia popularnosti saytov v nastoa6ee vrema baziruutsa na u4ete ssilo4nogo okrujenia sayta. Sredi obi4nix ssilok mojno videlit' gruppu nepotistskix ssilok. Takie ssilki doljni bit' isklu4eni iz ras4eta popularnosti stranic, tak kak oni neestestvenni, i ne govorat na samom dele o popularnosti stranic, na kotorie ssilautsa.

V rassmatrivaemoy rabote issleduetsa vopros o tom, kakie ssilki nujno u4itivat' i takje raskrivautsa predvaritel'nie rezul'tati eksperimentov raboti samoobu4au6egosa algoritma, osnovannogo na sozdannix vru4nuu naborax dannix, kotoriy doljen raspoznavat' podobnie ssilki .


Vvodnie dannie

Obi4no popularnost' sayta rass4itivaetsa v u4etom veli4ini ego ssilo4nogo okrujenia (imeutsa v vidu sovokupnost' vnutrennix i vne6nix ssilok). Odnako takie vi4islenia ne sovsem to4ni po neskol'kim pri4inam:

• Nali4ie na saytax navigacionnix menu. Na takix saytax vse stranici, na kotorie vedut ssilki iz menu, imeut po n vxoda6ix ssilok, gde n – koli4estvo stranic na sayte. Na na6 vzglad, u4itivat' takie ssilki necelesoobrazno.

• Ssilo4niy spam. Spameri, znakomie s algoritmom ranjirovaniapoiskovix sistem, mogut special'no sozdavat' stranici dla prostanovki s nix ssilok na drugie stranici, kotorie oni xotat podnat' v vida4e.

Vtoroy primer illustriruet problemu spama poiskovix sistem (“search engine spam”), kogda otdel'nie stranici starautsa podnat' v vida4e iskusstvennimi metodami. Nekotorie poiskovie sistemi, algoritm ranjirovania kotorix u4itivaet ssilki, zaavlaut, 4to uspe6no borutsa so spamom. Odnako ix algoritmi diagnostiki osnovivautsa bol'6e na tekstovom analize i stanovatsa uazvimimi, kogda delo kasaetsa spama ssilo4nogo.

Iz «problemnix saytov» mojno privesti v primer sayt doorkey.com. Eto sayt, kotoriy soderjit mnojestvo ssilok na drugie sayti, no sam ne soderjit unikal'nogo kontenta.

Takje issledovateli videlaut otdel'nie gruppi saytov, kotorie ssilautsa na kakoy-libo odin sayt s edinstvennoy cel'u – podnat' ego v vida4e. (Ot perevod4ika: eto na6i s vami «promosayti» :))

4tobi borot'sa s etimi problemami predlagaetsa sleduu6ee:

• Vesti spisok stranic, kotorie zloupotreblaut vxoda6imi ssilkami

• Ispol'zovat' evristiki*, 4tobi isklu4it' iz ras4eta vnutrennie ssilki (preprocessing)

• Raspoznavat' slu4ai, kogda rezul'tati poiska bili podverjeni vlianiu spama i sootvetstvenno korrektirovat' vida4u (post-obrabotka)

Ot perevod4ika. *Evristika - sovokupnost' logi4eskix priemov i metodi4eskix pravil teoreti4eskogo issledovania i otiskania istini

K sojaleniu, nekotorie prostie evristiki mojno opredelat' po-raznomu. Privedem primer.

Ssilki mejdu stranicami s odinakovim xostom (identical host-names) mojno s4itat' kak vnutrennie, pri etom

• ne u4itivat' ssilki mejdu stranicami razli4nix pol'zovateley na odnom sayte

• u4itivat' ssilki mejdu razli4nimi xostami na odnom domene.

Ili, naprimer, u4et proizvodit' naoborot, ne prinimaa vo vnimanie ssilki mejdu razli4nimi xostami na odnom domene.

Takje est' spornie momenti, kasau6iesa u4eta ssilok mejdu stranicami, raspolojennimi na odnom domene, no raznix poddomenax.

V lubom slu4ae, problema ne stol'ko v tom, kakie ssilki priznavat' vnutrennimi, a skol'ko v tom, kakie ssilki nujno u4itivat' pri analize ssilo4nogo okrujenia, a kakie net. Pri etom otmetim, 4to texnologia neu4eta ssilok mojet bit' realizovana dvuma sposobami: ssilki mojno prosto otbrasivat', a mojno u4itivat' s o4en' malim vesom.

Takje voznikaet vopros – proizvodit' «obrabotku» ssilok do ras4eta relevantnosti (preprocessing) ili posle (postprocessing). S odnoy storoni, esli mi proizvodim u4et nepotistskix ssilok do ras4eta ssilo4noy relevantnosti, to uveli4ivaetsa skorost' ras4eta kone4noy relevantnosti (t.k. 4ast' ssilok poprostu otkidivaetsa). S drugoy storoni, postprocessing pozvolaet soxranit' isxodniy nabor dannix, k kotoromu mojno primenat' drugie algoritmi obrabotki, otiskivaa sredi nix samiy effektivniy.


Predvaritel'nie eksperimenti

Nabori dannix

Mi ispol'zovali 2 nabora dannix. Dla pervogo mi vru4nuu otmetili 1536 ssilok (t.e. par stranic, odna iz kotorix ssilaetsa na druguu), special'no vibrannix takim obrazom, 4tobi v nabor popali razli4nie tipi stranic. Zatem otmetili, kakie ssilki avlautsa nepotistskimi, a kakie net.

Vtoroy nabor dannix bil polu4en putem slu4aynogo otbora iz 7 mln. stranic 750 ssilok, kotorie bili vru4nuu promoderirovani i pome4eni, avlautsa li oni nepotistskimi ili net.

V itoge polu4ilis' sleduu6ie zna4enia veroatnostey: 89.5% ssilok bili otme4eni kak nepotistskie v pervom nabore dannix i 72.8% - vo vtorom.

Posle etogo bil opredelen nabor faktorov (naprimer, koli4estvo ssilok na stranice, DNS-server sayta, IP-adres) i dla kajdoy iz stranic dvux naborov zna4enia faktorov bili sobrani. V pervom slu4ae polu4ilos' 255 unikal'nix klassov, vo vtorom – 535.


Opredelenie pokazateley

Opredelenniy vru4nuu nabor iz 75 par pokazateley. vklu4ili v testi nayti otveti na voprosi:

• Identi4ni li zagolovki stranic (title) ili opisania (description)?
• Pereklikautsa li (i esli da, to naskol'ko, v %) opisania (description) s tekstom stanici?
• Polnost'u li sovpadaut imena xostov (host-names)?
• Identi4ni li tol'ko domeni?
• Identi4ni li tol'ko xosti bez domenov?
• Sovpadaut li, xota bi 4asti4no, IP-adresa?
• Ssilau6aasa stranica soderjit bolee 4em n isxoda6ix ssilok?
• Stranici soderjat opredelenniy procent odinakovix isxoda6ix ssilok?
• Sovpadaut li, xota bi 4asti4no, URL stranic?
• Prinadlejat li stranici domennoy zone .com, .net, .org, ili .edu?
• Stranica-donor ssilaetsa na linkstoyou.com?
• Opisanie (description) ssilau6eysa stranici soderjit frazu «ssilki»?
• URL soderjit takie slova kak «domoy», «pol'zovatel'» ili simvol «til'da» - ~
• Domeni soderjat odinakovie e-mail?
• Domeni imeut odinakovie DNS-servera?

Dalee eti 75 pokazateley bili razbiti na gruppi:

Bazovaa gruppa (46 pokazateley) (base): pokazateli, kasau6iesa URL’ov stranic

Bazovaa gruppa + informacia o ssilkax (59 pokazateley) (base+links): pokazateli, vxoda6ie v pervuu gruppu plus pokazateli, kasau6iesa isxoda6ix ssilok na ssilau6eysa stranice i IP-adresov

Bazovaa gruppa + tekst (71 priznak) (base+text): pokazateli, vxoda6ie v pervuu i vtoruu gruppu plus informacia o title i descriptions

Ob6aa gruppa (all), vklu4au6aa vse pokazateli plus dannie po proverke informacia o e-mail i DNS-serverax (dostupno tol'ko dla domennix imen v prostix domenov verxnego urovna gTLD ).

Eti gruppi bili opredeleni isxoda iz vremeni, kotoroe zatra4ivaetsa na sbor zadannoy informacii. Zna4enia pokazateley, vxoda6ix v pervie tri gruppi vi4islautsa na osnove informacii, soderja6eysa v baze dannix poiskovoy sistemi. 4etvertaa gruppa soderjit rad pokazateley, informacia o kotorix mojet bit' polu4ena tol'ko iz vne6nix isto4nikov (4to zatrudnaet, sobstvenno, ee sbor). I nakonec, patuu gruppu obrazuut dannie po pokazatelam (ix 25), kotorie sobirautsa vru4nuu dla povi6enia to4nosti).

Itak, posle opredelenia nabora pokazateley i sbora nujnoy informacii ispol'zuetsa programmnoe obespe4enie, pozvolau6ee stroit' derev'a re6eniy. Issledovateli ispol'zovali «C4.5 decision tree package (Quinlan 1993)», sozdannuu Rossom Kuilanom

S ispol'zovaniem v ka4estve obu4au6ey viborki pervogo nabora dannix bilo postroeno derevo re6eniy, fragment kotorogo predstavlen na risunke 1.

Derevo re6eniy, fragment
Risunok 1. Fragment dereva re6eniy, postroennogo na osnovanii pervogo nabora dannix

4to mi vidim na risunke? V strokax u nas raspolojeni pravila, obrazuu6ie «vetki» dereva re6eniy. Esli ssilka nepotistskaa, to rezul'tat = 1, esli normal'naa, to rezul'tat = -1. V skobo4kax ukazano koli4estvo slu4aev iz obu4au6ey viborki, kotorie udovletvoraut zadannomu usloviu.

Poasnim. Obratim vnimanie na pravila, videlennie krasnim. ESLI e-mail u dvux stranic odinakoviy, TO togda ssilku s4itat' nepotistskoy. Vsego iz obu4au6ey viborki pod eto uslovie popadaet 5 slu4aev, kogda ssilka bila issledovatelami pome4ena kak nepotistskaa (Same contact e-mail = 1: 1 (5.0)). ESLI e-mail dvux stranic razli4aetsa, to mi opuskaemsa na uroven' nije i delaem sleduu6uu proverku: ESLI stranici imeut >10% odinakovix ssilok, TO togda ssilki mejdu dvuma stranicami nado s4itat' nepotistskimi, INA4E - net. Pod pervuu 4ast' pravila u nas popadaut 62 ssilki, kotorie bili izna4al'no pome4eni kak nepotistskie i 7 ssilok, kotorie bili pome4eni kak xoro6ie. T.e. mi zdes' nabludaem o6ibku, pravilo ne sovsem korrektno opredelaet nepot. No ob o6ibkax pogovorim 4ut' pozje.


Rezul'tati

V pervuu o4ered' nam nado opredelit' to4nost' rezul'tatov, kotorie daet postroenie dereva. Issledovateli proveli dva eksperimenta: v pervom v ka4estve obu4au6ey viborki vistupal perviy nabor dannix (1536 ssilok), a vtoroy ispol'zovalsa kak testoviy, vo vtorom eksperimente – vse naoborot. Takje ispol'zovalis' razli4nie nabori pokazateley.

Na risunke nije mi vidim grafiki, pokazivau6ie to4nost' dvux eksperimentov. Nevoorujennim glazom vidno, 4to perviy sposob postroenia dereva re6eniy okazalsa bolee to4nim. Pri etom samiy xoro6iy rezul'tat dostigaetsa, kogda ispol'zuutsa zna4enia pokazateley, otobrannix vru4nuu (gruppa iz 24 pokazateley). V etom slu4ae o6ibka sostavlaet menee 10%. O6ibki, kak bilo pokazano vi6e, slu4autsa, kogda ssilka, pome4ennaa kak nepotistskaa, klassificiruetsa kak «xoro6aa», ili naoborot.

Urovni o6ibok algoritma
Risunok 2. Urovni o6ibok algoritma

Ob&asnautsa takie razli4ia mejdu dvuma eksperimentami sleduu6im obrazom. Perviy nabor dannix reprezentativnee, oxvativaet bol'6ee koli4estvo slu4aev, diagnostiruu6ix o nepote. Vtoroy nabor dannix mal. Poetomu, obu4aa algoritm diagnostiki na pervom nabore dannix, mi polu4aem bolee to4niy instrument. Takje stoit otmetit', 4to ispol'zovanie bolee polnogo nabora pokazateley, xarakterizuu6ix stranici s nepotistskimi ssilkami, daet lu46iy rezul'tat (za isklu4eniem slu4aev, kogda pokazateli otbirautsa vru4nuu).



Vivodi

Nabori dannix i rezul'tati


Kak mojet ispol'zovat' poiskovaa sistema predlojenniy v dannoy rabote podxod? Scenariy dostato4no prost. Sozdautsa dva nabora dannix, vklu4au6ix dva tipa ssilok: xoro6ie i nepotistskie. Perviy nabor dannix vibiraetsa takim obrazom, 4tobi v nem vstre4alis' vsevozmojnie varianti nepotistskix ssilok. Vtoroy nabor predstavlaet soboy slu4aynuu viborku iz real'nogo Veba. Na osnovanii pervogo nabora stroitsa derevo re6eniy i generiruutsa pravila. Na vtorom nabore pravila testiruutsa. Ispol'zovanie vtorogo nabora dannix dla generacii pravil daet xud6ie rezul'tati, tak kak vo vtorom nabore ne rassmatrivautsa vse varianti nepotistskix ssilok, t.e. viborka nereprezentativna.

V rabote predstavlen li6' otdel'niy primer ispol'zovania obu4au6ego algoritma dla viavlenia nepotistskix ssilok. Kone4no, rezul'tati ego raboti ne o4en' to4ni, tak kak dla testirovania i obu4enia ispol'zovalis' dostato4no malie nabori dannix, da i derev'a re6eniy – eto vsego li6' odin iz mnogix instrumentov raboti samoobu4au6egosa algoritma.

Ob&em rabot


V xode issledovaniy ne vozniklo problem so skorost'u vi4isleniy. S drugoy storoni, u4itivaa mas6tabi real'nogo poiska v Vebe, mojno ojidat', 4to u real'nix poiskovix sistem mogut vozniknut' nekotorie problemi s proizvoditel'nost'u.
Naibolee optimal'nim budet ispol'zovanie dannogo algoritma opredelenia nepotistskix ssilok ne v rejime real'nogo vremeni, a oflayn, t.e. ne v moment poda4i zaprosa i vivoda relevantnix rezul'tatov, a do etogo.

Budu6ie raboti


Problema nepotistskix ssilok gorazdo 6ire i ne ograni4ivaetsa opisivaemimi v rabote predpolojeniami. Osnovnie voprosi, kotorie sleduet re6it' v budu6em, eto kakim obrazom nujno u4itivat' dublikati stranic i «zerkala» saytov.
Nujno li ignorirovat' ssilki so stranic, soderja6ix odinakoviy tekst ili vse je prinimat' ix vo vnimanie?
Tak je, kak bilo otme4eno ranee v rabote, neasnim ostaetsa vopros s evristikami: kakim iz sposobov ix zadat', 4tobi lu46e u4itivat' ssilki mejdu saytami i mejdu stranicami odnogo sayta.
Eti problemi e6e predstoit re6it' poiskovim sistemam.
Zaklu4enie ot perevod4ika

Kak je eto ispol'zovat' prostomu seo6niku? A vse prosto. Dopustim, u nas est' neskol'ko tisa4 pokupnix ssilok. Mi opredelili ix rabotosposobnost' sposobom, kotoriy opisivalsa vo vstuplenii. Dalee, razdelaem porovnu rassmotrennie neskol'ko tisa4 slu4aev. Polu4aem dva nabora dannix. Na osnove pervogo mi stroim derevo re6eniy, vtoroy ispol'zuem dla proverki to4nosti. Posle togo kak mi postroili adekvatnoe derevo re6eniy i opredelili pravila, ispol'zuem ix dla diagnostiki plo6adok, na kotorix xotim priobresti ssilki. Esli pravila ukazivaut nam na to, 4to ssilka budet rabo4ey, zna4it, pokupaem, ina4e – ne berem.

Ot seba xotelos' bi dobavit', 4to mojno ne ograni4ivat'sa tol'ko derev'ami re6eniy – v Data Mining est' mnogo drugix sposobov! Derzayte!

So spiskom literaturi, kotoroy pol'zovalis' issledovateli, mojno oznakomit'sa v isto4nike.
Brayan D.Devison, fakul'tet informacionnix texnologiy, Gosudarstvenniy Universitet N'u-Djersi Perevod pod red. Dmitria Ruzanova, analitika-proektirov6ika kompanii Ingate. seonews.ru/article/.publication/525/
3
Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(812) 984 5721

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2020 romver.ru

Полная карта сайта Display Pagerank