www.romver.ru
/ Полный список статей / В настоящее время все острее и острее встает проблема дублирования информации в интернете. И что же делают поисковики, какие методы они используют для отсева.

Как заказать сайт


АБРАКАДАБРА (Тоже самое но в читаемом виде)

Vvedenie v problemu

V nastoa6ee vrema vse ostree i ostree vstaet problema dublirovania informacii v internete. 4a6e vsego takoe dublirovanie sover6aetsa umi6lenno, s naru6eniem avtorskix prav. Zloumi6lenniki ispol'zuut avtorskiy kontent dla napolnenia sobstvennix saytov, 4tobi izvlekat' dla seba vigodu.

Takoe dublirovanie informacii uxud6aet vida4u poiskovix sistem, vsledstvie 4ego poslednie aktivno borutsa s etim avleniem. Deystvitel'no, esli pol'zovatel' polu4aet po zaprosu 10 odinakovix dokumentov («odinakovost'» opredelaetsa pol'zovatelem po snippetam), eto vrad li dobavlaet popularnosti poiskoviku. Neskol'ko let nazad takaa situacia nabludalas' v Ramblere, vsledstvie 4ego poiskovik rasteral 4ast' svoego reytinga. Odnako sey4as Rambler otfil'trovivaet i skrivaet dublikati.

Takje nujno otmetit', 4to dublirovanie informacii zasoraet indeks poiskovika, emu stanovitsa trudnee vidavat' bistrie otveti pol'zovatelu. Pri etom vse dokumenti nujno regularno indeksirovat', a poavlenie novix dokumentov s neoriginal'nim kontentom avno vredit skorosti indeksacii.

Teoria po opredeleniu «ne4etkix dublikatov»

a. 4to takoe «ne4etkiy dubl'»

Dla na4ala nujno opredelit'sa s terminologiey. Edinogo mnenia po etomu povodu v seo e6e net, i poetomu dannaa terminologia ottalkivaetsa prosto ot zdravogo smisla.

Dubl' (dublikat) web-dokumenta – to4naa kopia web-dokumenta. «Ne4etkiy dublikat» web-dokumenta – web-dokument, 4asti4no izmenenniy v soderjatel'noy 4asti i/ili v 4asti formatirovania (ispol'zovanie drugix tegov html dla oformlenia stranici).

Mi budem traktovat' «dublikat web-dokumenta» tol'ko s to4ki zrenia poiskovoy sistemi, a ne pol'zovatela. Poetomu mi ne budem rassmatrivat' takoe avlenie kak «kopirayting», t.e. perepisivanie teksta special'no dla poiskovix sistem s ispol'zovaniem drugix slov, no s soxraneniem ob6ego smisla. Takoy tekst dla poiskovika budet vsegda original'nim, t.k. smisl teksta komp'uteri poka razli4at' ne mogut.

Su6estvuet neskol'ko osnovnix metodov opredelenia dublikatov.

b. Metod «opisatel'nix slov»

Danniy metod rabotaet po sleduu6emu principu.

Sna4ala formiruetsa nebol'6aa (ok. 2000-3000 slov) viborka. Viborka doljna udovletvorat' sleduu6im usloviam:

- s ee pomo6'u mojno dostato4no polno opisat' prakti4eski luboy dokument v seti
- opisanie dokumenta ne doljno bit' pri etom izbito4nim

Takim obrazom, dla formirovania viborki nujno otbrosit' slova, kotorie naibolee i naimenee upotrebitel'ni, t.e. ne u4itivat' stop-slova i razli4nie uzko temati4eskie termini. Takje v viborku ne popadaut prilagatel'nie, tak kak oni ne nesut v russkom azike smislovoy nagruzki.

Dalee kajdiy dokument sopostavlaetsa s viborkoy i rass4itivaetsa vektor, razmernost' kotorogo ravna koli4estvu slov v viborke. Komponenti vektora mogut prinimat' dva zna4enia – 0 ili 1. 0 – esli slova iz viborki net v dokumente, 1 – esli slovo vstre4aetsa v dokumente. Dalee dokumenti proverautsa na dublirovanie putem sopostavlenia ix vektorov.

Po takomu algoritmu Andeks opredelaet ne4etkie dublikati.

c. Metod 6inglov

Metod 6inglov zaklu4aetsa v sleduu6em. Dla vsex podcepo4ek analiziruemogo teksta rass4itivaetsa «kontrol'naa summa». Kontrol'naa summa (ili "signatura") - eto unikal'noe 4islo, postavlennoe v sootvetstvie nekotoromu tekstu i/ili funkcia ego vi4islenia. Funkcia vi4islenia kontrol'nix summ mojet presledovat' neskol'ko celey: naprimer "nevzlamivaemost'" (minimiziruetsa veroatnost' togo, 4to po zna4eniu kontrol'noy summi mojno podobrat' isxodniy tekst) ili "nepovtoraemost'" (minimiziruetsa veroatnost' togo, 4to dva raznix teksta mogut imet' odnu kontrol'nuu summu) - Elektronniy jurnal "Spamtest" No. 27 :-).

Obi4no ispol'zuutsa sleduu6ie algoritmi vi4islenia kontrol'nix summ: fnv, md5, crc. Posle vi4islenia kontrol'nix summ stroitsa slu4aynaa viborka iz polu4ennogo nabora. Po etoy viborke dokument mojno sli4at' s drugimi dokumentami, dla kotorix takje predvaritel'no rass4itana viborka, vot.

Danniy metod ras4eta avlaetsa dostato4no resursoemkim i ego mojno oboyti, nezna4itel'no izmeniv tekst, tak kak, prejde vsego, 6ingli zavisat ot rasstoania mejdu slovami.

Sey4as metod 6inglov evolucioniroval do algoritma «super6inglov», pri kotorom stoitsa ograni4enniy nabor kontrol'nix summ. Eksperimenti na ROMIP priveli k sleduu6im rezul'tatam – 84 6ingla, 6 super6inglov nad 4etirnadcatimi 6inglami kajdiy. Teksti s4itautsa sovpav6imi pri sovpadenii xota bi dvux super6inglov iz 6esti.

3
Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(98I) 7608865

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2024 romver.ru

Полная карта сайта Display Pagerank