www.romver.ru
/ Полный список статей / Антиспам

Как заказать сайт


АБРАКАДАБРА (Тоже самое но в читаемом виде)

Istori4eski slojilos', 4to poiskovie sistemi ispol'zovali upro6ennie modeli dla izvle4enia signalov dla ranjirovania i antispama. Po mere rosta trafika i klikstrima stal vozmojnim perexod k bolee realisti4nim modelam. Naprimer, na smenu modeli slu4aynogo blujdania PageRank pri6li modeli u4eta povedenia real'nix pol'zovateley (Browserank i analogi4nie algoritmi).

Kone4no, etot perexod ne ozna4aet bezogovoro4nogo otkaza ot tradicionnogo PageRank, no ozna4aet umen'6enie ego vklada v ras4et relevantnosti dokumenta v pol'zu novix vozmojnostey.

Vajno, 4to realisti4nie modeli obespe4ivaut ne tol'ko lu46iy signal v ranjirovanii, no i pozvolaut effektivno podavlat' spam. Rassmotrim nekotorie podxodi, opublikovannie v stat'e «Identifying Web Spam with User Behavior Analysis», Tsinghua University, Beijing, 2008.

Avtori re6ili dve zada4i:
1. Viavleni poveden4eskie 6abloni, pozvolau6ie effektivno obnarujivat' spam,
2. Sozdana platforma dla obnarujenia novix sposobov spama.

Texni4eskoy bazoy dla eksperimenta poslujil fragment loga poiskovoy sistemi sogou.com za 57 sutok (leto 2007 goda). Etot massiv dannix soderjal 22.1 milliona pol'zovatel'skix sessiy i 2,74 milliarda klikov po 800 millionam dokumentov.

6abloni, xoro6o xarakterizuu6ie spam


Dola seo-trafika na dokument
Opredelim dolu seo-trafika (search engine oriented visit, SEOV):



Gipoteza prosta: na spamnie dokumenti pol'zovateli obi4no popadaut tol'ko 4erez poiskovuu vida4u. Naprotiv, na ka4estvennie dokumenti obi4no su6estvuet ne seo-trafik. Predpolagaem, SEOV dla spamnix dokumentov budet bolee visokim. Posmotrim na raspredelenie ka4estvennix i spamnix dokumentov po intervalam SEOV:



Vidno, 4to 82% xoro6ix dokumentov polu4ili menee 10% trafika iz poiskovix sistem. S drugoy storoni, dla po4ti 60% spamnix dokumentov dola seo-trafika 40% i bolee. Pri etom vsego 1% ka4estvennix dokumentov imeet SEOV bolee 70%.

Dokument kak isto4nik trafika

Pri klike po ssilke i isto4nik, i celevaa stranica perexoda fiksiruutsa v web access log’e. Luboy dokument mojet avlat'sa kak polu4atelem, tak i isto4nikom trafika. Xota spamnie dokumenti mogut soderjat' bol'6oe koli4estvo isxoda6ix ssilok, oni obi4no ne porojdaut trafika na celevie stranici.
Opredelim dolu slu4aev, v kotorix dokument avlaetsa isto4nikom trafika (source page rate, SP):



Iz raspredelenia dokumentov po privedennomu kriteriu vidno, 4to SP dla ka4estvennix stranic obi4no bol'6e, 4em dla spamnix:



Po4ti polovina spamnix dokumentov, prisutstvuu6ix v training set’e, redko vistupaut isto4nikom trafika (SP < 5%). Li6' 7.7% spamnix dokumentov demonstriruut SP bolee 40%, dola ka4estvennix dokumentov v etom je diapazone SP — bolee 53%.

Dola korotkix vizitov
O4evidno, kontent spamnix dokumentov ne stimuliruet pol'zovateley provodit' mnogo vremeni na sayte. Opredelim dolu korotkix vizitov (short-time navigation rate, SN rate):



Peremennaa N mojet var'irovat'sa, issledovateli ustanovili ee ravnoy 3. Fizi4eskiy smisl SN prost — eto dola sessiy, v kotorix bilo prosmotreno menee N dokumentov sayta.
Vidno, 4to dola korotkix vizitov pozvolaet neploxo re6it' zada4u viavlenia spama:



Algoritm obnarujenia spama, osnovanniy na analize osobennostey povedenia pol'zovateley

Viavlenie spama — tipi4naa zada4a klassifikacii. Issledovateli ispol'zovali naivniy bayesovskiy klassifikator i rassmotreli odno- i mnogofaktornuu modeli. Itogovaa funkcia ocenki veroatnosti dokumenta bit' spamnim:



Detali realizacii dostupni v isxodnoy stat'e.
Interesno, 4to predlojennie faktori okazalis' prakti4eski nezavisimi:



Po-vidimomu, eto svazano s razli4noy prirodoy isto4nikov dannix.

Algoritm viavlenia spama:

1. Sbor loga,
2. Ras4et SEOV i SP dla kajdogo dokumenta,
3. Ras4et SEOV i SP dla kajdogo sayta (usrednaa dokumentnie dannie p.2),
4. Ras4et SN dla kajdogo sayta,
5. Ras4et veroatnosti dokumenta okazat'sa spamnim.

Rezul'tati


Obu4iv klassifikator, razrabot4iki algoritma protestirovali ego na slu4aynoy viborke iz 1564 saytov. Asessori so4li 345 saytov spamnimi, 1060 ne spamnimi, 159 — zatrudnilis' ocenit'. Postroennaa ROC illustriruet, 4to SP i SEOV pozvolaut effektivnee obnarujit' spam, 4em SN:



Interesna problema skorosti reakcii na poavlenie spama. Tradicionno na viavlenie spama trebuetsa vrema. Eto xoro6o vidno na sleduu6ey krivoy:

 

Predlojenniy avtorami metod pozvolaet uskorit' obnarujenie spama.

Prakti4eskie rekomendacii


4tobi snizit' veroatnost' razmetki sayta kak spamnogo, nujno:
1. Dumat' o s4ast'e pol'zovatela:
  • Razme6at' polezniy kontent i servisi
  • Ssilat'sa na avtoritetnie isto4niki
  • Obespe4ivat' udobnuu navigaciu
2. Stremit'sa polu4at' trafik iz razli4nix isto4nikov
3. Ne privlekat' ploxo konvertiruu6iysa trafik:
  • s nizkoka4estvennix i/ili netemati4eskix resursov
  • po ob&avleniam ili ssilkam, ne relevantnim akceptoru
Ne ispol'zuyte spam, privlekayte celevuu auditoriu, cenite vrema va6ix pol'zovateley. Uda4i! seonews
3
Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(98I) 7608865

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2024 romver.ru

Полная карта сайта Display Pagerank