www.romver.ru
/ /



( )

4to takoe Korolev i kak on evolucioniroval iz Palexa?

Algoritm Korolev logi4eskoe prodoljenie Palexa, no s radom su6estvennix osobennostey.

Izvestno, 4to poisk opredelaet tematiku. 4elovek, kak pravilo, ne otdaet sebe ot4eta o mexanizmax, kotorie zadeystvovani v akte opredelenia temi soob6enia. Naprimer, zavoda re4' o predmete v kakom-libo kontekste, mi mojem ne nazivat' ego pramo, a opisivat' s pomo6'u priznakov.

Tak, naprimer, usli6av u nego neploxoy ob&ektiv, zerkalka lu46e, 4em bezzerkalka, vidoiskatel' v etoy modeli ne nujen, xoro6ee fokusnoe rasstoanie, mi ponimaem, o 4em idet re4', xota slovo fotoapparat proizneseno ne bilo.

Mi ne ponimaem, kak eto rabotaet v golove 4eloveka. No dla organizacii informativnogo i poleznogo poiska, o4en' vajno 4etko predstavlat' eti processi. V klassi4eskom ponimanii eto rabotaet tak. (Ris.1)

4to takoe algoritm Korolev i kak on rabotaet

Ris. 1. Primer opredelenia tematiki poiskovimi sistemami

Predstavim trexmernoe prostranstvo, v kotorom su6estvuet tri vektora, sootvetstvuu6ie slovam mit', okno i rama. Voz'mem prosten'koe 6kol'noe predlojenie: Mama mila ramu. Vpolne o4evidno, 4to imeetsa nekotoroe sootvetstvie mejdu vektorom tematiki i slovami mama, mit' i rama v etoy fraze.

Eto 4rezvi4ayno upro6ennoe predstavlenie, kak rabotaet mexanizm opredelenia tematiki. I imenno iz-za svoey prostoti ono imeet rad su6estvennix ograni4eniy, odnim iz kotorix avlaetsa:

Bol'6oe koli4estvo slov v russkom azike okolo 1 000 000.

Pri4em eto, esli vzat' tol'ko ob6eupotrebitel'nie slova i predvaritel'no lematizirovat' ix privesti k na4al'noy slovoforme. Eto ob&asnaet nevisokuu skorost' vi4isleniy. Dla trexmernogo prostranstva na ris.1 pos4itat' vektor tematiki legko, no dla prostranstva v million izmereniy uje dostato4no tajelo proizvesti sravnenie mejdu vektorami.

Poetomu voznikla neobxodimost' razrabotki metodov sjatia matrici. Na segodna6niy den' v SEO osnovnimi avlautsa dva:

  • LSI,
  • Sjatie neyrosetami.

K nedostatkam LSI otnosat:

  • Neobxodimost' zaranee znat' koli4estvo vozmojnix tematik.
  • Nevozmojnost' izmenat' polu4iv6eesa sjatie, dobavlat' k nemu novie dannie, naprimer, o predpo4teniax pol'zovateley.
  • Vozmojnost' operirovat' tol'ko gruppami, a ne parami zapros-dokument, kotorie predstavlaut naibol'6iy interes s to4ki zrenia ranjirovania.

Neyroseti li6eni etix nedostatkov. Pomimo sjatia razmernosti matrici, oni obladaut o4en' vajnim preimu6estvom vozmojnost'u sravnivat' raznie veli4ini:

  • Zapros-zapros.
  • Zapros-zagolovok (kak delalos' v Palexe).
  • Zapros-dokument (kak delaetsa v Koroleve).

Vajnim principial'nim otli4iem vsex samoobu4au6ixsa algoritmov, i v tom 4isle neyrosetey, avlaetsa vozmojnost' re6it' zada4u v budu6em, kotoruu mi ne znaem, kak re6it', na danniy moment. Mi daem neyroseti ne strogo opredelennuu programmu, mi daem ey oblast', na kotoroy ona doljna budet nau4it'sa obu4au6uu viborku.

Neyroseti sostoat iz neyronov special'nix algoritmov, kotorie vipolnaut odno prostoe deystvie berut vxodnie dannie i skladivaut ix. Obu4enie neyronov proisxodit za s4et izmenenia svazey mejdu nimi.

Arxitektura neyroseti predpolagaet nali4ie:

  • Vxodnogo sloa, kuda postupaut dannie.
  • Promejuto4nogo (skritogo) sloa, gde proisxodat vi4islenia.
  • Vixodnogo sloa, otkuda mi dannie polu4aem.

4to takoe algoritm Korolev i kak on rabotaet

Ris. 2. Arxitektura neyroseti

Neyroset' umeet o4en' xoro6o sjimat' razmernost' vektornogo prostranstva. Million slov ona vpolne sposobna sjat' bez poteri ka4estva do sta.

Kak rabotaut algoritmi opredelenia relevantnosti bez klu4evix slov?

Voz'mem slovoso4etanie korova gulaet. Operirovat' v poiske mojno razli4nimi variantami:

  • Bukvennimi 3-grammami: kor, oro, rov, ova .
  • Slovami: korova, gulaet
  • Bigrammami: korova gulaet.

Algoritm Korolev operiruet srazu vsemi trema punktami, u4itsa na pol'zovatel'skix dannix i sozdaet pari vektorov, kotorie potom sravnivaet: vektor zapros s vektorom dokument.

S etogo momenta na4inaetsa SEO-mifologia. Esli poisk ne operiruet takim ponatiem, kak klu4evoe slovo, po4emu v TOPe ne prisutstvuut sayti, v kotorix klu4evix slov ne soderjitsa?

Vse o4en' prosto. V poiske su6estvuet ierarxia ranjirovania. Poisk ne primenaet odnu i tu je formulu ko vsem dokumentam. Sna4ala on primenaet prosto formulu ko vsem dokumentam, potom primenaet formulu poslojnee, 4tobi vibrat' 100150 dokumentov, potom vibiraet iz, dopustim, sta 10.

Samie pervie etapi ranjirovania nazivalis' ran'6e proxojdeniem kvoruma, kogda otbirautsa dokumenti, kotorie v principe mogut otvetit' na zadavaemiy vopros iz mnogix millionov ili daje milliardov kandidatov. I na dannom etape algoritm Korolev NE RABOTAET. To est' on ne mojet otobrat' relevantniy dokument, esli v nem ne soderjitsa klu4evix slov. Poetomu te dokumenti, kotorie prisutstvuut v TOPe, tak ili ina4e budut soderjat' kakie-to klu4eviki, dostato4nie dla proxojdenia kvoruma. Eto samoe obazatel'noe jestkoe uslovie.

Poetomu, kogda vi pitaetes' analizirovat' vida4u, ne nado pitat'sa iskat' sayti bez klu4evix slov. Vi ix, skoree vsego, ne naydete, a esli i naydete, to na etot sayt budet vesti ssilka s ankorom, soderja6im klu4.

Kak u4itivautsa predpo4tenia pol'zovateley?

Standartnaa rekomendacia: Prodoljayte razvivat' sayt dla pol'zovateley v sootvetstvii s na6imi rekomendaciami, i so vremenem on smojet bit' predstavlen v poiske na bolee visokix poziciax NE RABOTAET, esli vi pitaetes' razvivat' resurs bez orientacii na poiskovuu optimizaciu.

Slojnosti, svazannie s u4etom predpo4teniy pol'zovateley

  • Net dataseta pol'zovatel'skix deystviy.
  • Net asessorskix ocenok na relevantnost' zaprosov, s pomo6'u kotorix poisk obu4aet svou neyroset'.

No ne vse tak ploxo! Est' i para priatnix momentov:

  • Est' vida4a Andeksa, iz kotoroy mojno polu4it' signali temati4nosti.
  • Net jestkix ograni4eniy po vremeni, vam ne nujno ukladivat'sa v jestkie vremennie ramki, kak poiskovim sistemam.

Nam nujno iz poiskovoy vida4i vzat' dokumenti i poprobovat' operet'sa na to, kak eti dokumenti otranjirovani, (no ne sli6kom sil'no, potomu 4to signal Koroleva na danniy moment dostato4no slabiy) i popitat'sa predstavit' ix v ponatnom dla 4eloveka vide.

Ludam trudno operirovat' bukvennimi trigrammami i otdel'no vzatimi slovami, virvannimi iz konteksta, nujno delat' minimum bigrammi. No danniy process mojno avtomatizirovat', naprimer, s pomo6'u instrumenta Akvarel'.

4to takoe algoritm Korolev i kak on rabotaet

Ris. 3. Texni4eskie vektora na osnove algoritma Akvareli

On razbiraet slova dokumenta vniz do sotogo, ceplaet dopolnitel'nie dokumenti iz kollekcii, kotorie poxoji po svoemu slovarnomu sostavu, vedet u4et mejslovnix rasstoaniy. V rezul'tate polu4aetsa dostato4no xoro6iy temati4eskiy vektor. Ispol'zovat' mojno raznie instrumenti, vajno provodit' etu rabotu, tak kak s narastaniem vliania Koroleva, po moey ocenke, eto budet sxojim po zna4imosti faktorom ranjirovania vmeste s vxojdeniem klu4evix slov.

4to takoe algoritm Korolev i kak on rabotaet

Ris. 4. Razmetka dokumenta na mediannuu temati4nost' slova

Na ris. 4 pokazana razmetka dokumenta na tak nazivaemuu mediannuu temati4nost' slova. Dla kajdogo otdel'nogo slova bila pros4itana temati4nost' vektorov zaprosa (t.e. dla kajdogo zaprosa bil sostavlen temati4eskiy vektor), pos4itana relevantnost' kajdogo otdel'nogo slova i predstavlena v vide grafika, to est' naskol'ko etot pokazatel' zavisit ot poziciy. Okazalos', 4to zavisimost' est', i naibolee arko ona virajena v TOP 10. Za predelami zavetnoy desatki ee prakti4eski net. Pri4em naibolee zametno eto avlenie virajeno sredi informacionnix zaprosov.

4to sleduet zapomnit'?

  • Pro termin LSI mojno zabit'.
  • Klu4eviki vse ravno nujni. Bez nix tekst banal'no ne proydet bazovie etapi ranjirovania.
  • LSI temati4nie slova toje nujni. Ix vlianie po mere sover6enstvovania algoritma budet uveli4ivat'sa.
  • Process polu4enia i kontrola upotreblenia temati4nix slov nujno vstroit' v process naravne s klu4ami.

Kak bit' s tekstami v usloviax Koroleva i Badena

Baden interesen tem, 4to on u4itivaet srazu neskol'ko pokazateley i ne opiraetsa isklu4itel'no na koli4estvo vxojdeniy, ras4et spamnosti i t.d. On rabotaet sovokupno. Poetomu analizirua teksti konkurentov, kotorie obognali vas v vida4e, nujno u4itivat' ne tol'ko klu4i i koli4estvo ix vxojdeniy, no i kak minimum spamnost', temati4nost' i indeks udobo4itaemosti teksta.

Pod spamnost'u podrazumevaetsa ne koli4estvo klu4ey, kotorie tam ispol'zuutsa, a sam xarakter teksta. Indeks udobo4itaemosti sleduet ispol'zovat' v adaptirovannom vide dla russkoazi4nix tekstov. No vragi xoro6ego teksta v principe ob6ie dla raznix azikov redkie maloznakomie slova, dlinnie predlojenia.

Ne sleduet delat' tekst isklu4itel'no iz temati4nix slov bez ob6ey leksiki. Vopros v ix dostato4nom koli4estve. Proverit' teksta na pereizbitok klu4ey i ix sinonimov dostato4no prosto. Nujno udalit' ix iz teksta i pro4itat' rezul'tat, esli vam po-prejnemu ponatno, o 4em idet re4' tekst xoro6iy. Nujno pomnit', 4to ocenka temati4nosti u vsex servisov avlaetsa sub&ektivnoy i ne kopiruet poisk, tak kak ne raspolagaet dostato4nimi dannimi.

Podrobno pro rabotu v usloviax Korolva i Palexa a budu rasskazivat' na svoem master-klasse Prodvijenie sayta uslug 79 oktabra v Moskve. Osnovnaa povestka meropriatia eto prodvijenie saytov uslug. Master-klass dla tex, kto prodvigaet svoi uslugi v poiskovix sistemax, naprimer, zakaz taksi, zakaz evakuatorov, medicinskie uslugi, stomatologia, turagentstva i t.d.

3
  ,
:
. +7(98I) 7608865

e-mail
icq 415547094  romver  mail.ru  romverinbox.ru
1997 - 2022 romver.ru

Display Pagerank