АБРАКАДАБРА (Тоже самое но в читаемом виде)
Za4astuu sayti s prekrasnim unikal'nim kontentom okazivautsa
trudnodostupnimi dla pol'zovateley poiskovix sistem tol'ko li6' potomu,
4to ix razrabot4iki v svoe vrema ne pozabotilis' o tom, naskol'ko
korrektno eti sayti smogut proindeksirovat' i otranjirovat' poiskovie
ma6ini. Nije rassmotrim naibolee tipi4nie o6ibki i nedo4eti,
prepatstvuu6ie korrektnoy indeksacii i ranjirovaniu saytov v poiskovix
ma6inax. Eti o6ibki mojno uslovno razdelit' na 3 bol'6ie gruppi:
1. Ispol'zovanie konstrukciy, zatrudnau6ix korrektnoe indeksirovanie dokumentov 2. Zasorenie indeksov poiskovix ma6in dublikatami stranic 3. O6ibki, prepatstvuu6ie naibolee polnoy i bistroy indeksacii i pereindeksacii sayta
Rassmotrim ix podrobnee.
1. Ispol'zovanie konstrukciy, zatrudnau6ix korrektnoe indeksirovanie dokumentov.
Eti o6ibki mogut privesti k tomu, 4to poiskovie sistemi ne smogut
proindeksirovat' nekotorie stranici sayta polnost'u ili 4asti4no, a
takje ne smogut u4est' nekotorie ssilki mejdu stranicami sayta.
Java-script, Vbscript
Poiskovie sistemi ne ispolnaut skripti, ispolnaemie na storone
klienta. V protivnom slu4ae ix ispolnenie rezko povisilo bi nagruzku na
servera robotov. Ni Java-script, ni Vbscript na segodna6niy den' ne
indeksiruutsa poiskovimi sistemami. Poetomu roboti ne mogut ni
proindeksirovat' tekst, ni nayti ssilki, vipolnennie na Java-script ili
Vbscript. Poslednee mojet slujit' prepatstviem dla indeksacii nekotorix
stranic sayta (poiskovie roboti ix prosto ne smogut nayti po ssilkam) i
raspredeleniu pokazateley avtoritetnosti vnutri sayta. Odnako, pri
umelom ispol'zovanii, s pomo6'u podobnix ssilok mojno manipulirovat'
raspredeleniem pokazateley avtoritetnosti po va6emu usmotreniu.
Teg <noindex>
E6ё pro6e skrit' tekst ili ssilki mojno s pomo6'u tega
<noindex></noindex>. Pravda, ne ot vsex poiskovikov. Etot
teg - isklu4itel'no ote4estvennaa razrabotka. Ego u4itivaut vsego dve
poiskovie sistemi - Andeks i Rambler. Kod raspolojenniy vnutri etogo
tega, v tom 4isle i ssilki, ne indeksiruetsa etimi poiskovimi sistemami.
Poetomu nado izbegat' ispol'zovania etogo tega na stranicax sayta, esli
Vi xotite, 4tobi soderjimoe stranici bilo polnost'u proindeksirovano.
Naibolee tipi4noy o6ibkoy avlaetsa ispol'zovanie etogo tega dla zakritia
dla indeksacii elementov navigacionnogo menu pri ispol'zovanii na sayte
lokal'nogo poiska, rabotau6ego na poiskovom dvijke mnoGoSearch, takje
podderjivau6ey etot teg. Opat'-taki, pri umelom ispol'zovanii, s pomo6'u
etogo tega mojno manipulirovat' raspredeleniem pokazateley
avtoritetnosti po va6emu usmotreniu ili koncentraciey klu4evix slov.
Flash
Takje kak i skripti, Flash do nedavnix por ne indeksirovalsa
poiskovimi sistemami i vsa eta "krasota" ne popadala v bazi poiskovix
sistem. Odnako, v poslednee vrema nekotorie poiskovie ma6ini (v
4astnosti, Rambler i Andeks) zaavili ob indeksacii Flash. Tem ne menee, a
bi ne rekomendoval 6irokoe ispol'zovanie etoy texnologii, esli vi
xotite, 4to bi va6i sayti xoro6o ranjirovalis' poiskovimi ma6inami.
Freymi
Pri pervona4al'no kaju6eysa privlekatel'nosti ispol'zovania freymov
na sayte, na poverku oni obora4ivautsa tol'ko problemami. I delo ne
tol'ko v tom, 4to na kajdoy stranice neobxodimo skripti, kotorie v etom
slu4ae zagrujaut vsu freymovuu strukturu sayta i otkrivaut v odnom iz
freymov tu stranicu, na kotoruu posetitel' pri6el pervona4al'no.
Freymovie strukturi bolee medlenno indeksiruutsa. Neasno, kak
raspredelaetsa vo freymax pokazateli avtoritetnosti. No esli uj vam
dovelos' rabotat' s takim saytom i net vozmojnosti otkazat'sa ot
freymov, to ispol'zuyte teg <noframes> - ego soderjanie, tekst i
ssilki, indeksiruutsa. No neobxodimo bit' ostorojnim s ego
ispol'zovaniem. Kak i k lubomu kontentu, skritomu ot pol'zovatela, k
soderjaniu <noframes> poiskovie sistemi otnosatsa s podozreniem, i
ono dovol'no legko mojet bit' rasceneno kak spam.
Redirekti
Redirekt, t.e. perenapravlenie pol'zovatela bez ego aktivnix deystviy
na druguu stranicu, bivaet dvux tipov: ispolnaemiy na storone servera i
na storone klienta. Klientskiy redirekt - ve6' voob6e o4en' opasnaa,
sayt mojet popast' v ban-list prosto za ego ispol'zovanie. Delo v tom,
4to redirekt na storone klienta obi4no ispol'zuetsa dla spama poiskovix
sistem s pomo6'u dorveev. Robotom indeksiruetsa kak bi obi4naa stranica,
optimizirovannaa pod kakoy-libo zapros, no pri obra6enii pol'zovatela k
stranice ego perenapravlaut na druguu stranicu.
Redirekt, ispolnaemiy na storone servera, ne popadaet pod sankcii, no
xoro6ego v nёm toje ni4ego net. Delo v tom, 4to mejdu dokumentom A, na
kotorom stoit ssilka i dokumentom V, na kotoriy v kone4nom s4ete
popadaet pol'zovatel', naxoditsa promejuto4niy dokument S. I poetomu
podobnaa konstrukcia poiskovoy ma6inoy mojet i ne bit' rascenena, kak
ssilka s dokumenta A na dokument V so vsemi vitekau6imi posledstviami.
Dinami4eskie adresa stranic
Poiskovie sistemi ne mogut znat', kakim obrazom formiruetsa kone4niy
kod stranic, stati4niy li eto html ili dinami4eski sgenerirovanniy.
Edinstvennim priznakom vistupaet url stranici. Dinami4eskimi stranicami
s4itautsa esli v ix adrese prisutstvuet znak voprosa ili oni imeut
ras6irenie, otli4noe ot *.htm ili *.html, naprimer *.php, *.jsp, *.pl i
drugie. 4em ploxi takie adresa? Delo v tom, 4to nekotorie poiskovix
sistemi mogut nakladivat' ograni4enia na indeksaciu podobnix stranic ili
na u4et ssilok s takix stranic.
Interesen mexanizm indeksacii dinami4eskix stranic Aportom. U nego
dla kajdogo sayta su6estvuet kvota, na koli4estvo indeksiruemix stranic
(lubogo tipa), napramuu zavisa6aa ot indeksa citiruemosti sayta. T.e.
koli4estvo indeksiruemix stranic dla saytov s nizkim IC men'6e, 4em dla
bolee "avtoritetnix". I tol'ko v slu4ae, esli kvota pozvolaet
proindeksirovat' vse stranici s sayta so stati4eskimi adresami i e6ё ne
polnost'u izrasxodovana, Aportom na4inaut indeksirovat'sa stranici s
dinami4eskimi adresami.
Zamenu dinami4eskix adresov na stati4eskie mojno osu6estvit' s
pomo6'u special'nogo special'nogo modula mod_rewrite dla Apache
(podrobnee ob etom module mojno posmotret' zdes': http://httpd.apache.org/docs/mod/mod_rewrite.html).
2. Zasorenie indeksov poiskovix ma6in dublikatami stranic.
Identifikatori sessiy v adresax stranic.
Identifikatori sessiy ispol'zuutsa dla prisvoenia pol'zovatelu
unikal'nogo obozna4enia i generiruutsa avtomati4eski pri otkritii kajdoy
novoy sessii. I kajdiy raz, pri proxode po ssilkam sayta robot polu4aet
noviy adres dla odnoy i toy je stranici. V to je vrema, proveraa uje
xrana6iesa v baze poiskovoy sistemi ssilki, robot obnarujivaet, 4to oni
po-prejnemu su6estvuut, odnako iz-za togo, 4to ssilok s drugix stranic
na etu bol'6e net, ves u neё krayne mal. Postepenno v baze poiskovoy
sistemi poavlaetsa bol'6oe koli4estvo dublikatov odnoy i toy je
stranici, 4to mojet privesti k sankciam so storoni poiskovoy sistemi.
Sayt mojet podvergnut'sa "bezjalostnoy 4istke", t.e. udaleniu iz indeksa
bol'6ey 4asti stranic.
I eto ne edinstvennaa problema, vizivaemaa identifikatorami sessiy.
Roboti nekotorix poiskovix sistem imeut ograni4enia na koli4estvo
indeksiruemix za odin svoy vizit stranic. I nali4ie mnojestva odinakovix
stranic s raznimi adresami, estestvenno, zamedlaet indeksaciu sayta.
U4itivaa vi6eskazannoe, neobxodimo izbavlat'sa ot identifikatorov
sessiy v adresax stranic, tem bolee 4to v bol'6instve slu4aev, kak
pokazivaet praktika, v ix primenenii net neobxodimosti. Esli je eto
nevozmojno, to takie stranici neobxodimo zapretit' k indeksacii, a v
slu4ae obra6enia k dokumentam robotov poiskovix ma6in (ix mojno,
naprimer, identificirovat' po zna4eniu pola User-Agent) ne generirovat'
identifikatori sessii.
Nekorrektnie otkliki servera.
E6ё odnoy pri4inoy zamusorivania bazi poiskovikov i primenenia
posleduu6ix sankciy mojet stat' nepravil'naa nastroyka otklikov servera,
a to4nee neverniy zagolovok stranici, vozvra6aemiy serverom.
Dokumenti normal'no indeksiruutsa poiskovimi sistemami, tol'ko esli
server vozvra6aet v zagolovke kod 200 (OK). Pri vozvrate serverom kodov
301 (pereme6eno), 302 (vremenno pereme6eno) i 404 (ne naydeno) stranici
robotom ne indeksiruutsa i udalautsa iz indeksa, esli oni v nёm
naxodilis'. Tipi4noy o6ibkoy avlaetsa vida4a serverom koda 200 (OK) dla
nesu6estvuu6ix stranic. Naprimer, pri zaprose po nevernomu adresu,
vidaёtsa stranica s tekstom ob o6ibke, a HTTP-kod pri etom 200. V itoge
eta stranica mnogokratno indeksiruetsa pod raznimi adresami i pri
nakoplenii bol'6ogo koli4estva podobnix stranic v indekse sayt
podvergaetsa 4istke (v slu4ae Andeksa), pri kotoroy on mojet bit' udalёn
iz bazi prakti4eski celikom. Rambler mojet "pessimizirovat'" sayt, t.e.
ponizit' ego v rezul'tatax poiska, na4isliv emu 6trafnie balli.
Posmotret', kakie otkliki vidaet server dla konkretnoy stranici
mojno, k primeru, s pomo6'u special'nix onlaynovix servisov. Vot adres
odnogo iz nix: http://www.searchengineworld.com/cgi-bin/servercheck.cgi.
3. Upravlenie polnotoy pereindeksacii sayta.
Za4astuu razrabot4iki sayta ne zadumivautsa o tom, kak obespe4it'
naibolee bistruu i polnuu indeksaciu i pereindeksaciu stranic sayta. I
esli dla sravnitel'no nebol'6ix saytov razmerom v neskol'ko desatkov
stranic, eto, mojet bit', i ne o4en' aktual'no, to prenebrejitel'noe
otno6enie k podobnogo roda ve6am v slu4ae saytov, soderja6ix bol'6oe
koli4estvo dokumentov, izmeraemoe sotnami i tisa4ami, mojet privesti k
tomu, 4to roboti poiskovix ma6in budut postoanno pereindeksirovat' odni i
te je ne izmenau6iesa maloinformativnie dokumenti, obxoda storonoy
osnovnoy kontent sayta. Su6estvuet rad texni4eskix priemov, pozvolau6ix
dobit'sa bolee bictroy i polnoy indeksacii i pereindeksacii stranic
sayta.
Razbienie sayta na poddomeni.
Roboti poiskovix ma6in mogut imet' ograni4enia na koli4estvo
indeksiruemix za odin vizit dokumentov s odnogo sayta. Osobenno
zamedlaut indeksaciu bistrorastu6iy kontent, takoy, naprimer, kak
pose6aemiy forum ili doska ob&avleniy. Poetomu mojno porekomendovat'
takie razdeli vinosit' v poddomeni - dla nix u poiskovix ma6in uje budut
svoi kvoti i oni ne budut zamedlat' indeksaciu osnovnix razdelov sayta.
Nastroyka zagolovka otklika servera na GET i HEAD s polem If-Modified-Since
Roboti poiskovix ma6in pri pereindeksacii zapra6ivaut dokumenti s
polem If-Modified-Since v kotorom stavitsa data posledney
pereindeksacii. Dla stati4eskix dokumentov server samostoatel'no
formiruet korrektniy otklik na takoy zapros - 200 OK, esli dokument
izmenalsa posle dati, ukazannoy v zaprose libo 304 Not Modified, esli ne
izmenalsa. Vo vtorom slu4ae robot ne budet ska4ivat' dokument i
obnovlat' ego v svoey baze.
Odnako dla dinami4eskix dokumentov, sobiraemix "na letu", server v
sostoanii vidat' tol'ko 200 OK. Poetomu luboy dinami4eskiy dokument
budet ska4an i pereindeksirovan, vklu4aa te, soderjimoe kotorix real'no
ne menalos' so vremeni posledney pereindeksacii. Poroy podobnie
dokumenti mogut vibrat' vsu kvotu, videlennuu na indeksaciu. To est'
poiskovaa ma6ina ne polu4it nikakoy novoy informacii o sayte. Poetomu
jelatel'no v zagolovke otklika na zaprosi GET i HEAD s polem
If-Modified-Since dla dokumentov, o date posledney modifikacii kotorix
est' informacia, prinuditel'no vidavat' otklik 304 Not Modified, esli
data posledney modifikacii ran'6e, 4em data, stoa6aa v zaprose. Tem
samim robot polu4it informaciu o tom, 4to dokument ne izmenilsa, i, ne
ska4ivaa ego, obratitsa k sleduu6emu dokumentu v o4eredi. Esli u robota
est' limit na koli4estvo ska4ivaemix za odin zaxod dokumentov, to, takim
obrazom, on za odin zaxod ska4aet bol'6ee 4islo dokumentov, real'no
izmeniv6ixsa ili e6e ne proindeksirovannix.
Zapre6enie k indeksacii neinformativnix ili dubliruu6ix stranic sayta.
Na sayte mojet naxodit'sa nekotoroe koli4estvo stranic, kontent
kotorix sover6enno neinformativen (naprimer stranici fotogalerei,
soderja6ie tol'ko izobrajenia) ili dubliruet soderjimoe drugix stranic
(naprimer, razli4nie rejimi sortirovki informacii v tablicax). Podobnie
stranici celesoobrazno zapre6at' k indeksacii v celax bolee bistroy i
polnoy pereindeksacii drugix stranic sayta.
Zapretit' stranicu k indeksacii poiskovoy sistemoy mojno dvuma
sposobami: s pomo6'u meta-tegov ili fayla robots.txt Dla zapreta
ispol'zuetsa meta-teg "robots":
< META NAME="ROBOTS" CONTENT="zna4enie" >
V atribute content mojno primenat' sleduu6ie direktivi:
NOINDEX - zapre6aet indeksaciu dokumenta, no razre6aet perexodit' po ssilkam s nego:
< META NAME="ROBOTS" CONTENT="NOINDEX" >
NOFOLLOW - zapre6aet perexodit' po ssilkam, no ne zapre6aet indeksirovat' dokument:
< META NAME="ROBOTS" CONTENT="NOFOLLOW" >
Ili ix kombinaciu: NOINDEX, NOFOLLOW - zapre6aet indeksirovat' dokument i perexodit' s nego po ssilkam:
< META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW" >
Esli trebuetsa zapretit' k indeksacii razdel ili gruppu faylov s
odnotipnimi imenami, to bolee udobnim sposobom budet zapret s pomo6'u
robots.txt . Eto tekstoviy fayl, kotoriy doljen raspolagat'sa v kornevoy
direktorii servera, t.e. bit' dostupen po adresu
http://ima_sayta.ru/robots.txt
Fayl doljen soderjat' odnu ili neskol'ko zapisey, razdelennix odnoy
ili neskol'kimi pustimi strokami. Kajdaa zapis' sostoit iz strok vida:
ima_pola:[probeli]zna4enie[probeli]
Probeli avlautsa ne obazatel'nimi. Registr zna4enia pola ne
u4itivaetsa. Mogut ispol'zovat'sa kommentarii - simvol # ozna4aet na4alo
kommentaria, konec stroki - konec kommentaria.
Zapis' doljna na4inat'sa s odnoy ili neskol'kix strok User-Agent,
sledom doljna bit' odna ili neskol'ko strok Disallow. Neraspoznannie
stroki ignoriruutsa.
V stroke User-Agent ukazivaetsa ima robota poiskovoy sistemi, dla
kotoroy zapre6autsa k indeksacii stranici. U Andeksa eto yandex,
Ramblera - StackRambler, Aporta - aport i u Google - googlebot. Esli
robotov, dla, kotorix trebuetsa nalojit' odinakoviy zapret neskol'ko, to
nado pomestit' v zapisi neskol'ko strok User-Agent odnu za drugoy, v
kajdoy ukazav ima sootvetsvuu6ego robota. Esli stranici neobxodimo
zapretit' ot indeksirovania vsemi robotami, to neobxodimo ispol'zovat'
simvol *. Takaa zapis', s polem "User-agent: *" mojet bit' v fayle
robots.txt tol'ko odna.
V kajdoy zapisi, takje, doljno bit' xota bi odno pole Disallow. V nёm
ukazivaetsa ukazivaetsa 4asti4niy ili polniy put' (URL), zapre6aemix
stranic. V strokax s polem Disallow zapisivautsa ne absolutnie, a
otnositel'nie prefiksi, t.e. v etom pole ne doljno ukazivat'sa domennoe
ima sayta - www.sayt.ru Esli zna4enie Disallow ne ukazano, to eto
ozna4aet, 4to mojet indeksirovat'sa vsё.
Naprimer:
User-Agent: * Disallow: /sript/
Eta zapis' zapre6aet vsem robotam indeksirovat' fayli, ssilki na
kotorie soderjat put' k direktorii /sript/. Dla polnogo zapreta
indeksacii ispol'zuetsa simvol /. Zapretim Andeksu indeksirovat' sayt:
User-agent: yandex Disallow: /
4tobi zapretit' robotu pose6enie dinami4eskix stranic, mojno
ispol'zovat' 4asti4niy put'. Vozvra6aas' k identifikatoram sessiy, dla
zapreta stranic soderja6ix ix v adrese mojno ispol'zovat' podobnuu
konstrukciu:
User-agent: * Disallow: /page3.php;phpessionid
Stranica page3.php budet normal'no proindeksirovana, a vse eё kopii,
na4inau6iesa na page3.php;phpessionid budut zapre6eni k indeksacii.
Nali4ie robots.txt na servere ne avlaetsa obazatel'nim, ego
otsutstvie, kak i pustoy fayl robots.txt, ili nepravil'no sostavlenniy,
budet interpretirovat'sa robotom kak razre6enie na polnuu indeksaciu
sayta.
Polnaa dokumentacia po protokolu fayla robots.txt naxoditsa zdes': http://www.robotstxt.org/wc/robots.html.
V zaklu4enii xo4u otmetit', 4to gramotnoe re6enie vsex
rassmotrennix problem avlaetsa isklu4itel'no vajnoy i neot&emlemoy
4ast'u raboti po prodvijeniu sayta v poiskovix ma6inax, tak kak
prenebrejitel'noe otno6enie k etim voprosam sposobno zna4itel'no
umen'6it' ili daje svesti na net effekt ot meropriatiy po
pozicionirovaniu sayta.
|