www.romver.ru
/ / robot.txt



( )

Fayl robot.txtPoiskovie servera vsegda pered indeksaciey va6ego resursa i6ut v kornevom kataloge va6ego domena fayl s imenem "robots.txt" (http://www.imasayta.ru/robots.txt). Etot fayl soob6aet robotam (paukam-indeksatoram), kakie fayli oni mogut indeksirovat', a kakie net.

Format fayla robots.txt - osobiy. On sostoit iz zapisey. Kajdaa zapis' sostoit iz dvux poley: stroki s nazvaniem klientskogo prilojenia (user-agent), i odnoy ili neskol'kix strok, na4inau6ixsa s direktivi Disallow:

<Pole> ":" <zna4enie>

Robots.txt doljen sozdavat'sa v tekstovom formate Unix. Bol'6instvo xoro6ix tekstovix redaktorov uje umeut prevra6at' simvoli perevoda stroki Windows v Unix. Libo va6 FTP-klient doljen umet' eto delat'. Dla redaktirovania ne pitaytes' pol'zovat'sa HTML-redaktorom, osobenno takim, kotoriy ne imeet tekstovogo rejima otobrajenia koda.


Pole User-agentStroka User-agent soderjit nazvanie robota. Naprimer:

User-agent: googlebot

Esli vi obra6aetes' ko vsem robotam, vi mojete ispol'zovat' simvol podstanovki "*":

User-agent: *

Nazvania robotov vi mojete nayti v logax va6ego veb-servera. Dla etogo viberite tol'ko zaprosi k faylu robots.txt. bol'6instvo poiskovix serverov prisvaivaut korotkie imena svoim paukam-indeksatoram.

Pole Disallow:Vtoraa 4ast' zapisi sostoit iz strok Disallow. Eti stroki - direktivi dla dannogo robota. Oni soob6aut robotu kakie fayli i/ili katalogi robotu nerazre6eno indeksirovat'. Naprimer sleduu6aa direktiva zapre6aet paukam indeksirovat' fayl email.htm:

Disallow: email.htm

Direktiva mojet soderjat' i nazvanie kataloga:

Disallow: /cgi-bin/

Eta direktiva zapre6aet paukam-indeksatoram lezt' v katalog "cgi-bin".

V direktivax Disallow mogut takje ispol'zovat'sa i simvoli podstanovki. Standart diktuet, 4to direktiva /bob zapretit paukam indeksirovat' i /bob.html i /bob/index.html.

Esli direktiva Disallow budet pustoy, eto zna4it, 4to robot mojet indeksirovat' VSE fayli. Kak minimum odna direktiva Disallow doljna prisutstvovat' dla kajdogo pola User-agent, 4tobi robots.txt s4italsa vernim. Polnost'u pustoy robots.txt ozna4aet to je samoe, kak esli bi ego ne bilo voob6e.

Probeli i kommentariiLubaa stroka v robots.txt, na4inau6aasa s #, s4itaetsa kommentariem. Standart razre6aet ispol'zovat' kommentarii v konce strok s direktivami, no eto s4itaetsa ploxim stilem:

Disallow: bob #comment

Nekotorie pauki ne smogut pravil'no razobrat' dannuu stroku i vmesto etogo poymut ee kak zapret na indeksaciu resursov bob#comment. Moral' takova, 4to kommentarii doljni bit' na otdel'noy stroke.

Probel v na4ale stroki razre6aetsa, no ne rekomenduetsa.

Disallow: bob #comment

PrimeriSleduu6aa direktiva razre6aet vsem robotam indeksirovat' vse resursi sayta, tak kak ispol'zuetsa simvol podstanovki "*".

User-agent: *
Disallow:

Eta direktiva zapre6aet vsem robotam eto delat':

User-agent: *
Disallow: /

Dannaa direktiva zapre6aet vsem robotam zaxodit' v katalogi "cgi-bin" i "images":

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Dannaa direktiva zapre6aet robotu Roverdog indeksirovat' vse fayli servera:

User-agent: Roverdog
Disallow: /

Dannaa direktiva zapre6aet robotu googlebot indeksirovat' fayl cheese.htm:

User-agent: googlebot
Disallow: cheese.htm

Esli vas interesuut bolee slojnie primeri, poputaytes' vitanut' fayl robots.txt s kakogo-nibud' krupnogo sayta, naprimer CNN ili Looksmart.

Dopolnenia k standartam
Nesmotra na to, 4to bili predlojenia po ras6ireniu standarta i vvedeniu direktivi Allow ili u4eta versii robota, eti predlojenia formal'no tak i ne bili utverjdeni.

Poxod v poiskax robots.txt
Pri proverke na6ego validatora robots.txt (sm. konec stat'i), nam ponadobilos' nayti mnogo-mnogo "korma" dla nego. Mi sozdali spayder, kotoriy ska4ival s kajdogo naydennogo sayta li6' odin fayl robots.txt. Mi pro6lis' po vsem ssilkam i domenam, zanesennim v Open Directory Project. Tak mi pro6lis' po 2.4 millionam URL i nakopali faylov robots.txt primerno na 75 kilobayt.

Vo vrema etogo poxoda mi obnarujili ogromnoe koli4estvo problem s faylami robots.txt. Mi uvideli, 4to 5% robots.txt ploxoy stil', a 2% falov bili nastol'ko ploxo napisani, 4to ni odin robot ne smog bi ix ponat'. Vot spisok nekotorix problem, obnarujennix nami:

Perevernutiy sintaksis

Odna iz samix rasprostranennix o6ibok - perevernutiy sintaksis:

User-agent: *
Disallow: scooter

A doljno bit' tak:

User-agent: scooter
Disallow: *

Neskol'ko direktiv Disallow v odnoy stroke:

Mnogie ukazivali neskol'ko direktiv na odnoy stroke:

Disallow: /css/ /cgi-bin/ /images/

Razli4nie pauki poymut etu direktivu po raznomu. Nekotorie proignoriruut probeli i poymut direktivu kak zapret na indeksaciu kataloga /css//cgi-bin//images/. Libo oni voz'mut tol'ko odin katalog (/images/ ili /css/) i proignoriruut vse ostal'noe.

Pravil'niy sintaksis takov:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Perevod stroki v formate DOS:

E6e odna rasprostranennaa o6ibka - redaktirovanie fayla robots.txt v formate DOS. Nesmotra na to, 4to iz-za rasprostranennosti dannoy o6ibki mnogie pauki-ideksatori nau4ilis' ponimat' ee, mi s4itaem eto o6ibkoy. Vsegda redaktiruyte svoy robots.txt v rejime UNIX i zaka4ivayte fayl na sayt v rejime ASCII. Mnogie FTP-klienti umeut pri zaka4ke v tekstovom rejime perevodit' simvoli stroki iz DOS-formata v UNIX-format. No nekotorie etogo ne delaut.

Kommentarii v konce stroki:

Soglasno standartu, eto verno:

Disallow: /cgi-bin/ #this bans robots from our cgi-bin

No v nedavnem pro6lom bili roboti, kotorie zaglativali vsu stroku v ka4estve direktivi. Sey4as nam takie roboti neizvestni, no opravdan li risk? Razme6ayte kommentarii na otdel'noy stroke.

Probeli v na4ale stroki:

Disallow: /cgi-bin/

Standart ni4ego ne govorit po povodu probelov, no eto s4itaetsa ploxim stilem. I opat'-taki, stoit li riskovat'?

Redirekt na druguu stranicu pri o6ibke 404:

Ves'ma rasprostraneno, kogda veb-server pri o6ibke 404 (Fayl ne nayden) vidaet klientu osobuu stranicu. Pri etom veb-server ne vidaet klientu kod o6ibki i daje ne delaet redirekta. V etom slu4ae robot ne ponimaet, 4to fayl robots.txt otsutstvuet, vmesto etogo on polu4it html-stranicu s kakim-to soob6eniem. Kone4no nikakix problem zdes' vozniknut' ne doljno, no stoit li riskovat'? Bog znaet, kak razberet robot etot html-fayl, prinav ego za robots.txt. 4tobi etogo ne proisxodilo, pomestite xota bi pustoy robots.txt v kornevoy katalog va6ego veb-servera.

Konflikti direktiv:

4tobi vi sdelali na meste robota slurp, uvidev dannie direktivi?

User-agent: *
Disallow: /
#
User-agent: slurp
Disallow:

Pervaa direktiva zapre6aet vsem robotam indeksirovat' sayt, no vtoraa direktiva razre6aet robotu slurp eto delat'. Tak 4to je vse-taki doljen delat' slurp? Mi ne mojem garantirovat', 4to vse roboti poymut eti direktivi pravil'no. V dannom primere slurp doljen proindeksirovat' ves' sayt, a vse ostal'nie ne doljni uyti pramo s poroga.

Verxniy registr vsex bukv - ploxoy stil':

USER-AGENT: EXCITE
DISALLOW:

Nesmotra na to, 4to standart bezrazli4no otnositsa k registru bukv v robots.txt, v imenax katalogov i faylov registr vse-taki vajen. Lu46e vsego sledovat' primeram i v verxnem registre pisat' pervie bukvi tol'ko v slovax User i Disallow.

Spisok vsex faylov

E6e odna o6ibka - pere4islenie vsex faylov v kataloge:

Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Vi6eprivedenniy primer mojno zamenit' na:

Disallow: /AL
Disallow: /Az

Pomnite, 4to na4al'naa naklonnaa 4erta obozna4aet, 4to re4' idet o kataloge. Kone4no, ni4to ne zapre6aet vam pere4islit' paro4ku faylov, no mi re4' vedem o stile. Danniy primer vzat iz fayla robots.txt, razmer kotorogo previ6al 400 kilobayt, v nem bilo upomanuto 4000 faylov! Interesno, skol'ko robotov-paukov, posmotrev na etot fayl, re6ili bol'6e ne prixodit' na etot sayt.

Est' tol'ko direktiva Disallow!

Net takoy direktivi Allow, est' tol'ko Disallow. Etot primer neverniy:

User-agent: Spot
Disallow: /john/
allow: /jane/

Pravil'no budet tak:

User-agent: Spot
Disallow: /john/
Disallow:

Net otkrivau6ey naklonnoy 4erti:

4to doljen sdelat' robot-pauk s dannoy direktivoy:

User-agent: Spot
Disallow: john

Soglasno standartam eta direktiva zapre6aet indeksirovat' fayl "john" i katalog john". No lu46e vsego, dla vernosti, ispol'zovat' naklonnuu 4ertu, 4tobi robot mog otli4it' fayl ot kataloga.

E6e mi videli, kak ludi zapisivali v fayl robots.txt klu4evie slova dla svoego sayta (podumat' tol'ko - dla 4ego?).

Bivali takie fayli robots.txt, kotorie bili sdelani v vide html-dokumentov. Pomnite, vo FrontPage delat' robots.txt ne stoit.

Nepravil'no nastroenniy server

Po4emu vdrug na zapros robots.txt veb-server vidaet binarniy fayl? Eto proisxodit v tom slu4ae, esli va6 veb-server nastroen nepravil'no, libo vi nepravil'no zaka4ali na server sam fayl.

Vsegda posle togo, kak vi zaka4ali fayl robots.txt na server, proverayte ego. Dostato4no v brouzere nabrat' prostoy zapros:

http://www.mydomain.com/robots.txt

Vot i vse 4to nujno dla proverki.

Osobennosti Google:

Google - perviy poiskoviy server, kotoriy podderjivaet v direktivax regularnie virajenia. 4to pozvolaet zapre6at' indeksaciu faylov po ix ras6ireniam.

User-agent: googlebot
Disallow: *.cgi

V pole user-agent vam sleduet ispol'zovat' ima "googlebot". Ne riskuyte davat' podobnuu direktivu drugim robotam-paukam.


META-teg robots
META teg robots slujit dla togo, 4tobi razre6at' ili zapre6at' robotam, prixoda6im na sayt, indeksirovat' dannuu stranicu. Krome togo, etot teg prednazna4en dla togo, 4tobi predlagat' robotam proytis' po vsem stranicam sayta i proindeksirovat' ix. Sey4as etot teg priobretaet vse bol'6ee zna4enie.

Krome togo, etim tegom mogut vospol'zovat'sa te, kto ne mojet dostupit'sa k kornevomu katalogu servera i izmenit' fayl robots.txt.

Nekotorie poiskovie servera, takie kak Inktomi naprimer, polnost'u ponimaut meta-teg robots. Inktomi proydet po vsem stranicam sayta esli zna4enie dannogo tega budet "index,follow".

Format meta-tega Robots

Meta teg robots pome6aetsa v teg html-dokumenta. Format dostato4no prost (registr bukv zna4enia ne igraet):





...



Zna4enia meta-tega robots

Dannomu meta-tegu mojno prisvoit' varianta 4etire zna4eniy. Atribut content mojet soderjat' sleduu6ie zna4enia:

index, noindex, follow, nofollow

Esli zna4eniy neskol'ko, oni razdelautsa zapatimi.

V nastoa6ee vrema li6' sleduu6ie zna4enia vajni:

Direktiva INDEX govorit robotu, 4to dannuu stranicu mojno indeksirovat'.

Direktiva FOLLOW soob6aet robotu, 4to emu razre6aetsa proytis' po ssilkam, prisutstvuu6im na dannoy stranice. Nekotorie avtori utverjdaut, 4to pri otsutstvii dannix zna4eniy, poiskovie servera po umol4aniu deystvuut tak, kak esli bi im dani bili direktivi INDEX i FOLLOW. K sojaleniu eto ne tak po otno6eniu k poiskovomu serveru Inktomi. Dla Inktomi zna4enia po umol4aniu ravni "index, nofollow".

Itak, global'nie direktivi vigladat tak:

Indeksirovat' vs = INDEX, FOLLOW

Ne indeksirovat' ni4ego = NOINDEX,NOFLLOW

Primeri meta-tega robots:


Vidi robotov Andeksa


  • Yandex/1.01.001 (compatible; Win16; I) osnovnoy indeksiruu6iy robot
  • Yandex/1.01.001 (compatible; Win16; P) indeksator kartinok
  • Yandex/1.01.001 (compatible; Win16; H) robot, opredelau6iy zerkala saytov
  • Yandex/1.02.000 (compatible; Win16; F) robot, indeksiruu6iy piktogrammi saytov (favicons)
  • Yandex/1.03.003 (compatible; Win16; D) robot, obra6au6iysa kstranice pridobavlenii ee4erez formu Dobavit' URL
  • Yandex/1.03.000 (compatible; Win16; M) robot, obra6au6iysa priotkritii stranici possilke Naydennie slova
  • YaDirectBot/1.0 (compatible; Win16; I) robot, indeksiruu6iy stranici saytov, u4astvuu6ix vReklamnoy seti Andeksa
  • YandexBlog/0.99.101 (compatible; DOS3.30,B) robot, indeksiruu6iy xml-fayli dlapoiska poblogam.
  • YandexSomething/1.0 robot, indeksiruu6iy novostnie potoki partnerov Andeks-Novostey.
  • Bond, James Bond (version 0.07) robot, zaxoda6iy nasayti izpodseti Andeksa. Oficial'no nikogda neupominalsa. Xodit viboro4no postranicam. Referer neperedaet. Kartinki nezagrujaet. Suda popovadkam, robot zanimaetsa proverkoy saytov nanaru6enia kloaking ipr.

IP-adresa robotov Andeksa

IP-adresov, skotorix xodit robot Andeksa, mnogo, ioni mogut menat'sa. Spisok adresov nerazgla6aetsa.


Krome robotov uAndeksa est' neskol'ko agentov-prostukivalok, kotorie opredelaut, dostupen liv danniy moment sayt ilidokument, nakotoriy stoit ssilka vsootvetstvuu6em servise.


  • Yandex/2.01.000 (compatible; Win16; Dyatel; C) prostukivalka Andeks.Kataloga. Esli sayt nedostupen vte4enie neskol'kix dney, onsnimaetsa spublikacii. Kaktol'ko sayt na4inaet otve4at', onavtomati4eski poavlaetsa vKataloge.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) prostukivalka Andeks.Zakladok. Ssilki nanedostupnie sayti pome4autsa serim cvetom.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; D) prostukivalka Andeks.Direkta. Onaproveraet korrektnost' ssilok izob&avleniy pered moderaciey. Nikakix avtomati4eskix deystviy nepredprinimaetsa.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; N) prostukivalka Andeks.Novostey. Onaformiruet ot4et dlakontent-menedjera, kotoriy ocenivaet mas6tab problem i, prineobxodimosti, svazivaetsa spartnerom.

Direktiva Host

Voizbejania vozniknovenia problem szerkalom/ami sayta rekomenduetsa ispol'zovat' direktivu Host. Direktiva Host ukazivaet robotu Andeksa naglavnoe zerkalo dannogo sayta. Sdirektivoy Disallow nikak nesvazana.


User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

libo

User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru

vzavisimosti ottogo 4todla vasoptimal'nee.
Votcitata iz4aVo Andeksa:
Moy sayt pokazivaetsa vrezul'tatax poiska nepod temimenem. Kaketo ispravit'?

Skoree vsego, va6sayt imeet neskol'ko zerkal, irobot vibral kakosnovnoe neto zerkalo, kotoroe xo4etsa vam. Est' neskol'ko re6eniy:


  • udalite zerkala va6ego sayta;
  • navsex zerkalax, krome togo, kotoroe vixotite vibrat' osnovnim, razmestite fayl robots.txt, polnost'u zapre6au6iy indeksaciu sayta, libo vilojite nazerkalax robots.txt sdirektivoy Host;
  • razmestite naglavnix stranicax neosnovnix zerkal teg<meta name="robots" content="noindex, nofollow">, zapre6au6iy ixindeksaciu iobxod possilkam;
  • izmenite kodglavnix stranic naneosnovnix zerkalax tak, 4tobi vse(ili po4ti vse) ssilki snix vglub' sayta bili absolutnimi iveli naosnovnoe zerkalo.

Vslu4ae realizacii odnogo izvi6epere4islennix sovetov va6e osnovnoe zerkalo budet avtomati4eski izmeneno pomere obxoda robota.

Interesnaa informacia obobrabotke direktivi Host izotvetov A. Sadovskogo navoprosi optimizatorov:


Vopros: Kogda planiruetsa svoevremennoe sobludenie direktivi Host: vrobots.txt? Esli sayt indeksiruetsa kakwww.site.ru, kogda ukazano Host: site.ru ujeposle togo, kakrobots.txt bilrazme6en 12 nedeli, topri etom sayt swww ibez wwwneskleivaetsa bolee 12 mesaca iv Andekse su6estvuut odnovremenno 2 kopii 4asti4no peresekau6ixsa saytov (odin 550 stranic, drugoy 150 stranic, prietom 50 stranic odinakovix). Prokommentiruyte, pojaluysta, problemi srabotoy zerkal'6ika.
Otvet: Ras6irenie standarta robots.txt, vvedennoe Andeksom, direktiva Host etonekomanda s4itat' zerkalami dvalubix sayta, etoukazanie, kakoy sayt izgruppi, opredelennix avtomati4eski kakzerkala, s4itat' glavnim. Sledovatel'no, kogda sayti budut identificirovani kakzerkala, direktiva Host srabotaet.

HTML-teg <noindex>

Robot Andeksa podderjivaet tegnoindex, kotoriy zapre6aet robotu Andeksa indeksirovat' zadannie (slujebnie) u4astki teksta. Vna4ale slujebnogo fragmenta stavitsa <noindex>, av konce </noindex>, iAndeks nebudet indeksirovat' danniy u4astok teksta.


Obazatel'no sobludayte vlojennost' html-tegov.
Nevernaa konstrukcia:

<p><noindex>text</p></noindex>

Pravil'no tak:
<noindex><p>text</p></noindex>

Libo tak:
<p><noindex>text</noindex></p>

3
  ,
:
. +7(812) 984 5721

e-mail
icq 415547094  romver  mail.ru  romverinbox.ru
1997 - 2019 romver.ru

Display Pagerank