www.romver.ru
/ Ïîëíûé ñïèñîê ñòàòåé / Dmoz

Êàê çàêàçàòü ñàéò


ÀÁÐÀÊÀÄÀÁÐÀ (Òîæå ñàìîå íî â ÷èòàåìîì âèäå)

Endru Vuster (programmniy injener Apple) provel issledovanie faylov robots.txt na saytax iz kataloga Dmoz. V xode svoego issledovania HTTP zagolovkov on razrabotal sobstvennogo «pauka» i sobral bol'6uu bazu domenov. Skormiv svoemu pauku etu bazu resursov iz Dmoz, Endru Vuster polu4il MySQL bazu, v kotoroy soxranalis' soderjanie robots.txt, HTTP zagolovki i polniy otvet servera. Ob&em bazi sostavil 12 Gb. Posle polu4asovoy raboti analizatora bili polu4eni interesnie dannie i statistika o soderjanii robots.txt na bolee 4em 4.6 millionax domenov.

Status kodi

HTTP kodi statusa (vozvra6aemie serverom zna4enia) govorat veb-brauzeram i robotam poiskovix sistem, kakogo roda otvet oni polu4aut pri zagruzke stranici. Naprimer, kod “200″ zna4it, 4to vse normal'no, a “404″ (file not found) - 4to veb-server ne smog nayti fayl po zadannomu adresu. IETF specifikacia robots.txt govorit o tom, 4to 404 kod vozvrata (po-drugomu - kod o6ibki) po adresu robots.txt zna4it otsutstvie ograni4eniy dla zagruzki sayta robotami, a kodi 2XX govorat o tom, 4to robotu sleduet rukovodstvovat'sa pravilami, propisannimi v robots.txt.

Status kodi interesni, v pervuu o4ered', tem, 4to s ix pomo6'u mojno bistro pods4itat' koli4estvo saytov, imeu6ix fayl robots.txt. Issledovav 4.6 milliona saytov, mojno po status kodam opredelit', u skol'kix saytov est' robots.txt i u skol'kix ego net:

Klass 4islo saytov V % ot vsex
5xx 4,338 0.09
4xx 3,035,454 65.86
3xx 350,946 7.61
2xx 1,217,559 26.42
1xx 12 0.00
invalid 21 0.00

Kak mi mojem videt', bolee 65% saytov vozvra6aut kod 4XX, govora6iy o tom, 4to na sayte net fayla robots.txt. E6e 7.6% saytov perenapravlaut na drugoy URL (smotrite, naprimer, redirekt 301) - obi4no na glavnuu stranicu ili stranicu o6ibok (t. n. 404 stranicu). Eto zna4it, 4to tol'ko 26% vladel'cev saytov porabotali nad tem, 4tobi obespe4it' svoi sayti pravil'nim faylom robots.txt. Kone4no, nekotorie sayti mogut vozvra6at' kod 200 daje dla stranici o6ibok, poetomu takoy pods4et mojet bit' ispol'zovan dla bistroy ocenki.

MIME tipi

MIME tipi (tipi soderjania) vozvra6autsa veb-serverami v HTTP zagolovkax, 4tobi soob6it' klientam, kakoy peredaetsa dokument. Oni sostoat iz tipov (text, image i tak dalee), podtipov (html ili jpeg) i nekotorix neobazatel'nix parametrov, takix kak kodirovka dokumenta. Naprimer, HTML fayl obi4no imeet MIME tip “text/html”, a tekstoviy fayl - “text/plain”. Izobrajenia mogut imet' MIME tipi “image/gif” ili “image/jpeg”. Spisok vsex zaregistrirovannix MIME tipov mojno posmotret' na IANA.

Edinstvenniy MIME tip, kotoriy doljen vozvra6at' fayl robots.txt - eto tekst. Po pravde govora, specifikacia special'no ne upominaet eto pravilo, no sayti tipa Google sleduut ob6emu pravilu, 4to “esli eto ne text/*, to eto ne prostoy tekst”. 109 780 iz issledovannix faylov robots.txt imeli MIME tip, otli4niy ot text/plain. Poetomu neudivitel'no, 4to krupney6ie poiskovie sistemi, takie kak Google, Yahoo! i MSN, starautsa 4itat' fayl robots.txt nezavisimo ot vozvra6aemogo tipa. Naprimer, robots.txt na servere Digga imeet tip “text/html; charset=UTF-8″. I poiskovie roboti sleduut pravilam etogo fayla.

Krome text/html i text/plain, bili sredi issledovannix faylov i drugie MIME tipi, naprimer, application/octet-stream, application/x-httpd-php, text/x-perl (v osnovnom stranici o6ibok), video/x-ms-asf, application/x-httpd-cgi, image/gif i image/jpeg.

Daje sredi faylov, obozna4ennix kak tekst, bilo mnojestvo variantov MIME tipov, 4asto s o6ibkami v napisanii. Privedu spisok naibolee 4asto vstre4aemix.:
plain/text
text
text/R*ch
text/css
text/enriched
text/vnd.wap.wml
text/x-invalid
text/x-perl
text/x-server-parsed-html
text/xml
txt

Robots.txt - tekstoviy fayl?

E6e odna o6ibka, pomimo ispol'zovania nepravil'nogo content-type - eto zagruzka robots.txt v netekstovom formate. Popularnie o6ibki - eto zagruzka robots.txt v formate Word dokumenta (primeri: 1, 2, 3), RTF (primeri: 1, 2, 3) i HTML. Bili naydeni daje fayli robotsa v formatax LaTex i KOffice (unix-based tekstoviy format).

Nekotorie servernie programmi (t. n. Cougar, 4to-to vrode Microsoft Small Business Server ili IIS) na zapros fayla robots.txt daje vidaut potokovoe video v formate ASF (primeri: 1, 2). Ujas.

Nepravil'naa kodirovka

Kodirovka simvolov opredelaet, kakie znaki sootvetstvuut opredelennim naboram bit. Sayti opredelaut kodirovku, ustanavlivaa ee v peremennoy content-type v zagolovke. Robots.txt na nekotorix saytax bil napisan v redko ispol'zuemix kodirovkax tipa UTF-16. UTF-16 redko ispol'zuetsa po mnogim pri4inam, xota bi iz-za neodnozna4nosti opredelenia poslednix bit kodirovki simvola. Iz 463 faylov v formate UTF-16 primerno 10% bili ne4itabel'ni, xota i soderjali UTF16 BOM.

S drugoy storoni, nekotorie servera voob6e opredelaut svoi mnojestva simvolov i nazivaut kodirovku po-svoemu, naprimer, “nf_z_62-010″, “ibm-939″ i “fi_fi.iso-8859-15@euro”.

Kommentarii

V robots.txt mojno ispol'zovat' tol'ko odin vid kommentariev - kommentariem s4itaetsa stroka posle znaka “#”. Pri etom sredi issledovannix saytov bili naydeni HTML kommentarii “< !- - >“, kommentarii v stile C++ “//” i mnogie drugie, vklu4aa prosto vstavlennie v tekst stroki kommentariev.

Sover6enno neponatnie o6ibki

Nekotorie ludi, navernoe, voob6e ne imeut predstavlenia o tom, 4to doljno soderjat'sa v fayle robots.txt. Naprimer, odna iz rasprostranennix o6ibok - fayli robots.txt, v kotorie skopirovano soderjanie stranici bazi dannix robotov. Re4' idet ne o neskol'kix saytax. Takoy robots.txt nayden primerno na kajd 1000 saytov. Eto prosto sumas6estvie. Eto 4ast' e6e bolee rasprostranennoy ob6ey o6ibki, kogda v robots.txt kopiruut kakie-to instrukcii po ego nastroyke. Vot para primerov: 1, 2, 3, 4, 5. Est' sover6enno “levie” fayli. V robots.txt pi6ut religioznie teksti i opisania kakix-to cerkvey. Ili katalog MIDI trekov. Spisok videoigr. Neskol'ko faylov .htaccess - inogda vstavlaut kod vmeste s konstrukciami robotsa, inogda ispol'zuut sintaksis .htaccess dla opisania User-Agent.

Spiski klu4evix slov i opisaniy sayta, vklu4aa prosto pereme6annie klu4evie slova. PHP i Bash skripti, i vse 4to ugodno.

Daje izobrajenia. Ne govora o e-mail i soob6eniax gostevix knig.

Est' daje odno opisanie plavatel'nogo basseyna (po-nemecki).

I, kone4no, mnojestvo 4itabel'nix dla ludey instrukciy po soderjaniu robots.txt, kotorie robot ponat' ne smojet.

info.txt

Po-vidimomu, est' e6e odin protokol, podobniy robots.txt, dla reklami i razme6enia kontaktnoy informacii o vladel'ce sayta. Eta informacia ispol'zuetsa Alexa dla opredelenia vladel'ca sayta. Mnogo takix zapisey bilo naydeno v faylax robots.txt.

Regularnie virajenia

V specifikacii robots.txt ne opisani regularnie virajenia, no mnogie poiskovie sistemi sey4as podderjivaut takie vozmojnosti.

Naprimer, Google, Yahoo! i MSN Search ponimaut * kak sootvetstvie luboy stroke simvolov, a znak dollara $ kak znak okon4ania URL. Poetomu dla blokirovki paukov pri popitke zagruzit' jpeg fayli mojno ispol'zovat' sleduu6uu konstrukciu:

User-agent: *
Disallow: /*.jpg$

Blokirovka dostupa k otdel'nim formatam faylov - samoe rasprostranennoe primenenie dla regularnix virajeniy. I bol'6instvo ludey 4asto ispol'zuut regularnie virajenia kogda oni sovsem ne nujni. Naprimer, mnogie sayti propisivaut takoe pravilo:

Disallow: /secret/*

Ispol'zovat' nestandartnoe virajenie zdes' bespolezno, potomu 4to takoe pravilo ekvivalentno bolee prostomu:

Disallow: /secret/

Obi4no na saytax, soderja6ix podobie pervogo pravila s * ne propisivaut vtoroy variant. Pauk, kotoriy ne podderjivaet nedokumentirovannie vozmojnosti, budet indeksirovat' zapre6ennuu papku, potomu 4to ne poymet va6ix instrukciy.

Obi4nie sintaksi4eskie o6ibki

Kakie e6e est' o6ibki, krome pere4islennix vi6e? Specifikacia govorit o tom, 4to zapisi doljni razdelat'sa pustimi strokami, i bol'6instvo o6ibok vra6autsa vokrug etogo.

Vo-pervix, mnogie ostavlaut pustuu stroku mejdu strokoy User-agent i pravilami dla etogo robota - eto 74 043 iz proanalizirovannix faylov.

Vo-vtorix, 4asto pi6ut pravilo Disallow/Allow, ne upominaa pered nimi agenta, ili v odnoy stroke s agentom - eta o6ibka dopu6ena v 64 921 faylax.

V-tret'ix, 4asto pi6ut stroku s agentom posle pravila Disallow/Allow, ne razdelaa ix pustoy strokoy - e6e 32 656 faylov.

Stroki sovsem nenujnogo teksta (ne kommentarii, ne pravila ili agenti) vstretilis' v 22 269 faylax.

Eto, kstati, ne pokazatel', ved' za o6ibo4niy tekst moglo bit' prinato i nedavno vvedennoe Google pravilo sitemap, kotorogo avtor eksperimenta ne u4el.

Zaderjka skanirovania

«Pauki» takje inogda obra6aut vnimanie na direktivi upravlenia, naprimer, Crawl-delay (zaderjka skanirovania, 4tobi robot ne polojil server). MSN, Yahoo! i Ask podderjivaut etu direktivu, ee zapisivaut tak:

User-agent: *
Crawl-delay: 5

Eto zna4it, pauku sleduet jdat' 5 sekund mejdu zagruzkami. Bili naydeni desatki tisa4 takix zapisey.

Ope4atki

Bilo naydeno o4en' mnogo faylov s ope4atkami. Ope4atok komandi Disallow nabralos' celix 69 vidov! Eto ne s4itaa ope4atok, kogda odni bukvi v seredine slova zamenaut drugimi.

O6ibki v dvijkax saytov

4asto o6ibki robots zakladivautsa pri razrabotke dvijkov saytov (naprimer, advancedaccess). Na mnogix saytax fayl robots.txt soderjit tol'ko stroku:

this file placed here so you don't fill up my error log looking for it
(V fayl, razme6enniy zdes', vi ne mojete ni4ego dopolnit' iz-za o6ibki loga)


Primeri: 1, 2, 3, 4.

Podobnix primerov mnogo. Skoree vsego, takie stroki nujni dla statistiki ispol'zovania dvijka. Eto kak metateg generator=Wordpress na dvijkax Wordpress - dla sbora statistiki. No sozdanie zavedomo nevalidnogo robots.txt, po-moemu, ne o4en' krasivo po otno6eniu k pol'zovatelam.

Vivodi

Kakie vivodi mi mojem sdelat' isxoda iz etix dannix? Glavniy vivod, a dumau, sostoit v tom, 4to protokol isklu4enia robotov (Robots Exclusion Protocol) namnogo bolee slojniy, 4em kajetsa. Na meste «pauka» dla togo, 4tobi pravil'no «pro4itat'» mnojestvo sover6enno raznix i sumas6ed6ix robots.txt po vsemu internetu, vam nujno napisat' isklu4itel'no gibkiy parser (sledua Robustness Principle), v bol'6instve slu4aev ignorirovat' tip soderjania (content-type), umet' raspoznavat' mnojestvo kodirovok (i v bol'6instve slu4aev prosto ignorirovat' vozvra6aemuu serverom kodirovku), raspoznavat' HTML i drugie vidi kontenta v faylax robots.txt i potencial'no podderjivat' mnojestvo ras6ireniy k prinatomu standartu.

A 4to nas4et viskazannogo vi6e utverjdenia, 4to pauki doljni spra6ivat' razre6enia na indeksaciu u vebmastera? Nedavniy proigranniy isk pravitel'stva Bel'gii protiv Google e6e raz podtverdil vernost' pozicii poiskovix sistem:

“Iz-za ogromnogo razmera interneta dla poiskovoy sistemi nevozmojno personal'no sprosit' kajdogo vebmastera, mojno zagruzit' tu ili inuu stranicu ili nel'za. Esli bi takoe razre6enie bilo obazatel'nim, to internet bi razvalilsa”,, – Endru MakLoflin, glava otdela Google po konfidencial'nosti.

Kak vidno iz razdela o status-kodax, esli bi eto proizo6lo, to po4ti 4etvert' domenov stali bi “4ernimi a6ikami” dla poiskovix sistem. Togda eti sayti prosto ne su6estvovali bi dla bol'6instva pol'zovateley. Takoy rezul'tat ne ustroil bi nikogo - ni vebmasterov, ni poiskovie sistemi.

Esli govorit' ne tak ser'ezno, to vsegda interesno uznat', naskol'ko je internet vse-taki «zagraznen». I naskol'ko raznoe napolnenie dla svoix saytov pridumivaut ix vladel'ci.

s seonews.ru/article/.publication/449/

3
Ñîçäàíèå ýêñêëþçèâíûõ ñàéòîâ, þçèáèëèòè àíàëèç è áåñïëàòíûé àíàëèç ïîä çàïðîñû îñíîâíûõ ïîèñêîâûõ ìàøèí
Êîíòàêòíàÿ èíôîðìàöèÿ :
òåë. +7(98I) 7608865

Íàïèñàòü ïèñüìî íà e-mail
icq 415547094  romverðåéòèíã íà mail.ru ñàéòà romverinbox.ru
© 1997 - 2024 romver.ru

Ïîëíàÿ êàðòà ñàéòà Display Pagerank