www.romver.ru
/ Полный список статей / Парсинг Google – теория и практика

Как заказать сайт


АБРАКАДАБРА (Тоже самое но в читаемом виде)

Belousov Andrey, optimizatorNi dla kogo iz vas ne sekret, 4to dla prodvijenia saytov nujni ssilki i jelatel'no mnogo i besplatno. Gde je ix vzat'? Su6estvuet sayti, kotorie polu4autkontentblagodarapol'zovatelam. Naprimer, katalogi saytov, statey i kompaniy. Bazoy nazivaetsa sobranie adresov takix saytov.
Vne zavisimosti ot togo, kakuu bazu vi sobiraete, mojno nayti sayti po sootvetstvuu6im zaprosam vpoiskovix sistemax. Etot process nazivaetsa parsingom vida4i. Obi4no parsitsa Google i na eto est' tri pri4ini:
1. Xoro6ee ka4estvo poiska
2. Visokaa skorost' otveta
3. Nali4ie operatora inurl:
Etot operator imeet sleduu6iy vid inurl:«soderjanieurliskomix stranic ». S pomo6'u etogo operatora mojno iskat' konkretnie dvijki saytov. V Andekse net analogov etomu operatoru.

Naprimer, 4tobi nayti bol'6uu 4ast' katalogov Made-Cat nujno v poiskovoy stroke Google vvesti zapros: inurl:"ext/rules" ili inurl:"add/1".

Pravda, s ispol'zovaniem etogo operatora nujno znat' neskol'ko momentov. Pervoe- dla Google bol'6instvo specsimvolov - to je samoe, 4to i probel. Eto ploxo potomu, 4to nekotorie dvijki budut parsit'sa s ogromnim koli4estvom musora. Naprimer, v vida4e po zaprosu inurl:«xxx/yyy» mojno vstretit' kak stranici, soderja6ie «xxx?yyy», tak i stranici, soderja6ie «xxx.yyy».
Vtoroe- dla mnogix zaprosovpoiskovikpri ispol'zovanii etogo operatora pokazivaet ne vsu vida4u kak raz dla togo, 4tobi ograni4it' dorvey6ikov.
Inogda a zapros s operatorom inurl zamenau zaprosom v vide -intext:"XXX" -intitle:"XXX" "XXX". Drugimi slovami, mi govorim Google iskat' XXX, no ne v tekste i ne v zagolovke, a krome etogo est' tol'ko URL. Pravda, takaa zamena ne ravnozna4na: esli iskomiy XXX est' v zagolovke ili v tekste i odnovremenno v URL, to takaa stranica pokazana ne budet.

Pri parsinge est' obi4no dve zada4i:
1. Naparsit' kak mojno bol'6e URL.
2. Zaxvativ pri etom kak mojno men'6e musora - stranic, kotorie nam ne nujni.

Dla re6enia pervoy zada4i ispol'zuetsa sleduu6im metod. Naprimer, po zaprosu «XXX» vidaetsa tol'ko 1000 saytov, a vInterneteix, skajem, polmilliona. 4tobi uveli4it' vida4u, dobavim v k osnovnomu zaprosu(am) «bespoleznie» uto4nenia:
«XXX» firma
«XXX» kompania
«XXX» nayti
«XXX» sayt
«XXX» stranica
«XXX» glavnaa
V ka4estve uto4nenia berem ob6eupotrebitel'nie slova, kotorie mogut vstretit'sa na lubomsayte. Xota bolee polezno sayti razdelat' na neperesekau6iesa kategorii: tol'ko angliyskiy, tol'ko russkiy, tol'ko ukrainskiy. Libo dobavlat' poisk po zone domena inurl:«.com», inurl:«.net»… Voz'mem, naprimer, zapros «katalog». Stranic v internete s takim slovom 209 000 000, no nam vidaetsa ne bol'6e 1000. Ispol'zua 6est' zaprosov
1. Katalog inurl:«.com»
2. Katalog inurl:«.net»
3. Katalog inurl:«.biz»
4. Katalog inurl:«.ru»
5. Katalog inurl:«.info»
6. Katalog inurl:«.org»
Mi polu4im ne 1000, a 6000 katalogov. Primeniv naxod4ivost', mojno polu4it' neskol'ko desatkov tisa4 URL. No bol'6instvo budet musorom.

Poroy problemi s musorom ves'ma su6estvennie, potomu prixoditsa pered parsingom ka4estvo vida4i po kajdomu zaprosu proverat' vru4nuu, 4tobi avtomat ne zaxvatil mnogo nenujnix saytov, a vi potom ne mu4ilis', proveraa ix. Pomogaet naxojdenie «poleznix» uto4neniy.
Naprimer, pri zaprose inurl:"add/1" mojno nabludat' mnogo musora, etomu nujno dobavit' uto4nenie inurl:"add/1" "URL va6ego sayta". Mojno poyti dal'6e i otfil'trovat' «serie» katalogi «inurl:"add/1" "URL va6ego sayta" -"URL gde stoit ssilka"»

Vru4nuu sobirat' rezul'tati parsinga dolgo, sku4no i neproduktivno. Poetomu su6estvuut sootvetstvuu6ie programmi - parseri, kotorie zapominaut vida4u po zaprosam i soxranaut ix. Bol'6instvo parserov, libo platnie sami po sebe, libo vxodat v komplekt drugix platnix prilojeniy.

Ispol'zovanie besplatnogo desktopnogo parsera

Nayti programmu mojno po etomu adresu

Programma ne trebuet ustanovki i poetomu pol'zovat'sa ey mojno srazu posle zaka4ki. Rabotaet programma tol'ko s Google i obladaet spartanskiminterfeysom, no, kak govoritsa, «darenomu konu v zubi ne smotrat».

Desktopniy parser



1. Pole vvoda zaprosov. Suda nujno vvesti spisok zaprosov k Google, naprimer, inurl:«xxx» (obratite vnimanie na to, 4to operator i zapros pi6utsa bez probela).
2. Pole vvoda-vivoda URL zaprosov k Google. V etom pole budet poavlat'sa, kakie URL Google parsatsa pri vipolnenii zaprosov. Pri jelanii mojno samomu suda vvesti spisok urls Google, kotorie nujno otparsit'. K primeru: «http://www.google.com.ua/search?hl=ru&q=XXX&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&meta=»
3. Pole vivoda rezul'ta – URL saytov, kotorie na6lis'.
4. Procent vipolnenenia zada4i
5. Fil'tr na parsing tol'ko russkoazi4nix saytov
6. Zaderjka v tisa4nix dolax sekundi. Ot 0 do 60 000. Zaderjka nujna, 4tobi gugl ne ponal, 4to ego parsit programma i ne zablokiroval vam dostup kresursam.
7. Knopka «Poexali» zapuskaet parsing.
8. Pokazivaet stranicu, kotoraa parsit'sa v danniy moment. Pol'zi osoboy net, skoree dla razvle4enia.

Dopolnitel'no nad polem vvoda zaprosov (1) est' knopka «preobrazovat'», kotoraa preobrazuet zaprosi inurl:«XXX» v -intext:"XXX" -intitle:"XXX" "XXX"

Kak pol'zovat'sa programmoy? Vvesti v levoe pole vvoda(1) spisok zaprosov, podojdat' i kopirovat' iz pravogo pola vvoda(3) rezul'tat. Potom ot4istit' dubli domenov, naprimer, s pomo6'uhttp://bajron.od.ua/?p=67. Reuzl'tati xranatsa v formate spiska URL naydennix saytov.
Programma izbavlaet ot bol'6ey 4asti rutinnoy raboti i parsit namnogo bistree 4eloveka. Vzato s seonews.ru

3
Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(98I) 7608865

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2024 romver.ru

Полная карта сайта Display Pagerank