|
АБРАКАДАБРА (Тоже самое но в читаемом виде)
Ni
dla kogo iz vas ne sekret, 4to dla prodvijenia saytov nujni ssilki i
jelatel'no mnogo i besplatno. Gde je ix vzat'? Su6estvuet sayti,
kotorie polu4autkontentblagodarapol'zovatelam. Naprimer, katalogi saytov, statey i kompaniy. Bazoy nazivaetsa sobranie adresov takix saytov. Vne zavisimosti ot togo, kakuu bazu vi sobiraete, mojno nayti sayti po sootvetstvuu6im zaprosam vpoiskovix sistemax. Etot process nazivaetsa parsingom vida4i. Obi4no parsitsa Google i na eto est' tri pri4ini: 1. Xoro6ee ka4estvo poiska 2. Visokaa skorost' otveta 3. Nali4ie operatora inurl: Etot operator imeet sleduu6iy vid inurl:«soderjanieurliskomix stranic ». S pomo6'u etogo operatora mojno iskat' konkretnie dvijki saytov. V Andekse net analogov etomu operatoru.
Naprimer, 4tobi nayti bol'6uu 4ast' katalogov Made-Cat nujno v poiskovoy stroke Google vvesti zapros: inurl:"ext/rules" ili inurl:"add/1".
Pravda, s ispol'zovaniem etogo operatora nujno znat' neskol'ko momentov. Pervoe- dla Google bol'6instvo specsimvolov - to je samoe, 4to
i probel. Eto ploxo potomu, 4to nekotorie dvijki budut parsit'sa s
ogromnim koli4estvom musora. Naprimer, v vida4e po zaprosu
inurl:«xxx/yyy» mojno vstretit' kak stranici, soderja6ie «xxx?yyy», tak
i stranici, soderja6ie «xxx.yyy». Vtoroe- dla mnogix zaprosovpoiskovikpri ispol'zovanii etogo operatora pokazivaet ne vsu vida4u kak raz dla togo, 4tobi ograni4it' dorvey6ikov. Inogda a zapros s operatorom inurl zamenau zaprosom v vide
-intext:"XXX" -intitle:"XXX" "XXX". Drugimi slovami, mi govorim Google
iskat' XXX, no ne v tekste i ne v zagolovke, a krome etogo est' tol'ko
URL. Pravda, takaa zamena ne ravnozna4na: esli iskomiy XXX est' v
zagolovke ili v tekste i odnovremenno v URL, to takaa stranica pokazana
ne budet.
Pri parsinge est' obi4no dve zada4i: 1. Naparsit' kak mojno bol'6e URL. 2. Zaxvativ pri etom kak mojno men'6e musora - stranic, kotorie nam ne nujni.
Dla re6enia pervoy zada4i ispol'zuetsa sleduu6im metod. Naprimer, po zaprosu «XXX» vidaetsa tol'ko 1000 saytov, a vInterneteix, skajem, polmilliona. 4tobi uveli4it' vida4u, dobavim v k osnovnomu zaprosu(am) «bespoleznie» uto4nenia: «XXX» firma «XXX» kompania «XXX» nayti «XXX» sayt «XXX» stranica «XXX» glavnaa V ka4estve uto4nenia berem ob6eupotrebitel'nie slova, kotorie mogut vstretit'sa na lubomsayte.
Xota bolee polezno sayti razdelat' na neperesekau6iesa kategorii:
tol'ko angliyskiy, tol'ko russkiy, tol'ko ukrainskiy. Libo dobavlat'
poisk po zone domena inurl:«.com», inurl:«.net»… Voz'mem, naprimer,
zapros «katalog». Stranic v internete s takim slovom 209 000 000, no
nam vidaetsa ne bol'6e 1000. Ispol'zua 6est' zaprosov 1. Katalog inurl:«.com» 2. Katalog inurl:«.net» 3. Katalog inurl:«.biz» 4. Katalog inurl:«.ru» 5. Katalog inurl:«.info» 6. Katalog inurl:«.org» Mi polu4im ne 1000, a 6000 katalogov. Primeniv naxod4ivost', mojno
polu4it' neskol'ko desatkov tisa4 URL. No bol'6instvo budet musorom.
| Poroy
problemi s musorom ves'ma su6estvennie, potomu prixoditsa pered
parsingom ka4estvo vida4i po kajdomu zaprosu proverat' vru4nuu, 4tobi
avtomat ne zaxvatil mnogo nenujnix saytov, a vi potom ne mu4ilis',
proveraa ix. Pomogaet naxojdenie «poleznix» uto4neniy. Naprimer, pri zaprose inurl:"add/1" mojno nabludat' mnogo musora, etomu nujno dobavit' uto4nenie inurl:"add/1" "URL va6ego sayta". Mojno poyti dal'6e i otfil'trovat' «serie» katalogi «inurl:"add/1" "URL va6ego sayta" -"URL gde stoit ssilka"»
Vru4nuu sobirat' rezul'tati parsinga dolgo, sku4no i neproduktivno.
Poetomu su6estvuut sootvetstvuu6ie programmi - parseri, kotorie
zapominaut vida4u po zaprosam i soxranaut ix. Bol'6instvo parserov,
libo platnie sami po sebe, libo vxodat v komplekt drugix platnix
prilojeniy.
Ispol'zovanie besplatnogo desktopnogo parsera
Nayti programmu mojno po etomu adresu
Programma ne trebuet ustanovki i poetomu pol'zovat'sa ey mojno srazu posle zaka4ki.
Rabotaet programma tol'ko s Google i obladaet spartanskiminterfeysom, no, kak govoritsa, «darenomu konu v zubi ne smotrat».
| |
1.
Pole vvoda zaprosov. Suda nujno vvesti spisok zaprosov k Google,
naprimer, inurl:«xxx» (obratite vnimanie na to, 4to operator i zapros
pi6utsa bez probela). 2. Pole vvoda-vivoda URL zaprosov k Google. V etom pole budet
poavlat'sa, kakie URL Google parsatsa pri vipolnenii zaprosov. Pri
jelanii mojno samomu suda vvesti spisok urls Google, kotorie nujno
otparsit'. K primeru:
«http://www.google.com.ua/search?hl=ru&q=XXX&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&meta=» 3. Pole vivoda rezul'ta – URL saytov, kotorie na6lis'. 4. Procent vipolnenenia zada4i 5. Fil'tr na parsing tol'ko russkoazi4nix saytov 6. Zaderjka v tisa4nix dolax sekundi. Ot 0 do 60 000. Zaderjka nujna,
4tobi gugl ne ponal, 4to ego parsit programma i ne zablokiroval vam
dostup kresursam. 7. Knopka «Poexali» zapuskaet parsing. 8. Pokazivaet stranicu, kotoraa parsit'sa v danniy moment. Pol'zi osoboy net, skoree dla razvle4enia.
Dopolnitel'no nad polem vvoda zaprosov (1) est' knopka «preobrazovat'»,
kotoraa preobrazuet zaprosi inurl:«XXX» v -intext:"XXX" -intitle:"XXX"
"XXX"
Kak pol'zovat'sa programmoy? Vvesti v levoe pole vvoda(1) spisok
zaprosov, podojdat' i kopirovat' iz pravogo pola vvoda(3) rezul'tat.
Potom ot4istit' dubli domenov, naprimer, s pomo6'uhttp://bajron.od.ua/?p=67. Reuzl'tati xranatsa v formate spiska URL naydennix saytov. Programma izbavlaet ot bol'6ey 4asti rutinnoy raboti i parsit namnogo bistree 4eloveka. Vzato s seonews.ru
|
|
|