Одним из интересных направлений веб-разработок в последнее время стали разнообразные грабберы и парсеры. Цель их использования проста - получение информации с других сайтов.
Что такое граббер и что такое парсер
В терминалогии веб-разработок граббер - это специализированный скрипт, который позволяет "выкачивать" информацию с чужих сайтов на свой. В отличии от грабберов, парсер способен распознать информацию в груде "мусора" и обработать ее в соотвествии с поставленной задачей. Сегодня оба понятия используются как синонимы.
Зачем нужны грабберы и парсеры1. Для поддержания актуальности информации. К примеру, пользователям Вашего сайта очень важно знать текущий курс валют. Изменять курс в ручную обычно не удобно, так как требует ежедневного внимания к веб-ресурсу. А что делать если информация меняется слишком быстро и не равномерно. Если для Вас важно, чтоб на сайте всегда находилась самая актуальная информация и при этом чтобы Вам не приходилось самому постоянно ее обновлять, то наилучшим решением будет использовать скрипт граббера или php парсер. 2. Для автоматического обновления страниц. Сайт, информация на котором редко обновляется обычно редко посещается. Пользователю уже побывавшему на Вашем сайте становится просто не интересно. Такие сайты называют "мертвыми". Но что делать если Вам не хватает времени обновлять информацию на сайте? Использовать автоматическое добавление новостей, новых статей по тематике сайта и прочей информации с других ресурсов схожей тематики с помощью специализированных скриптов - парсера новостей или граббера контента сайтов. 3. Моментальное наполнение сайта полезной информацией. Все ресурсы сети когда то начинались "с нуля". Однако если Ваш ресурс направлен на предоставление информации (каталог ссылок, архив рефератов, база текстов или аккордов песен), то заполнять сайт с нуля в ручную - процесс долгий и трудоемкий. Интересен пользователям Ваш сайт станет только тогда, когда размер информационной базы на Вашем сайте перевалит за определенное количество. Парсеры и грабберы (например граббер ссылок) - отличное решения задач подобного рода. Их использование позволит Вам быстро догнать конкурентов и значительно расширить свой каталог информации. 4. Интегрирование (объединение, централизация) информации. В сети Интернет огромное количество страниц с важной для пользователя информацией, главным недостатком которой является ее разрозненность. Используя скрипты грабберов контента сайтов, можно объединить всю полезную информацию, разместив ее на одной странице. Согласитесь, очень удобно, когда вся информация с разных сайтов объединена в один. К примеру новости: пользователь с большим энтузиазмом зайдет на сайт, где сможет в одном месте прочитать все новости со всех новостных сайтов, чем станет открывать каждый из них. При подобном использовании грабберов и парсингов авторы подобных сайтов обычно и не скрывают первоисточник информации. Их цель - удобство пользователя, а значит и большая посещаемость собственного ресурса.
Уроки грабберства В основе любого граббера или парсера лежит регулярное выражение. Регулярное выражение - это строка шаблона (специализированные метасимволы и метапоследовательности) предназначенная для поиска, выборки и замены текста, совпадающего с шаблоном. Исскуство грабберства состоит в умении правильно построить шаблон выбора текста. Так же регулярные выражения являются незаменимым инструментом чистки информации, получаемой от пользователя (так называемая "защита от дурака"). Учитывая, что регулярное выражение это язык описание текста, правильно построенный шаблон должен совпадать там где это нужно и не совпадать не с чем другим. В php поддерживаются два вида регулярных выражений: POSIX и PERL - совместимые. Пример использования регулярного выражения: выбрать адреса почты из груды текста: /([a-zA-Z][a-zA-Z0-9_.-]*@[a-zA-Z0-9_.-]+)s+/si Используя этот шаблон, легко отделить адреса электронной почты от другого текста.
Средняя стоимость разработки грабера или парсера ровна 25$* *средняя стоимость за 1 сайт, цена зависит от сложности структуры сайта. elle.uz/grub/
|