Поисковый робот
Веб - обходчик (также паук , searchbot или робот ) представляет собой компьютерную программу , которая автоматически выполняет поиск в World Wide Web и анализа веб - сайтов . Сканеры в основном используются поисковыми системами для индексации веб-сайтов. Другое использование - это сбор веб-новостей , адресов электронной почты или другой информации.
Веб-сканеры - это особый тип ботов , то есть компьютерные программы, которые в основном автоматически выполняют повторяющиеся задачи.
история
Первым поисковым роботом в Интернете был World Wide Web Wanderer в 1993 году , который был разработан для измерения роста Интернета. В 1994 году WebCrawler запустил первую общедоступную поисковую систему в Интернете с полнотекстовым индексом. Отсюда и название поискового робота для таких программ. Поскольку количество поисковых систем быстро росло, теперь существует большое количество различных веб-сканеров. По оценке 2002 г., они генерировали до 40% всего трафика данных в Интернете.
технология
Как и в случае с Интернет- серфингом, поисковый робот может получить доступ к другим URL-адресам с веб-сайта через гиперссылки . Все найденные адреса сохраняются и посещаются один за другим. Вновь найденные гиперссылки добавляются в список всех URL-адресов. Таким образом, теоретически могут быть найдены все связанные страницы в WWW, которые не заблокированы для поисковых роботов. Однако на практике часто делается выбор, в какой-то момент процесс заканчивается и начинается заново. В зависимости от задачи поискового робота, содержимое найденных веб-страниц оценивается и сохраняется, например, посредством индексации , чтобы обеспечить возможность последующего поиска в данных, собранных таким образом.
Исключение поисковых роботов
С помощью Стандарта исключения роботов оператор веб-сайта может использовать файл robots.txt и определенные метатеги в заголовке HTML, чтобы сообщить поисковому роботу, какие страницы индексировать, а какие нет, при условии, что он соблюдает протокол. Для борьбы с нежелательными поисковыми роботами существуют также специальные веб-сайты, так называемые tar pits , которые предоставляют поисковым роботам неверную информацию, а также значительно замедляют их работу.
Проблемы
Большая часть всего Интернета не регистрируется поисковыми роботами и, следовательно, общедоступными поисковыми системами, поскольку большая часть контента недоступна через простые ссылки, а только через маски поиска и порталы с ограниченным доступом , например . Эти области также называют « глубокой паутиной ». Кроме того, постоянные изменения в сети и манипуляции с контентом ( маскировка ) создают проблему.
разновидность
Веб-сканеры, ориентированные на тематику, называются специализированными поисковыми роботами или специализированными поисковыми роботами . Направленность веб-поиска реализуется, с одной стороны, путем классификации самого веб-сайта и классификации отдельных гиперссылок. Таким образом, специализированный поисковый робот находит лучший путь в сети и индексирует только соответствующие области сети (для темы или домена). Основными препятствиями в практической реализации таких поисковых роботов являются несвязанные подобласти и обучение классификаторов.
Веб-сканеры также используются для интеллектуального анализа данных и для исследования Интернета ( вебометрия ), и их необязательно ограничивать только WWW.
Особой формой веб-краулера являются почтовые комбайны («комбайн» от «уборочная машина»). Этот термин используется для программного обеспечения, которое ищет в Интернете (WWW, Usenet и т. Д.) Адреса электронной почты и «собирает» их. Электронные адреса собираются и затем могут быть проданы. Результат i. d. Обычно, но особенно со спам-ботами , рекламными электронными письмами ( спамом ). По этой причине ранее распространенная практика предоставления адресов электронной почты на веб-сайтах в качестве способа связи через mailto: - ссылка все чаще и чаще удаляется; иногда делается попытка сделать адреса нечитаемыми для ботов, вставляя пробелы или слова. Таким образом, a@example.com становится (at) example (dot) com . Однако большинство ботов могут распознавать такие адреса. Еще один популярный метод - вставить адрес электронной почты в изображение. Таким образом, адрес электронной почты недоступен в виде строки символов в исходном тексте веб-сайта и, следовательно, не может быть найден как текстовая информация для бота. Однако для пользователя это имеет тот недостаток, что он не может передать адрес электронной почты в свою программу электронной почты для отправки, просто щелкнув по ней, а должен скопировать адрес. Однако гораздо более серьезным является то, что сайт больше не доступен, и люди с ослабленным зрением исключаются, а также боты.
Еще одна цель поисковых роботов - найти в Интернете контент, защищенный авторским правом.
Смотри тоже
Индивидуальные доказательства
- ^ X. Юань, М. Х. МакГрегор, Дж. Хармс: эффективная схема удаления трафика поисковых роботов из Интернета. Компьютерные коммуникации и сети, 2002. Труды. Одиннадцатая Международная конференция по коммуникациям и сетям
- ↑ Сотирис Батсакис, Еврипид ГМ Петракис, Евангелос Милиос: Повышение производительности специализированных веб-сканеров. 9 апреля 2012 г. (англ.)
веб ссылки
- Страницы веб-роботов (английский)
- Веб-сканирование - Развитие Интернета , Ронни Харбич, 2008.