Поисковый робот

Выдержка из результатов веб-сканирования из статьи о Hof

Веб - обходчик (также паук , searchbot или робот ) представляет собой компьютерную программу , которая автоматически выполняет поиск в World Wide Web и анализа веб - сайтов . Сканеры в основном используются поисковыми системами для индексации веб-сайтов. Другое использование - это сбор веб-новостей , адресов электронной почты или другой информации.

Веб-сканеры - это особый тип ботов , то есть компьютерные программы, которые в основном автоматически выполняют повторяющиеся задачи.

история

Первым поисковым роботом в Интернете был World Wide Web Wanderer в 1993 году , который был разработан для измерения роста Интернета. В 1994 году WebCrawler запустил первую общедоступную поисковую систему в Интернете с полнотекстовым индексом. Отсюда и название поискового робота для таких программ. Поскольку количество поисковых систем быстро росло, теперь существует большое количество различных веб-сканеров. По оценке 2002 г., они генерировали до 40% всего трафика данных в Интернете.

технология

Структура поисковых роботов

Как и в случае с Интернет- серфингом, поисковый робот может получить доступ к другим URL-адресам с веб-сайта через гиперссылки . Все найденные адреса сохраняются и посещаются один за другим. Вновь найденные гиперссылки добавляются в список всех URL-адресов. Таким образом, теоретически могут быть найдены все связанные страницы в WWW, которые не заблокированы для поисковых роботов. Однако на практике часто делается выбор, в какой-то момент процесс заканчивается и начинается заново. В зависимости от задачи поискового робота, содержимое найденных веб-страниц оценивается и сохраняется, например, посредством индексации , чтобы обеспечить возможность последующего поиска в данных, собранных таким образом.

Исключение поисковых роботов

С помощью Стандарта исключения роботов оператор веб-сайта может использовать файл robots.txt и определенные метатеги в заголовке HTML, чтобы сообщить поисковому роботу, какие страницы индексировать, а какие нет, при условии, что он соблюдает протокол. Для борьбы с нежелательными поисковыми роботами существуют также специальные веб-сайты, так называемые tar pits , которые предоставляют поисковым роботам неверную информацию, а также значительно замедляют их работу.

Проблемы

Большая часть всего Интернета не регистрируется поисковыми роботами и, следовательно, общедоступными поисковыми системами, поскольку большая часть контента недоступна через простые ссылки, а только через маски поиска и порталы с ограниченным доступом , например . Эти области также называют « глубокой паутиной ». Кроме того, постоянные изменения в сети и манипуляции с контентом ( маскировка ) создают проблему.

разновидность

Веб-сканеры, ориентированные на тематику, называются специализированными поисковыми роботами или специализированными поисковыми роботами . Направленность веб-поиска реализуется, с одной стороны, путем классификации самого веб-сайта и классификации отдельных гиперссылок. Таким образом, специализированный поисковый робот находит лучший путь в сети и индексирует только соответствующие области сети (для темы или домена). Основными препятствиями в практической реализации таких поисковых роботов являются несвязанные подобласти и обучение классификаторов.

Веб-сканеры также используются для интеллектуального анализа данных и для исследования Интернета ( вебометрия ), и их необязательно ограничивать только WWW.

Особой формой веб-краулера являются почтовые комбайны («комбайн» от «уборочная машина»). Этот термин используется для программного обеспечения, которое ищет в Интернете (WWW, Usenet и т. Д.) Адреса электронной почты и «собирает» их. Электронные адреса собираются и затем могут быть проданы. Результат i. d. Обычно, но особенно со спам-ботами , рекламными электронными письмами ( спамом ). По этой причине ранее распространенная практика предоставления адресов электронной почты на веб-сайтах в качестве способа связи через mailto: - ссылка все чаще и чаще удаляется; иногда делается попытка сделать адреса нечитаемыми для ботов, вставляя пробелы или слова. Таким образом, a@example.com становится (at) example (dot) com . Однако большинство ботов могут распознавать такие адреса. Еще один популярный метод - вставить адрес электронной почты в изображение. Таким образом, адрес электронной почты недоступен в виде строки символов в исходном тексте веб-сайта и, следовательно, не может быть найден как текстовая информация для бота. Однако для пользователя это имеет тот недостаток, что он не может передать адрес электронной почты в свою программу электронной почты для отправки, просто щелкнув по ней, а должен скопировать адрес. Однако гораздо более серьезным является то, что сайт больше не доступен, и люди с ослабленным зрением исключаются, а также боты.

Еще одна цель поисковых роботов - найти в Интернете контент, защищенный авторским правом.

Смотри тоже

Индивидуальные доказательства

^ X. Юань, М. Х. МакГрегор, Дж. Хармс: эффективная схема удаления трафика поисковых роботов из Интернета. Компьютерные коммуникации и сети, 2002. Труды. Одиннадцатая Международная конференция по коммуникациям и сетям
↑ Сотирис Батсакис, Еврипид ГМ Петракис, Евангелос Милиос: Повышение производительности специализированных веб-сканеров. 9 апреля 2012 г. (англ.)

веб ссылки

Страницы веб-роботов (английский)
Веб-сканирование - Развитие Интернета , Ронни Харбич, 2008.

[1] X. Юань, М. Х. МакГрегор, Дж. Хармс: эффективная схема удаления трафика поисковых роботов из Интернета. Компьютерные коммуникации и сети, 2002. Труды. Одиннадцатая Международная конференция по коммуникациям и сетям

[2] Сотирис Батсакис, Еврипид ГМ Петракис, Евангелос Милиос: Повышение производительности специализированных веб-сканеров. 9 апреля 2012 г. (англ.)

Languages