Полнотекстовое исследование

Полнотекстовой поиск (часто также полнотекстовой поиск ) является нахождением слов или групп слов в большом количестве одинаковых или различных файлы на компьютере, сервере и / или в Интернете. Области поиска - в основном тексты - предварительно индексируются с помощью соответствующих встроенных в программу или независимых инструментов индексации .

Полнотекстовые исследования в связи с полнотекстовым индексированием все чаще используются для получения информации и поиска ее из известных, а также из неизвестных (но доступных в СМИ) документов (см. Также Google ). Полнотекстовый поиск служит для поиска, обнаружения и извлечения неизвестной, нетривиальной и важной информации из больших объемов неструктурированных текстов / файлов и, следовательно, также является важной частью интеллектуального анализа текста . Это незамедлительное решение конкретного вопроса, когда недоступны такие системы, как управление документами и интеллектуальный анализ данных.

В контексте баз данных полнотекстовый поиск означает, что в дополнение к SQL- запросу, который используется иным образом , который требует знания структуры поля, поиск также может выполняться независимо от поля.

сказка

Полнотекстовый поиск появился в середине 1970- х годов . Используются традиционные системы, в которых используются ключевые слова человека в найденных позже текстовых или метафайлах (интеллектуальные системы порядка ). В базах данных некоторым полям был присвоен индекс, который можно было искать быстрее. При необходимости модель базы данных была соответствующим образом адаптирована. Однако эти процедуры по большей части больше не выполнялись для многих областей, поскольку такая дорогостоящая и трудоемкая работа плохо работает для больших баз данных. Среди прочего, поисковая машина Yahoo потерпела неудачу с таким подходом в середине 1990- х годов . Однако в середине 1970-х годов были введены новые типы поиска в дополнение к классическому поиску слов, такие как поиск по фразе или поиск по шаблонам, а также процедуры ранжирования , чтобы удовлетворить растущие требования.

Другая возможность открылась с реляционными базами данных с введением таких типов полей, как Type = MemoMicrosoft Access ), Type = BLOB ( MySQL ) или varchar (с другими базами данных SQL), которые могут записывать более длинные тексты. Здесь индексирование таблиц в базе данных, которое часто происходит в любом случае, может использоваться вместе с поиском заполнителя для соответствующих SQL- запросов, если соответствующие документы хранятся в таких полях базы данных.

Проблема заключалась в том, что запросы SQL требовали знания соответствующего синтаксиса, доступного лишь нескольким специалистам. Поэтому были разработаны поисковые системы, которые с соответствующими инструкциями подходили для более широкой группы пользователей.

С техническим прогрессом в информационных технологиях и увеличением скорости обработки стало возможным применять полнотекстовый поиск к большему количеству файлов большего размера. Кроме того, весь исходный текст был подготовлен для последующего быстрого поиска таким образом, чтобы можно было найти каждый документ, который содержит хотя бы одно слово поискового запроса. Для этого используется полнотекстовая индексация , например, как инвертированный файл . Однако это означает, что не найдены те документы, которые соответствуют комплексу тем, которые вы ищете, а другими словами, например Б. Используйте синонимы . В настоящее время эта проблема решается с помощью онтологий .

Типы поиска

В зависимости от используемой системы могут быть а. следующие варианты поиска:

  • Поиск определенного слова с учетом регистра или без
  • Поиск по фразе, например "С Википедией можно"
  • Логические операторы : «и / или / нет»
  • Поиск в среде: слова или фразы, состоящие из n слов (с индексом PDF менее 3 страниц)
  • Поиск по заполнителю:
    • для отдельных букв "?" как Ma? er = Mayer / Maier / Mauer ...
    • на любое количество букв "*"
    • в таблицах базы данных с SQL "ВЫБЕРИТЕ текст ИЗ таблицы WHERE text LIKE '% search term%'"
  • Нечеткий или отказоустойчивый поиск Нечеткий поиск
  • Тезаурус / поиск синонимов
  • Поиск на естественном языке с сортировкой по релевантности: «Найти все ИТ-статьи в Википедии»
  • Сочетание с вышеперечисленными вариантами
  • Макропоиск : возможность выполнять повторяющиеся поисковые запросы с предопределенными макросами

Смотри тоже