Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)






Локальные поисковые механизмы



Когда локальная поисковая система составляет индексный файл, она должна уметь получать информацию о содержимом документов самых разных форматов, причем стандартных для Internet-поиска HTML, PDF и DOC уже недостаточно. Кроме них на локальных дисках часто хранятся документы «1С», архивы почтовых сообщений, мультимедийные библиотеки и т.п., и если локальная поисковая машина не в состоянии проанализировать содержимое всех нужных пользователю типов файлов, ее эффективность становится спорной. В данном случае для индексирования мультимедийной информации практически невозможно применять методы Internet-поиска, поскольку файловая система содержит не развернутое описание сохраненного файла, а только дату его создания, размер и тип. Локальным поисковым машинам приходится честно разбирать форматы графических и текстовых файлов в надежде найти текстовые описания мультимедийной информации. Собственно, чем больше форматов файлов «понимает» локальная поисковая система, тем она ценнее для пользователя (хотя о распознавании содержимого мультимедийных файлов пока речь не идет).

Еще одним отличием локального от Internet-поиска является требование полноты, то есть учета всех соответствующих запросу документов, хранящихся на локальных дисках компьютера или на проиндексированных внешних носителях (компакт-диски, DVD, флэш-память). Поскольку World Wide Web — не полностью связанная система, для поисковых Internet-машин задача полноты не актуальна. А вот при локальном поиске это требование существенно, ведь для пользователя может быть принципиально важным наличие или отсутствие искомого документа. В локальном поиске можно гарантировать полноту, поскольку все данные хранятся в файловой системе, которая полностью прозрачна для поисковой машины и не имеет недоступных документальных кластеров, что возможно в Web. Тем не менее локальной поисковой машине было бы неплохо иметь доступ к разделам «чужих» операционных систем, например для Windows — к разделам Linux и других Unix-подобных операционных систем, установленных на локальном компьютере.

Еще одной проблемой полноты является поиск в коллекциях внешних носителей. Технологии индексации позволяют производить поиск даже по отчуждаемым дискам, но возникает проблема размера индекса, который должен всегда быть доступен для считывания, то есть храниться на локальном диске компьютера. Тем не менее, например, система «Архивариус 3000» предлагает возможность индексирования съемных носителей и сетевых ресурсов.



Локальные поисковые механизмы должны взаимодействовать либо интегрироваться в локальные приложения, такие как почтовые системы, клиенты систем мгновенного обмена сообщениями и т.д. (в частности, для того, чтобы при обнаружении нужного документа запустить соответствующее приложение и передать ему найденный файл). Например, в систему DVYGUN Smart Search встроен специальный механизм предварительного просмотра найденных документов с выделением ключевых слов запроса, но было бы только логично, если бы сама система локального поиска имела модули для прозрачной интеграции с разными приложениями. Если бы к локальному поиску можно было просто обращаться из меню таких приложений, пользоваться им было бы удобнее, чем в тех случаях, когда нужно открывать дополнительное приложение и выполнять поиск в нем.

У локальной поисковой машины есть возможности, которые сложно реализовать в Internet-варианте. Например, в Сети практически невозможно реализовать поиск с учетом синонимов, поскольку в объемах Web он будет давать много шума и потребует дополнительных вычислительных ресурсов, что существенно для Internet-проектов. В локальном поиске с более скромными архивами данных вполне возможно учитывать синонимы (в частности, это предлагает поисковая машина SearchInform). Кроме того, в Internet-поисковиках традиционно реализован поиск по отдельным ключевым словам, а не по целой фразе: при индексировании Internet поисковик «не помнит» последовательность слов в документе, которая важна в фразе. Локальный поиск позволяет выполнять более сложный анализ текста перед генерацией индекса, поэтому некоторые производители предлагают поиск в том числе по фразам, что увеличивает его точность. Знание последовательности слов обеспечивает поиск похожих документов, при котором учитываются не только сходство словарного распределения, но и последовательность слов в документе. Обе эти возможности также реализованы в поисковой машине SearchInform.



Локальная поисковая система при составлении индекса может учитывать и тип документа, который используется для составления индекса. Так, в формате MP3 есть специальные поля, в которых принято записывать автора композиции, стиль и другие характеристики. Локальный поисковик может применять эти дополнительные сведения для более точного поиска.

Еще одна особенность локального поиска заключается в том, что владельцы сайтов часто пытаются использовать специфические приемы для обмана поисковой машины, пытаясь поднять повыше результаты своего детища, и разработчикам поисковых машин для Internet приходится принимать соответствующие контрмеры. В частности, авторы поисковых машин обычно держат в секрете пропорции, в которых учитываются характеристики документа. Локальный же поиск, как правило, имеет дело с более логичной, чем Internet, структурой данных, и помех для него — несколько меньше, чем для Internet-поиска. Поэтому при проектировании локальных поисковых машин не требуется применять интеллектуальные приемы поиска, которые нужны Internet-поисковикам для защиты от Web-спама.

 


Эта страница нарушает авторские права

allrefrs.ru - 2018 год. Все права принадлежат их авторам!