Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)






Статические архивы. Задачи. Компоненты статического электронного архива. Основные технологические принципы построения электронного архива



Задачи СА:

1) Организация хранения произвольного количества электронных документов на разнообразных носителях.

При выборе носителя учитывают: стоимость хранения 1 Мб информации, скорость доступа к информации, характер хранения информации (долгосрочный или краткосрочный).

Для оперативного доступа применяются высоко скоростные диски, а для архивного хранения достаточно роботизированных библиотек дисков. При наличии разнородных документов может быть необходимо создание системы хранения, состоящей из разнотипных носителей. Для таких систем необходимо решать задачи не только совместной работы носителей информации, но и обеспечивать миграцию документов между носителями. Эта миграция может осуществляться путем настройки системы администратором, либо автоматически в зависимости от частоты обращения пользователя к документу. Программное обеспечение, которое занимается автоматической миграцией документов, называется Hierarchical Storage Management (HSM).

2)Организация учета бумажных и микрографических документов.

Система должна хранить только электронную карточку на неэлектронный документ и поддерживать контроль стандартных архивных операций (выдача, возврат …).

3) Организация поиска документа.

Существует 2 подхода к поиску документов:

1. в процессе поиска ищется документ, который точно присутствует в системе;

2. ищутся все документы по интересующему вопросу при этом рассматривается полнота и шум поиска.

Существует 2 основных типа поиска:

• атрибутивный. Каждому документу присваивается набор определенных атрибутов, поиск производится по их значению.

• полнотекстовый поиск производится по содержимому документа.

Существует комбинация полнотекстового и атрибутивного поиска, когда атрибуты документа обрабатываются также как все содержимое документа.

При полнотекстовом поиске электронный документ любого формата необходимо предварительно преобразовать в плоский текст, следовательно, любая такая система должна содержать в своей структуре конверторы формата. Включение в результаты обработки запроса документов в которых содержатся все формы слов запроса, называется нормализацией. Эффективность поиска зависит от применяемого алгоритма нормализации. Для русского языка наиболее эффективен словарный метод при котором используются словари слово-формул. Альтернативой является эвристический метод нормализации при котором слово нормализуется путем выполнения определенных правил, описывающих алгоритмику нормализации.



Недостатки атрибутивного поиска:

- Эффективность только при отсутствии ошибок как в документах, так и в запросах.

- Субъективность формирования набора ключевых слов.

- Высокая стоимость ручного определения ключевых слов.

- Нестационарность критерия отнесения слов к ключевым.

4)Поддержка аудита работы и защиты документов от несанкционированного доступа.

Архивная система должна иметь защиту на уровне документа, то есть каждый документ должен иметь ассоциируемый с ним список пользователей, имеющих на него определенные права.

5)Поддержка просмотра документов без загрузки ресурсоемких порождающих приложений.

6)Поддержка аннотирования документов (поддержка комментариев к документу без изменения его содержания).

Иногда для обеспечения коллективной работы с документом необходимо позволять наносить комментарии на документ, не изменяя его основного содержания. Комментарии (знаки, текст, цветные пометки) хранятся в слоях, которые могут быть привязаны к имени автора, создавшего эти комментарии.

Примеры реализации СА: Water Mark, Paper Wise, Image Wise

Компоненты статического электронного архива

1) Основные аппаратные средства:

• потоковые сканеры,

• высокопроизводительные масштабируемые серверы с параллельной обработкой запросов,

• высокопроизводительная сеть,

• дисковые RAID-массивы,

• автоматические и автоматизированные библиотеки компакт дисков или магнитооптических дисков,

• средства записи на компакт диски или магнитооптические диски,

• средства резервного копирование на магнитную ленту,

• рабочие места, ориентированные на обработку графической информации,

• рабочие места разработчиков приложений,

• система обеспечения бесперебойного питания,

• средства печати (принтеры),



• средства глобальных коммуникаций (модемы).

2)Системные программные средства:

• операционная сетевая среда (ОС) (Unix - сервер, Windows NT - клиент),

• промышленные СУБД,

• средства отображения и обработки данных.

3)Специальные программные средства:

• средства распознавания русскоязычных текстов,

• средства разработки и оптимизации запросов,

• средства полнотекстового индексирования и поиска информации,

• средства анализа информации.

Основные технологические принципы построения электронного архива

1. Архивы на базе промышленных СУБД.

Промышленные СУБД включают средства полнотекстовой индексации на базе инвертируемой матрицы. Размер индекса может быть от 30 до 350% объема БД документа. Обычно размер индекса зависит от степени нормализации индексируемых слов в тексте.

Достоинства:

- Наличие множества средств, необходимых для качественной организации архивирования и документооборота

- Опробированность и перспективы многолетнего использования.

- Простота интеграции с другими ИС.

Недостатки:

- отсутствие ориентации промышленных СУБД на обработку неструктурированной информации, что усложняет полнотекстовую обработку документов.

2. Архивы на базе специальных пакетов полнотекстовой индексации (Full Text Retrieval)

Такие системы используют бинарную индексацию и реализуют нечеткий поиск.

Достоинства:

- Поиск с ошибками, т.е. допускают ошибки при распознавании, сканировании и при вводе поискового образца;

- высокая скорость доступа;

- низкий объем индекса (не более 30% от объема текста);

-поддержка ряда разновидностей неструктурированных данных (например, мультимедиа).

Недостатки:

- проблема шума (получение нерелевантных документов);

- указанные системы рассчитаны на мощные параллельные вычислительные структуры и пока не очень распространены на платформе Intel;

- исключается ориентация на задачи индексирования и поиска, ограничение функций управления документами.

Наиболее ярким представителем этого направления являются продукты компании Excalibur Technologies, использующие технологию распознавания образов (Adaptive Pattern Recognition Processing), основанную на теории нейросетей.

Excalibur EFS - коробочный продукт, предназначенный для создания систем полнотекстового поиска. Excalibur Retrieval Wore - включает два программных компонента: текстовый сервер и сервер изображений, который предназначен для анализа изображений, которые предназначены для анализа изображений и сигналов, т.е. семантически не наполненных данных. Текстовый сервер кроме бинарного поиска осуществляет семантический анализ, позволяя создавать и использовать семантическую сеть языка.

 


 


Эта страница нарушает авторские права

allrefrs.ru - 2019 год. Все права принадлежат их авторам!