Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)






СППР на основе трёхуровневого хранилища данных



Рисунок 4. Трёхуровневое хранилище данных

Хранилище данных представляет собой единый централизованный источник корпоративной информации. Витрины данных представляют подмножества данных из хранилища, организованные для решения задач отдельных подразделений компании. Конечные пользователи имеют возможность доступа к детальным данным хранилища, в случае если данных в витрине недостаточно, а также для получения более полной картины состояния бизнеса.

Преимущества:

Создание и наполнение витрин данных упрощено, поскольку наполнение происходит из единого стандартизованного надежного источника очищенных нормализованных данных

Витрины данных синхронизированы и совместимы с корпоративным представлением. Имеется корпоративная модель данных. Существует возможность сравнительно лёгкого расширения хранилища и добавления новых витрин данных

Гарантированная производительность

Недостатки:

Существует избыточность данных, ведущая к росту требований на хранение данных

Требуется согласованность с принятой архитектурой многих областей с потенциально различными требованиями (например, скорость внедрения иногда конкурирует с требованиями следовать архитектурному подходу)

Мы рассмотрели основные варианты архитектур систем поддержки принятия решений. Выбор конкретного варианта зависит от условий, в которые поставлена проектная группа. Нужен ли быстрый возврат от инвестиций, или можно потратить больше времени и построить надежную инфраструктуру? Является ли проектная группа профессиональной или состоит из новичков? Существует ли формализованная методология или механизмы работы еще не отлажены? Ответы на эти и ряд других вопросов могут повлиять на ваш выбор.
Подробное описание преимуществ и недостатков каждого варианта архитектуры можно найти в литературе

3. Концепция Хранилищ Данных

Сегодня СОД (системы обработки данных), реализованные на самой различной основе, исправно работают и при этом исправно порождают и пополняют многочисленные многотомные электронные архивы. Основное назначение таких систем - оперативная обработка, и они не могут себе позволить роскошь хранить данные более чем за несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из операционной БД. А поскольку обычно в любой организации функционирует несколько различных, несвязанных или слабо связанных СОД, выгруженные из них данные, как правило, имеют различную структуру, формат, стандарты представления дат и денежных величин. Для обозначения одних и тех же объектов используются различные кодировки. Обычно в них в явном виде отсутствуют реквизиты, идентифицирующие временной срез, которому они соответствуют, и источники их получения.



В результате огромные архивные массивы, накопленные за годы эксплуатации СОД и содержащие самую разнообразную жизненно важную для организации информацию, остаются невостребованными. Без предварительной доработки и согласования, архивные данные бесполезны и не могут быть непосредственно использованы в задачах анализа.

Но данные, порожденные в результате функционирования корпоративных СОД, - это только часть информации, необходимой для принятия корректного бизнес-решения. Организация живет и функционирует в реальном мире. Включение в аналитическую систему данных из различных электронных статистических сборников (как общедоступных, так и коммерческих), прогнозов развития регионов и областей экономики, законодательной базы позволяет по-новому взглянуть на многие закономерности, выявленные в процессе анализа внутренних данных. И, как показывает практика, любое решение, принятое исключительно на основе внутренних данных, скорее всего, окажется не вполне корректным.

Автором концепции Хранилищ Данных (Data Warehouse) является Б. Инмон, который определил Хранилища Данных [1] как: "предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления", призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

В основе концепции Хранилищ Данных лежат две основополагающие идеи.

Интеграция ранее разъединенных детализированных данных в едином Хранилище Данных, их согласование и, возможно, агрегация:



исторических архивов;

данных из традиционных СОД;

данных из внешних источников.

Разделение наборов данных, используемых для операционной обработки, и наборов данных, применяемых для решения задач анализа.

Наиболее распространенной на сегодня ошибкой является попытка найти в концепции Хранилищ Данных некий законченный рецепт реализации информационной аналитической системы. Тем более, это не некий готовый программный продукт или некое готовое универсальное решение. В этом смысле интересна и показательна оценка Butler Group Co. [2] структуры затрат на реализацию систем Хранилищ Данных, по которой до 50% от стоимости системы составляет стоимость консалтинга и лишь оставшиеся 50% - это стоимость аппаратных, сетевых и программных компонентов. С этой оценкой можно спорить, но она весьма показательна.

Цель концепции Хранилищ Данных - прояснить отличия в характеристиках данных в операционных и аналитических системах (таблица 1), выяснить требования к данным, помещаемым в целевую БД Хранилища Данных (таблица 2), определить общие принципы и этапы ее построения, основные источники данных, дать рекомендации по решению потенциальных проблем, возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.

Характеристика Операционные Аналитические
Частота обновления Высокая частота, маленькими порциями Малая частота, большими порциями
Источники данных В основном, внутренние В основном, внешние
Объемы хранимых данных Сотни мегабайт, гигабайты Гигабайты и терабайты
Возраст данных Текущие (за период от нескольких месяцев до одного года) Текущие и исторические (за период в несколько лет, десятки лет)
Назначение Фиксация, оперативный поиск и преобразование данных Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование

Таблица 1.
Сравнение характеристик данных в информационных системах, ориентированных на операционную и аналитическую обработку данных.

Предметная ориентированность Все данные о некотором предмете (бизнес-объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес-анализе форме.
Интегрированность Все данные о разных бизнес-объектах взаимно согласованы и хранятся в едином общекорпоративном Хранилище.
Неизменчивость Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения.
Поддержка хронологии Данные хронологически структурированы и отражают историю, за достаточный для выполнения задач бизнес-анализа и прогнозирования период времени.

Таблица 2.
Основные требования к данным в Хранилище Данных.

Предметом концепции Хранилищ Данных служат сами данные. После того как традиционная СОД реализована и начинает функционировать, она становится ровно таким же самостоятельным объектом реального мира, как и любой производственный процесс. А данные, которые являются одним из конечных продуктов такого производства, обладают ровно теми же свойствами и характеристиками, что и любой промышленный продукт: сроком годности, местом складирования (хранения), совместимостью с данными из других производств (СОД), рыночной стоимостью, транспортабельностью, комплектностью, ремонтопригодностью и т. д.

Именно с этой точки зрения и рассматриваются данные в Хранилищах Данных. То есть целью здесь являются не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных информационных систем.

Для правильного понимания данной концепции необходимо уяснение следующих принципиальных моментов.

Концепция Хранилищ Данных - это не концепция анализа данных, скорее, это концепция подготовки данных для анализа.

Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.

Концепция Хранилищ Данных предполагает не просто единый логический взгляд на данные организации (как иногда это трактуется), а реализацию единого интегрированного источника данных.

Последний пункт достаточно принципиален, поэтому рассмотрим его более детально. Сегодня достаточно популярны решения, предполагающие интеграцию различных СОД на основе единого справочника метаданных (поддерживающего единый логический взгляд на данные организации), но не единого интегрированного источника данных. При этом по каждому новому запросу предполагается динамическая выгрузка данных из различных операционных источников (СОД), их динамическое согласование, агрегация и транспортировка к пользователю.

Очевидно, что для определенных классов приложений это решение вполне корректно. Но следует заранее понимать все накладываемые им ограничения.

Кроме единого справочника метаданных, средств выгрузки, агрегации и согласования данных, концепция Хранилищ Данных подразумевает: интегрированность, неизменчивость, поддержку хронологии и согласованность данных. И если два первых свойства (интегрированность и неизменчивость) влияют на режимы анализа данных (как будет показано ниже, без интегрированной базы данных, в которой используются специализированные методы хранения и доступа, по крайней мере, сегодня трудно говорить о реализации интерактивного динамического анализа), то последние два (поддержка хронологии и согласованность) существенно сужают список решаемых аналитических задач.

Без поддержки хронологии (наличия исторических данных) нельзя говорить о решении задач прогнозирования и анализа тенденций. Но наиболее критичными и болезненными оказываются вопросы, связанные с согласованием данных.

Основным требованием аналитика является даже не столько оперативность, сколько достоверность ответа. Но достоверность, в конечном счете, и определяется согласованностью. Пока не проведена работа по взаимному согласованию значений данных из различных источников, сложно говорить об их достоверности.

Практически в любой организации вопрос о согласованности данных в различных информационных системах стоит чрезвычайно остро. И, нередко, менеджер сталкивается с ситуацией, когда на один и тот же вопрос, различные системы могут дать и обычно дают различный ответ. Это может быть связано как с несинхронностью моментов модификации данных, отличиями в трактовке одних и тех же событий, понятий и данных, изменением семантики данных в процессе развития предметной области, элементарными ошибками при вводе и обработке, частичной утратой отдельных фрагментов архивов и т. д. Очевидно, что учесть и заранее определить алгоритмы разрешения всех возможных коллизий мало реально. Тем более, это нереально сделать в оперативном режиме, динамически, непосредственно в процессе формирования ответа на запрос.

4. Концепция хранилища данных

Стремление объединить в одной архитектуре СППР возможности OLTP-систем и систем анализа, требования к которым во многом, как следует из табл.12.1, противоречивы, привело к появлению концепциихранилищ дан­ных (ХД).

Концепция ХД так или иначе обсуждалась специалистами в области инфор­мационных систем достаточно давно. Первые статьи, посвященные именно ХД, появились в 1988 г., их авторами были Девлин и Мэрфи. В 1992 г. Уильман Г. Инмон подробно описал данную концепцию в своей монографии "По­строение хранилищ данных".

В основе концепции ХД лежит идея разделения данных, используемых для оперативной обработки и для решения задач анализа. Это позволяет приме­нять структуры данных, которые удовлетворяют требованиям их хранения с учетом использования в OLTP-системах и системах анализа. Такое разделе­ние позволяет оптимизировать как структуры данных оперативного хранения (оперативные БД, файлы, электронные таблицы и т. п.) для выполнения опе­раций ввода, модификации, удаления и поиска, так и структуры данных, ис­пользуемые для анализа (для выполнения аналитических запросов). В СППР эти два типа данных называются соответственно оперативными источника­ми данных (ОИД) и хранилищем данных.

. В своей работе Инмон дал следующее определение ХД.

[Внимание!: Хранилище данных— предметно-ориентированный, интегри­рованный, неизменчивый, поддерживающий хронологию набор данных, ор­ганизованный для целей поддержки принятия решений.

Рассмотрим свойства ХД более подробно.

Предметная ориентация— является фундаментальным отличием ХД от ОИД. Разные ОИД могут содержать данные, описывающие одну и ту же предметную область с разных точек зрения (например, с точки зрения бух­галтерского учета, складского учета, планового отдела и т. п.). Решение, при­нятое на основе только одной точки зрения, может быть неэффективным или даже неверным. ХД позволяют интегрировать информацию, отражающую разные точки зрения на одну предметную область.

Предметная ориентация позволяет также хранить в ХД только те данные, ко­торые нужны для их анализа (например, для анализа нет необходимости хра­нить информацию о номерах документов купли-продажи, в то время как их содержимое — количество, цена проданного товара — необходимо). Это су­щественно сокращает затраты на носители информации и повышает безопас­ность доступа к данным.

Интеграция— ОИД, как правило, разрабатываются в разное время несколь­кими коллективами с собственным инструментарием. Это приводит к тому, что данные, отражающие один и тот же объект реального мира в разных сис­темах, описывают его по-разному. Обязательная интеграция данных в ХД позволяет решить эту проблему, приведя данные к единому формату.

Поддержка хронологии— данные в ОИД необходимы для выполнения над ними операций в текущий момент времени. Поэтому они могут не иметь при­вязки ко времени. Для анализа данных часто важно иметь возможность от­слеживать хронологию изменений показателей предметной области. Поэтому все данные, хранящиеся в ХД, должны соответствовать последовательным интервалам времени.

Неизменяемость— требования к ОИД накладывают ограничения на время хранения в них данных. Те данные, которые не нужны для оперативной обра­ботки, как правило, удаляются из ОИД для уменьшения занимаемых ресур­сов. Для анализа, наоборот, требуются данные за максимально больший пе­риод времени. Поэтому, в отличие от ОИД, данные в ХД после загрузки только читаются. Это позволяет существенно повысить скорость доступа к данным как за счет возможной избыточности хранящейся информации, так и за счет исключения операций модификации. При реализации в СППР кон­цепции ХД данные из разных ОИД копируются в единое хранилище. Соб­ранные данные приводятся к единому формату, согласовываются и обобща­ются. Аналитические запросы адресуются к ХД (рис. 12.4).

Такая модель неизбежно приводит к дублированию информации в ОИД и в ХД. Однако Инмон в своей работе утверждает, что избыточность данных, хранящихся в СППР, не превышает 1 % ! Это можно объяснить следующими причинами.

При загрузке информации из ОИД в ХД данные фильтруются. Многие из них не попадают в ХД, поскольку лишены смысла с точки зрения использования в процедурах анализа.

Информация в ОИД носит, как правило, оперативный характер, и данные, потеряв актуальность, удаляются. В ХД, напротив, хранится историческая информация. С этой точки зрения дублирование содержимого ХД данными ОИД оказывается весьма незначительным.

В ХД хранится обобщенная информация, которая в ОИД отсутствует.

Во время загрузки в ХД данные очищаются (удаляется ненужная информа­ция) и приводятся к единому формату. После такой обработки данные зани­мают гораздо меньший объем.

Рис.12.4. Структура СППР с физическим ХД

Избыточность информации можно свести к нулю, используя виртуальное ХД. В данном случае в отличие от классического (физического) ХД данные из ОИД не копируются в единое хранилище. Они извлекаются, преобразуются и интегрируются непосредственно при выполнении аналитических запросов в оперативной памяти компьютера. Фактически такие запросы напрямую адре­суются к ОИД (рис. 12.5). Основными достоинствами виртуального ХД явля­ются:

минимизация объема памяти, занимаемой на носителе информацией;

работа с текущими, детализированными данными.

Рис. 12.5. Структура СППР с виртуальным ХД

Однако такой подход обладает многими недостатками.

Время обработки запросов к виртуальному ХД значительно превышает соот­ветствующие показатели для физического хранилища. Кроме того, структуры оперативных БД, рассчитанные на интенсивное обновление одиночных запи­сей, в высокой степени нормализованы. Для выполнения же аналитического запроса требуется объединение большого числа таблиц, что также приводит к снижению быстродействия.

Интегрированный взгляд на виртуальное хранилище возможен только при выполнении условия постоянной доступности всех ОИД. Таким образом, временная недоступность хотя бы одного из источников может привести ли­бо к невыполнению аналитических запросов, либо к неверным результатам.

Выполнение сложных аналитических запросов над ОИД занимает большой объем ресурсов компьютеров, на которых они работают. Это приводит к снижению быстродействия OLTP-систем, что недопустимо, т. к. время вы­полнения операций в таких системах часто весьма критично.

Различные ОИД могут поддерживать разные форматы и кодировки данных. Часто на один и тот же вопрос может быть получено несколько вариантов ответа. Это может быть связано с несинхронностью моментов обновления данных в разных ОИД, отличиями в описании одинаковых объектов и собы­тий предметной области, ошибками при вводе, утерей фрагментов архивов и т. д. В таком случае цель— формирование единого непротиворечивого взгляда на объект управления — может быть не достигнута.

Главным же недостатком виртуального хранилища следует признать практи­ческую невозможность получения данных за долгий период времени. При отсутствии физического хранилища доступны только те данные, которые на момент запроса есть в ОИД. Основное назначение OLTP-систем — оператив­ная обработка текущих данных, поэтому они не ориентированы на хранение данных за длительный период времени. По мере устаревания данные выгру­жаются в архив и удаляются из оперативной БД.

Несмотря на преимущества физического ХД перед виртуальным, необходимо признать, что его реализация представляет собой достаточно трудоемкий процесс. Остановимся на основных проблемах создания ХД:

□ необходимость интеграции данных из неоднородных источников в рас­пределенной среде;

□ потребность в эффективном хранении и обработке очень больших объемов информации;

□ необходимость наличия многоуровневых справочников метаданных;

□ повышенные требования к безопасности данных.
Рассмотрим эти проблемы более подробно.

Необходимость интеграции данных из неоднородных источников в распределенной среде— ХД создаются для интегрирования данных, которые могут поступать из разнородных ОИД, физически размещающихся на разных компьютерах: БД, электронных архивов, публичных и коммерче­ских электронных каталогов, справочников, статистических сборников. При создании ХД приходится решать задачу построения системы, согласованно функционирующей с неоднородными программными средствами и решения­ми. При выборе средств реализации ХД приходится учитывать множество факторов, включающих уровень совместимости различных программных компонентов, легкость их освоения и использования, эффективность функ­ционирования и т. д.

Потребность в эффективном хранении и обработке очень больших объемов информации— свойство неизменности ХД предполагает накоп­ление в нем информации за долгий период времени, что должно поддержи­ваться постоянным ростом объемов дисковой памяти. Ориентация на выпол­нение аналитических запросов и связанная с этим денормализация данных приводят к нелинейному росту объемов памяти, занимаемой ХД при возрас­тании объема данных. Исследования, проведенные на основе тестового набо­ра TPC-D, показали, что для баз данных объемом в 100 Гбайт потребуется память объемом в 4,87 раза большая, чем нужно для хранения полезных данных.

Необходимость многоуровневых справочников метаданных — для систем анализа наличие развитых метаданных (данных о данных) и средств их предоставления конечным пользователям является одним из основных условий успешной реализации ХД. Метаданные необходимы пользователям СППР для понимания структуры информации, на основании которой прини­мается решение. Например, прежде чем менеджер корпорации задаст системе свой вопрос, он должен понять, какая информация имеется, насколько она актуальна, можно ли ей доверять, сколько времени может занять формирова­ние ответа и т. д. При создании ХД необходимо решать задачи хранения и удобного представления метаданных пользователям.

Повышение требований к безопасности данных— собранная вместе и согласованная информация об истории развития корпорации, ее успехах и неудачах, о взаимоотношениях с поставщиками и заказчиками, об истории и состоянии рынка дает возможность анализа прошлой и текущей деятельности корпорации и построения прогнозов для будущего. Очевидно, что подобная информация является конфиденциальной и доступ к ней ограничен в преде­лах самой компании, не говоря уже о других компаниях. Для обеспечения безопасности данных приходится решать вопросы аутентификации пользова­телей, защиты данных при их перемещении в хранилище данных из опера­тивных баз данных и внешних источников, защиты данных при их передаче по сети и т. п.

Снижения затрат на создание ХД можно добиться, создавая его упрощенный вариант — витрину данных (Data Mart).

;uВнимание! \ Витрина данных (ВД)— это упрощенный вариант ХД, содер­жащий только тематически объединенные данные.

ВД максимально приближена к конечному пользователю и содержит данные, тематически ориентированные на него (например, ВД для работников отдела маркетинга может содержать данные, необходимые для маркетингового ана­лиза). ВД существенно меньше по объему, чем ХД, и для ее реализации не требуется больших затрат. Они могут быть реализованы как самостоятельно, так и вместе с ХД.

Самостоятельные ВД (рис. 12.6) часто появляются в организации исторически и встречаются в крупных организациях с большим количеством независимых подразделений, решающих собственные аналитические задачи.

Достоинствами такого подхода являются:

проектирование ВД для ответов на определенный круг вопросов;

быстрое внедрение автономных ВД и получение отдачи;

упрощение процедур заполнения ВД и повышение их производительности за счет учета потребностей определенного круга пользователей.

Рис.12.6. Структура СППР с самостоятельными ВД

Недостатками автономных ВД являются:

□ многократное хранение данных в разных ВД, что приводит к увеличению расходов на их хранение и потенциальным проблемам, связанным с необ­ходимостью поддержания непротиворечивости данных;

□ отсутствие консолидированное™ данных на уровне предметной области, а следовательно — отсутствие единой картины.

В последнее время все более популярной становится идея совместить ХД и ВД в одной системе. В этом случае ХД используется в качестве единственно­го источника интегрированных данных для всех ВД (рис. 12.7).

ХД представляет собой единый централизованный источник информации для всей предметной области, а ВД являются подмножествами данных из храни­лища, организованными для представления информации по тематическим разделам данной области. Конечные пользователи имеют возможность дос­тупа к детальным данным хранилища, если данных в витрине недостаточно, а также для получения более полной информационной картины.

Достоинствами такого подхода являются:

□ простота создания и наполнения ВД, поскольку наполнение происходит из единого стандартизованного надежного источника очищенных данных — изХД;

□ простота расширения СППР за счет добавления новых ВД;

□ снижение нагрузки на основное ХД.

Рис. 12.7. Структура СППР с ХД и ВД

К недостаткам относятся:

□ П избыточность (данные хранятся как в ХД, так и в ВД);

□ дополнительные затраты на разработку СППР с ХД и ВД.

Подводя итог анализу путей реализации СППР с использованием концепции ХД, можно выделить следующие архитектуры таких систем:

□ СППР с физическим (классическим) ХД (см. рис. 12.4);

□ СППР с виртуальным ХД (см. рис. 12.5);

□ СППР с ВД (см. рис. 12.6);

□ СППР с физическим ХД и с ВД (рис. 12.7).

В случае архитектур с физическим ХД и/или ВД необходимо уделить внима­ние вопросам организации (архитектуры) ХД и переносу данных из ОИД вХД.

12.5. Организация ХД

Все данные в ХД делятся на три основные категории (рис. 12.8):

□ детальные данные;

□ агрегированные данные;

□ метаданные.

Рис. 12.8. Архитектура ХД

Детальными являются данные, переносимые непосредственно из ОИД. Они соответствуют элементарным событиям, фиксируемым OLTP-системами (на­пример, продажи, эксперименты и др.). Принято разделять все данные на из­мерения и факты. Измерениями называются наборы данных, необходимые для описания событий (например, города, товары, люди и т. п.). Фактами на­зываются данные, отражающие сущность события (например, количество проданного товара, результаты экспериментов и т. п.). Фактические данные могут быть представлены в виде числовых или категориальных значений.

В процессе эксплуатации ХД необходимость в ряде детальных данных может снизиться. Ненужные детальные данные могут храниться в архивах в сжатом виде на более емких накопителях с более медленным доступом (например, на магнитных лентах). Данные в архиве остаются доступными для обработки и анализа. Регулярно используемые для анализа данные должны храниться на накопителях с быстрым доступом (например, на жестких дисках).

На основании детальных данных могут быть получены агрегированные (обобщенные) данные. Агрегирование происходит путем суммирования чи­словых фактических данных по определенным измерениям. В зависимости от возможности агрегировать данные они подразделяются на следующие типы:

аддитивные—числовые фактические данные, которые могут быть просуммированы по всем измерениям;

полуаддитивные— числовые фактические данные, которые могут быть просуммированы только по определенным измерениям;

неаддитивные — фактические данные, которые не могут быть просуммированы ни по одному измерению.

Проведенные исследования показали, что большинство пользователей СППР работают не с детальными, а с агрегированными данными. Архитектура ХД должна предоставлять быстрый и удобный способ получать интересующую пользователя информацию. Для этого необходимо часть агрегированных данных хранить в ХД, а не вычислять их при выполнении аналитических за­просов. Очевидно, что это ведет к избыточности информации и увеличению размеров ХД. Поэтому при проектировании таких систем важно добиться оп­тимального соотношения между вычисляемыми и хранящимися агрегирован­ными данными. Те данные, к которым редко обращаются пользователи, мо­гут вычисляться в процессе выполнения аналитических запросов. Данные, которые требуются более часто, должны храниться в ХД.

Для удобства работы с ХД необходима информация о содержащихся в нем данных. Такая информация называется метаданными (данные о данных). Со­гласно концепции Захмана метаданные должны отвечать на следующие во­просы — что, кто, где, как, когда и почему:

□ что (описание объектов) — метаданные описывают объекты предметной области, информация о которых хранится в ХД. Такое описание включает: атрибуты объектов, их возможные значения, соответствующие поля в ин­формационных структурах ХД, источники информации об объектах и т. п.;

□ кто (описание пользователей) — метаданные описывают категории поль­зователей, использующих данные. Они описывают права доступа к дан­ным, а также включают в себя сведения о пользователях, выполнявших над данными различные операции (ввод, редактирование, загрузку, извле­чение и т. п.);

□ где (описание места хранения) — метаданные описывают местоположение серверов, рабочих станций, ОИД, размещенные на них программные сред­ства и распределение между ними данных;

□ как (описание действий)— метаданные описывают действия, выполняе­мые над данными. Описываемые действия могли выполняться как в про­цессе переноса из ОИД (например, исправление ошибок, расщепление по­лей и т. п.), так и в процессе их эксплуатации в ХД;

□ когда (описание времени) — метаданные описывают время выполнения
разных операций над данными (например, загрузка, агрегирование, архи­
вирование, извлечение и т. п.);

□ почему (описание причин) — метаданные описывают причины, повлек­шие выполнение над данными тех или иных операций. Такими причинами могут быть требования пользователей, статистика обращений к данным и т. п.

Так как метаданные играют важную роль в процессе работы с ХД, то к ним должен быть обеспечен удобный доступ. Для этого они сохраняются в репо-зитории метаданных с удобным для пользователя интерфейсом.

Данные, поступающие из ОИД в ХД, перемещаемые внутри ХД и поступаю­щие из ХД к аналитикам, образуют следующие информационные потоки (см. рис. 12.8):

□ входной поток (Inflow)— образуется данными, копируемыми из ОИД вХД;

□ поток обобщения (Upflow)— образуется агрегированием детальных дан­ных и их сохранением в ХД;

□ архивный поток (Downflow) — образуется перемещением детальных дан­ных, количество обращений к которым снизилось;

□ поток метаданных (MetaFlow) — образуется потоком информации о дан­ных в репозиторий данных;

□ выходной поток (Outflow) — образуется данными, извлекаемыми пользо­вателями;

□ обратный поток (Feedback Flow) — образуется очищенными данными, за­писываемыми обратно в ОИД.

Самый мощный из информационных потоков — входной — связан с перено­сом данных из ОИД. Обычно информация не просто копируется в ХД, а под­вергается обработке: данные очищаются и обогащаются за счет добавления новых атрибутов. Исходные данные из ОИД объединяются с информацией из внешних источников — текстовых файлов, сообщений электронной почты, электронных таблиц и др. При разработке ХД не менее 60 % всех затрат свя­зано с переносом данных.

Процесс переноса, включающий в себя этапы извлечения, преобразования и загрузки, называют ETL-процессом (Е — extraction, Т — transformation, L — loading: извлечение, преобразование и загрузка, соответственно). Программ­ные средства, обеспечивающие его выполнение, называются ETL-системами. Традиционно ETL-системы использовались для переноса информации из устаревших версий информационных систем в новые. В настоящее время ETL-процесс находит все большее применение для переноса данных из ОИД в ХД и ВД.

Рассмотрим более подробно этапы ETL-процесса (рис. 12.9).

Извлечение данных— чтобы начать ETL-процесс, необходимо извлечь данные из одного или нескольких источников и подготовить их к этапу пре­образования. Можно выделить два способа извлечения данных:

1. Извлечение данных вспомогательными программными средствами непо­средственно из структур хранения информации (файлов, электронных таблиц, БД и т. п. Достоинствами такого способа извлечения данных явля­ются:

· отсутствие необходимости расширять OLTP-систему (это особенно важно, если ее структура закрыта);

· данные могут извлекаться с учетом потребностей процесса переноса.

2. Выгрузка данных средствами OLTP-систем в промежуточные структуры. Достоинствами такого подхода являются:

· возможность использовать средства OLTP-систем, адаптированные к структурам данных;

· средства выгрузки изменяются вместе с изменениями OLTP-систем и ОИД;

· возможность выполнения первого шага преобразования данных за счет определенного формата промежуточной структуры хранения данных.

Рис. 12.9. ETL-процесс

Преобразование данных— после того как сбор данных завершен, необхо­димо преобразовать их для размещения на новом месте. На этом этапе вы­полняются следующие процедуры:

□ обобщение данных (aggregation) — перед загрузкой данные обобщаются. Процедура обобщения заменяет многочисленные детальные данные отно­сительно небольшим числом агрегированных данных. Например, предпо­ложим, что данные о продажах за год занимают в нормализованной базе

данных несколько тысяч записей. После обобщения данные преобразуют­ся в меньшее число кратких записей, которые будут перенесены в ХД;

□ перевод значений (value translation)— в ОИД данные часто хранятся в за­кодированном виде для того, чтобы сократить избыточность данных и па­мять для их хранения. Например, названия товаров, городов, специально­стей и т. п. могут храниться в сокращенном виде. Поскольку ХД содержат обобщенную информацию и рассчитаны на простое использование, зако­дированные данные обычно заменяют на более понятные описания;

□ создание полей (field derivation) — при создании полей для конечных пользователей создается и новая информация. Например, ОИД содержит одно поле для указания количества проданных товаров, а второе — для указания цены одного экземпляра. Для исключения операции вычисления стоимости всех товаров можно создать специальное поле для ее хранения во время преобразования данных;

□ очистка данных (cleaning) — направлена на выявление и удаление ошибок и несоответствий в данных с целью улучшения их качества. Проблемы с качеством встречаются в отдельных ОИД, например, в файлах и БД могут быть ошибки при вводе, отдельная информация может быть утрачена, мо­гут присутствовать "загрязнения" данных и др. Очистка также применяет­ся для согласования атрибутов полей таким образом, чтобы они соответст­вовали атрибутам базы данных назначения.

Загрузка данных— после того как данные преобразованы для размещения в ХД, осуществляется этап их загрузки. При загрузке выполняется запись преобразованных детальных и агрегированных данных. Кроме того, при записи новых детальных данных часть старых может переноситься в архив.

 

5. Измерительные шкалы.


В основе любого наблюдения и анализа лежат измерения.
Измерение - это алгоритмическая операция, которая данному наблюдаемому состоянию объекта ставит в соответствие определенное обозначение: число, помер или символ. Обозначим через хi. i=1,…, m наблюдаемое состояние (свойство) объекта, а через уi, i = 1,..,m - обозначение для этого свойства. Чем теснее соответствие между состояниями и их обозначениями, тем больше информации можно извлечь в результате обработки данных. Менее очевидно, что степень этого соответствия зависит не только от организации измерений (т. е. от экспериментатора), но и от природы исследуемого явления, и что сама степень соответствия в свою очередь определяет допустимые (и недопустимые) способы обработки данных!
Множество обозначений, используемых для регистрации состояний наблюдаемого объекта, называется измерительное шкалой.
Измерительные шкалы в зависимости от допустимых на них операций различаются по их силе. Самые слабые - номинальные шкалы, а самые сильные - абсолютные.
Выделяют три основных атрибута измерительных шкал, наличие или отсутствие которых определяет принадлежность шкалы к той или иной категории:
1. упорядоченность данных означает, что один пункт шкалы, соответствующий измеряемому свойству, больше, меньше или равен другому пункту;
2. интервальность пунктов шкалы означает, что интервал между любой парой чисел, соответствующих измеряемым свойствам, больше, меньше или равен интервалу между другой парой чисел;
3. нулевая точка (или точка отсчета) означает, что набор чисел, соответствующих измеряемым свойствам, имеет точку отсчета, обозначаемую за ноль, что соответствует полному отсутствию измеряемого свойства.
Кроме того, выделяют следующие группы:
o неметрические или качественные шкалы, в которых отсутствуют единицы измерений (номинальная и порядковая шкалы);
o количественные или метрические (шкала интервалов, шкала отношений и абсолютная шкала).


6. Статистическое моделирование связи методом

корреляционного и регрессионного анализа.

 

Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак.

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчётных значений зависимой переменной (функции регрессии).

Решение всех названных задач приводит к необходимости комплексного использования этих методов.

Корреляционный и регрессионный анализ. Исследование связей в условиях массового наблюдения и действия случайных факторов осуществляется, как правило, с помощью экономико-статистических моделей. В широком смысле модель – это аналог, условный образ (изображение, описание, схема, чертёж и т.п.) какого-либо объекта, процесса или события, приближенно воссоздающий «оригинал». Модель представляет собой логическое или математическое описание компонентов и функций, отображающих существенные свойства моделируемого объекта или процесса, даёт возможность установить основные закономерности изменения оригинала. В модели оперируют показателями, исчисленными для качественно однородных массовых явлений (совокупностей). Выражение и модели в виде функциональных уравнений используют для расчёта средних значений моделируемого показателя по набору заданных величин и для выявления степени влияния на него отдельных факторов.

По количеству включаемых факторов модели могут быть однофакторными и многофакторными (два и более факторов).

В зависимости от познавательной цели статистические модели подразделяются на структурные, динамические и модели связи.

Двухмерная линейная модель корреляционного и регрессионного анализа (однофакторный линейный корреляционный и регрессионный анализ).Наиболее разработанной в теории статистики является методология так называемой парной корреляции, рассматривающая влияние вариации факторного анализа х на результативный признак уи представляющая собой однофакторный корреляционный и регрессионный анализ. Овладение теорией и практикой построения и анализа двухмерной модели корреляционного и регрессионного анализа представляет собой исходную основу для изучения многофакторных стохастических связей.

Важнейшим этапом построения регрессионной модели (уравнения регрессии) является установление в анализе исходной информации математической функции. Сложность заключается в том, что из множества функций необходимо найти такую, которая лучше других выражает реально существующие связи между анализируемыми признаками. Выбор типов функции может опираться на теоретические знания об изучаемом явлении, опят предыдущих аналогичных исследований, или осуществляться эмпирически – перебором и оценкой функций разных типов и т.п.

При изучении связи экономических показателей производства (деятельности) используют различного вида уравнения прямолинейной и криволинейной связи. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчётов преобразуют (путём логарифмирования или замены переменных) в линейную форму. Уравнение однофакторной (парной) линейной корреляционной связи имеет вид:

 

ŷ = a0 + a1x ,

 

где ŷ - теоретические значения результативного признака, полученные по уравнению регрессии;

a0 , a1 - коэффициенты (параметры) уравнения регрессии.

Поскольку a0является средним значением ув точке х=0, экономическая интерпретация часто затруднена или вообще невозможна.

Коэффициент парной линейной регрессии a1имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Вышеприведенное уравнение показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, то есть вариацию у, приходящуюся на единицу вариации х. Знак a1указывает направление этого изменения.

Параметры уравнения a0 , a1 находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных yiот выравненных ŷ:

 

S(yi – ŷ)2 = S(yi – a0 – a1xi)2 ® min

 

Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

 

 

Решим эту систему в общем виде:

Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:


Определив значения a0 , a1и подставив их в уравнение связи ŷ = a0 + a1x, находим значения ŷ, зависящие только от заданного значения х.

 

Рассмотрим построение однофакторного уравнения регрессии зависимости работающих активов у от капитала х (см. приложение, таблица 1).

Здесь представлены показатели 32 банков: размер капитала и работающих активов. Передо мной стоит задача определить, есть ли зависимость между этими двумя признаками и, если она существует, определить форму этой зависимости, то есть уравнение регрессии.

За факторный признак я взяла размер капитала банка, а за результативный признак – работающие активы.

Сопоставление данных параллельных рядов признаков хиу показывает, что с убыванием признака х (капитал), в большинстве случаев убывает и признак у(работающие активы).

Следовательно, можно предположить, что между х и у существует прямая зависимость, пусть неполная, но выраженная достаточно ясно.

Для уточнения формы связи между рассматриваемыми признаками я использовала графический метод. Я нанесла на график точки, соответствующие значениям хи у, и получила корреляционное поле (см. приложение, график 1).

Анализируя поле корреляции, можно предположить, что возрастание признака у идет пропорционально признаку х. В основе этой зависимости лежит прямолинейная связь, которая может быть выражена простым линейным уравнением регрессии:

 

ŷ = a0 + a1x,

 

где ŷ - теоретические расчётные значения результативного признака (работающие активы), полученные по уравнению регрессии;

a0 , a1 - коэффициенты (параметры) уравнения регрессии;

х – капитал исследуемых банков.

Пользуясь вышеуказанными формулами для вычисления параметров линейного уравнения регрессии и расчётными значениями из таблицы 1, получаем:


Следовательно, регрессионная модель зависимости работающих активов от капитала банков может быть записана в виде конкретного простого уравнения регрессии:

 

Это уравнение характеризует зависимость работающих активов от капитала банка. Расчётные значения ŷ , найденные по этому уравнению, приведены в таблице 1. Правильность расчёта параметров уравнения регрессии может быть проверена сравниванием сумм ∑у = ∑ŷ . В моем случае эти суммы равны.

Но для того, чтобы применить мою формулу, надо рассчитать, насколько она приближенна к реальности, то есть проверить ее адекватность.


Эта страница нарушает авторские права

allrefrs.ru - 2019 год. Все права принадлежат их авторам!