По всем вопросам звоните:

+7 495 274-22-22

УДК: 681.5

Общая классификация и назначение информационно- аналитических систем

Алексеева Т.В. Московская финансово-промышленная академия (бывш. ГЭИТИ),
Москва Ленинградский пр-т, д. 80, стр. 1; e-mail: info@geiti.ru
Америди Ю.В. Московская финансово-промышленная академия (бывш. ГЭИТИ),
Москва Ленинградский пр-т, д. 80, стр. 1; e-mail: info@geiti.ru
Лужецкий М.Г. Московская финансово-промышленная академия (бывш. ГЭИТИ),
Москва Ленинградский пр-т, д. 80, стр. 1; e-mail: info@geiti.ru

Аналитические средства и технологии принято использовать в качестве «систем поддержки принятия решений» (СППР, DSS). Для их обозначения используется термин «Бизнес-аналитика» (Business Intelligence — BI). По технологическому построению аналитические системы условно разделяются на монолитные и настраиваемые. Первая группа таких систем характеризуются тем, что методика аналитического подбора нужной информации реализуется в них в коде самой программы. В этом случае аналитическая система (кроме Data Mining) не требует выполнения существенных работ по своей настройке. Такие системы разрабатываются с применением базовых средств программирования и СУБД. В настраиваемых аналитических системах при их создании используются универсальные аналитические инструменты и специализированные средства, такие как OLAP, Студии, ETL, Data Mining. Их применение позволяет повысить качество аналитической системы, дает перспективы развития, приводя, однако, к удорожанию конечного продукта и вырабатываемых решений.

Для обозначения аналитических средств и технологий принято использовать термин Business Intelligence («Бизнес-аналитика»), или сокращенно — BI. Понятие BI объединяет различные технологии и средства анализа и обработки данных в масштабе предприятия. На этой основе создаются BI-системы. Их цель — повысить качество информации для принятия управленческих решений. BI-системы известны как «системы поддержки принятия решений» («СППР», Decision Support System — DSS). В качестве синонимов понятия «СППР» оперируют также понятиями «аналитическая система» или «управленческая система». Теперь же класс BI-систем является независимым классом систем, в который входят и системы класса СППР.

По оценкам компании International Data Corporation (IDC), рынок бизнесаналитики включает в себя 6 сегментов:

1. OLAP-продукты, что означает — продукты интерактивной аналитической обработки (Online analytical processing);

2. Инструменты получения данных;

3. Средства построения «хранилищ и витрин» данных;

4. Управленческие информационные системы и приложения;

5. Инструменты конечного пользователя для выполнения запросов и построения отчетов;

6. Системы СППР.

Назначение и состав каждого из сегментов представлены в таблице.

Рассмотрим более подробно каждый из представленных сегментов.

OLAP-ПРОДУКТЫ

На текущий период в мире разработано множество продуктов, реализующих OLAP-технологии. Чтобы легче было в них ориентироваться, существует несколько классификаций OLAPпродуктов, различаемых:

• по способу хранения данных;

• месту нахождения OLAP-машины;

• степени готовности к применению.

Рассмотрим классификацию систем по способу хранения данных. Основная идея OLAP заключается в построении многомерных таблиц, которые будут доступны для запросов пользователей. Многомерные таблицы (многомерные кубы) строятся на основе исходных и агрегатных данных. Такие исходные и агрегатные данные для многомерных таблиц могут храниться как в реляционных, так и в многомерных базах данных. Поэтому в настоящее время применяются 3 способа хранения данных: MOLAP (Multidimensional — многомерные OLAP), ROLAP (Relational — родственные, относительные OLAP) и HOLAP (Hybrid — смешанные OLAP).

Соответственно OLAP-продукты по способу хранения данных делятся на 3 аналогичные категории:

1. В случае MOLAP, если исходные и агрегатные данные хранятся в многомерной БД или в многомерном локальном кубе. Такой способ хранения обеспечивает высокую скорость выполнения OLAP-операций. Но многомерная база в этом случае чаще всего будет избыточной. Куб, построенный на ее основе, будет сильно зависеть от числа измерений. При увеличении количества измерений объем куба будет экспоненциально расти. Иногда это может привести к «взрывному росту» объема данных, парализующему запросы пользователей;

2. В ROLAP-продуктах, когда исходные данные хранятся в реляционных БД или в плоских локальных таблицах на файл-сервере. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства. При этом скорость построения куба сильно зависит от типа источника данных и порой приводит к неприемлемому времени отклика системы;

3. В случае использования «гибридной» архитектуры, когда исходные данные остаются в реляционной базе, а агрегаты размещаются в многомерной. Построение OLAP-куба выполняется по запросу OLAP-средств на основе реляционных и многомерных данных. Такой подход позволяет избежать взрывного роста данных. При этом можно достичь оптимального времени исполнения клиентских запросов.

Следующая классификация — по месту размещения OLAP-машины. По этому признаку OLAP-продукты делятся на OLAP-серверы и OLAP-клиенты.

В первом случае в серверных OLAPсредствах вычисления и хранение агрегатных данных выполняются сервером. Клиентское приложение получает только результаты запросов к многомерным кубам, которые хранятся на сервере. Некоторые OLAP-серверы поддерживают хранение данных только в реляционных базах, другие — только в многомерных. Многие современные OLAP-серверы поддерживают все 3 способа хранения данных: MOLAP, ROLAP и HOLAP. Одним из самых распространенных в настоящее время серверным решением является OLAP-сервер корпорации Microsoft.

OLAP-клиент устроен по-другому. В этом случае построение многомерного куба и OLAP-вычисления выполняются в памяти клиентского компьютера. OLAP-клиенты в свою очередь делятся на ROLAP и MOLAP. А некоторые могут поддерживать оба варианта доступа к данным. Среди одних из числа первых клиентских OLAP-средств можно назвать Oracle Discoverer. Те же возможности обеспечивают продукты отечественной разработки, именуемые Аналитической платформой «Контур» от компании Intersoft Lab.

У каждого из этих подходов есть свои плюсы и минусы. Нельзя однозначно говорить о преимуществах серверных средств перед клиентскими и наоборот. На практике такой выбор является результатом компромисса «эксплуатационных показателей», стоимости программного обеспечения и затрат на разработку, внедрения и сопровождения аналитической системы.

Следующая классификация OLAPпродуктов — по степени готовности к применению. Различают: OLAP-компоненты, инструментальные OLAP-системы и конечные OLAP-приложения.

1. OLAP-компоненты — это инструмент разработчика. С помощью этой системы разрабатываются клиентские OLAP-программы.

Различают MOLAP и ROLAP-компоненты. MOLAP-компоненты являются инструментами генерации запросов к OLAP-серверу. Они также обеспечивают визуализацию полученных данных. ROLAP-компоненты содержат собственную OLAP-машину. Такая OLAPмашина обеспечивает построение OLAP-кубов в оперативной памяти и отображает их на экране. Одна из наиболее доступных, но в то же время самых слабых OLAP-компонент является система Decision Cube в составе Borland Delphi.

2. Инструментальные OLAP-системы — это программные продукты, предназначенные для создания аналитических приложений. Различают 2 категории инструментальных OLAPсистем:

• системы для программирования и системы для быстрой настройки, представляющие собой среду разработчика аналитических систем. В ней, путем программирования запросов к данным, алгоритмов расчета и OLAP-интерфейсов, можно создать OLAP-приложение для конечного пользователя. Представителем этого класса программного обеспечения является аналитическая платформа Knosys Pro Clarity;

• OLAP-системы для быстрой настройки — это средства, которые предоставляют визуальный интерфейс для создания OLAP-приложений без программирования. Такие системы включают визуальный генератор запросов, встроенные алгоритмы агрегации и инструменты настройки пользовательских OLAP-интерфейсов. В такой технологии реализована большая часть инструментов пакета Business Objects и Аналитическая платформа «Контур»;

• OLAP-приложения, представляющие собой готовые прикладные решения для конечного пользователя. Они требуют только установки и, не всегда, настройки под специфику пользователя. Пример такого решения является OLAP-приложения системы «Контур Стандарт», подготовленные для анализа данных в различных отраслях и для решения различных аналитических задач.

СРЕДСТВА ПОСТРОЕНИЯ «ХРАНИЛИЩ И ВИТРИН ДАННЫХ»

«Хранилища и витрины данных» создаются с применением специализированных средств. К этим средствам относятся:

• средства проектирования «хранилищ данных» (ХД);

• средства извлечения, преобразования и загрузки данных;

• готовые предметно-ориентированные ХД.

Средства проектирования «хранилищ данных» входят в состав реляционных и многомерных СУБД от таких производителей, как Microsoft Corporation, Oracle, IBM, Sybase (все — США), и др. Также часто применяются универсальные CASE-инструменты, такие как программы BPWin и ErWin. После описания структур хранения данных специальными системными утилитами выполняется их генерация. Такой подход к созданию «хранилища данных» позволяет построить индивидуальное «хранилище и витрину данных» в сжатые сроки. В то-же время такой подход затрудняет перенос наработок от одного заказчика к другому и обмен практическим опытом в решении аналитических задач.

Альтернативным способом построения «хранилищ данных» является применение других специализированных средств — Студий для построения «хранилищ данных». Такие продукты предлагают набор шаблонов и заготовок для быстрого создания хранилища. В составе такой Студии может предоставляться базовая модель «хранилища данных», ориентированная на определенную бизнес-сферу. С помощью таких инструментов можно значительно быстрее создать «хранилище данных», воспользовавшись опытом предыдущих решений, и в сжатые сроки начать его эксплуатацию. Продукты этого класса, в частности, предлагает компания Sybase — это продукт Industry Warehouse Studio.

ИНСТРУМЕНТЫ ИЗВЛЕЧЕНИЯ ДАННЫХ

Извлечение данных из баз данных (Knowledge discovery in databases — KDD) — это процесс поиска полезной информации в наборе имеющихся «сырых» данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов «раскапывания» (извлечения) данных (Data Mining), а также обработки и интерпретации полученных результатов.

Центральным элементом этой технологии являются методы Data Mining, позволяющие обнаруживать знания при помощи следующих математических правил:

• фильтрации;

• деревьев решений;

• ассоциативных правил;

• генетических алгоритмов;

• нейронных сетей.

1. Необходимость в фильтрации возникает, когда необходимо отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т. д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а следовательно, и точность результата анализа.

2. Деревья решений позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если..., то...». Деревья решений применяются при решении задач поиска оптимальных решений на основе описанной модели поведения.

3. Ассоциативные правила позволяют находить закономерности между связанными событиями. Примером такого правила служит утверждение, что в том случае если произошло событие А, то произойдет и событие В с вероятностью C. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (Market basket analysis).

4. Генетические алгоритмы применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Генетические алгоритмы нужны для настройки нейронных сетей, а также решения различных задач, когда можно составить описание возможных вариантов решения в виде вектора параметров и известен критерий, определяющий эффективность каждого варианта. Генетические алгоритмы применяются для составления расписаний, портфелей ценных бумаг, заполнения контейнеров при перевозке (пересылке) грузов, выбора маршрутов движения, конфигурации оборудования и т. д.

5. Нейронные сети реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных. Нейронные сети применяются для решения самых различных задач, таких как: восстановление пропусков в данных, поиск закономерностей, классификация и кластеризация данных, прогнозирование и моделирование.

В целом инструменты получения данных поставляются заказчикам двумя способами:

• в составе OLAP-систем;

• в виде самостоятельных систем Data Mining.

Функциональность Data Mining в той или иной степени полноты реализации включена в аналитические системы различных производителей — Oracle Corporation (Oracle, США), Hyperion Records (Великобритания), SAS Institute (США) и др. Однако наиболее «продвинутыми» в этом плане являются специализированные системы математического анализа данных. В России авторитетным разработчиком систем в KDD-технологии является компания «Лаборатория BaseGroup» ( Рязань).

Средства извлечения, преобразования и загрузки данных — ETL-средства (Extraction, Transformation, Loading) — обеспечивают выполнение 3 основных процессов, используемых при переносе данных из одного приложения или системы в другое. ETL-средства извлекают информацию из исходной базы данных, преобразуют ее в формат, поддерживаемый базой данных назначения, а затем загружают в нее преобразованную информацию. Эти средства обычно входят в состав функциональности реляционных и многомерных СУБД или Студий для построения «хранилищ данных». Однако существуют и специализированные системы, реализующие только ETL-функции. Классической ETL-системой является, например, продукт Ascential DataStage компании Ascential Software Corp. (США).

И наконец, существует еще один способ построения «хранилищ данных» — это применение готовых предметно-ориентированных «хранилищ данных». Это самый надежный способ построить «хранилище данных» в сжатые сроки. Готовые к эксплуатации «хранилища данных» характеризуются наличием в них механизмов средств построения, взаимосвязанных посредством единого словаря метаданных. К ним относятся — процедуры извлечения, преобразования, очистки и загрузки данных, функции генерации баз данных и процедур обработки, механизмы построения выборок данных, интерфейсы просмотра и анализа данных.

Ограничением в применении готовых «хранилищ данных» является их предметная ориентация. Например, финансовое «хранилище данных» невозможно применить для решения задач оптимизации химического производства.

Примером готового предметноориентированного «хранилища данных» является система «Контур Корпорация» от компании Intersoft Lab. Применение предметно-ориентированных «хранилищ данных» отражает общемировую тенденцию развития рынка BI, наметившуюся в последнее время, а именно: предоставления платформ для «быстрой» разработки аналитических приложений.

УПРАВЛЕНЧЕСКИЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ПРИЛОЖЕНИЯ

Следующим очень разносторонним классом аналитических систем являются так называемые управленческие информационные системы и приложения. Они представляют собой конечные решения для управленцев и аналитиков. Исторически сложилось так, что технологическая основа реализации таких систем существенно различается. Одни из них построены на современных аналитических инструментах, другие — с применением базовых информационных технологий. Чтобы легче было ориентироваться в этих системах, создана следующая их классификация:

• по виду решаемых задач;

• по масштабу решаемых задач;

• по технологическому построению.

Из числа видов решаемых задач можно выделить:

• анализ финансового состояния банка или предприятия, выполняемый по внешним публичным данным, таким как баланс, отчет о финансовых результатах, иногда — по приложению к балансу и отчету о движении денежных средств. К ним относятся системы: Audit Expert («Про-Инвест»), «Альт-финансы» («Альт»), АБФИ («Вестона»), «Аналитик», АФСП, АДП (ИНЭК) и др.;

• инвестиционный анализ — для комплексной оценки эффективности инвестиционных проектов и принятия решения об их финансировании. К их числу относятся: Project Expert («ПроИнвест»), «Альт-Инвест» («Альт») и др.;

• подготовка бизнес-планов, учитывающих вариации схем производства, сбыта и финансирования, комплексного анализа маркетинговой ситуации, чувствительности проекта по основным параметрам. Это все те же системы: Project Expert («Про-Инвест»), «Альт-Инвест» («Альт») и др.;

• маркетинговый анализ, позволяющий оценить положение компании на рынке, провести сравнительный анализ ее сбытовой деятельности с конкурентами, сформировать оптимальную структуру сбыта, определить доходность различных сегментов рынка и товаров, долю рынка компании, темпы роста и др. К таким системам относятся: Marketing Expert («Про-Инвест»), «Касатка» и др.;

• управление проектами, применяемое для разработки расписания исполнения проекта, определения критического пути и резервов времени исполнения операций проекта; потребности проекта в финансировании, материалах и оборудовании, анализ рисков и планирование расписания с учетом рисков и т. д. Системы: MS Project (Microsoft), Open Plan (Welcom Software Technology) и др.;

• бюджетирование, обеспечивающее планирование, учет и анализ по центрам финансовой ответственности, бизнесам, продуктам в разрезе активов и пассивов, доходов и расходов, выполнение аллокаций и расчет финансового результата. Системы: Hyperion Pillar, Comshare MPC, «Контур Корпорация», «Бюджет» (Intersoft Lab) и др.;

• финансовое управление, включающее, помимо задач бюджетирования, задачи финансового планирования, управленческого учета, трансфертного управления ресурсами, оценки бизнесов по методу ABC, анализа активов, пассивов, рисков. Системы: Oracle Financial Services Applications (Oracle), «Контур Корпорация», «Финансовое управление» (Intersoft Lab) и др.

На практике встречается гораздо больше видов задач, но здесь были перечислены только те задачи, которые нашли свое воплощение в тиражных аналитических системах. Некоторые из этих систем могут решать только одну задачу, другие являются комплексом, включающим в себя возможности решения широкого спектра взаимосвязанных задач.

Аналитические системы также подразделяются по масштабу решаемых задач, включая:

• системы автоматизации труда одного специалиста. Это так называемые DeskTop-системы, предназначенные для автоматизации труда узкого специалиста. Как правило, для эксплуатации таких систем не требуется помощь службы автоматизации;

• системы для коллективной работы группы сотрудников. Такие системы содержат средства, обеспечивающие коллективную работу пользователей в режиме реального времени с единой базой данных в рамках прав доступа. Эти системы уже требуют выполнения функций администрирования и сопровождения;

• системы для применения в территориально распределенной корпорации. Эти системы включают в себя свойства аналитических систем для групп пользователей, а также средства взаимодействия с удаленными подразделениями корпорации (филиалами) в виде технологий сбора данных, дистрибуции нормативно-справочной информации (НСИ) и отчетов. Системы данного класса сложны в эксплуатации, но при этом обеспечивают наиболее полное решение аналитических и управленческих задач.

По технологическому построению аналитические системы можно условно разделить на монолитные и настраиваемые. Монолитные аналитические системы характеризуются тем, что аналитическая методика в них реализуется в коде самой программы, а не в виде настройки универсального аналитического инструмента. В этом случае аналитическая система не требует, как правило, выполнения существенных работ по своей настройке (за исключением систем класса Data Mining). Она может использоваться практически сразу после установки. В то же время такие системы не «гибкие» и плохо поддаются изменениям в соответствии с требованиями пользователя. Монолитные системы разрабатываются с применением базовых средств программирования и СУБД.

Настраиваемые аналитические системы характеризуются тем, что при их создании применяются универсальные аналитические инструменты и специализированные средства, такие как OLAP, Студии, ETL, Data Mining. Их применение позволяет повысить качество аналитической системы, дает перспективы развития, но в то же время приводит к удорожанию конечного решения. Прикладные аналитические системы, выполненные в виде настроек универсальных аналитических инструментов, требуют большего объема работ при внедрении, однако позволяют реализовывать уникальные аналитические методики, принятые в организации.

Компромиссом между этими двумя классами систем является реализация аналитической методики в виде «Приложения универсальной аналитической системы». Такой подход позволяет выполнять их тиражирование независимо друг от друга. Но подобных систем в настоящее время на рынке представлено крайне мало.

ИНСТРУМЕНТЫ КОНЕЧНОГО ПОЛЬЗОВАТЕЛЯ ДЛЯ ВЫПОЛНЕНИЯ ЗАПРОСОВ И ПОСТРОЕНИЯ ОТЧЕТОВ

Системы данного класса представлены так называемыми программами Query & Reporting (запросов и отчетов). Они предназначены для формирования запросов к информационным системам в пользовательских терминах, для исполнения, интеграции данных из разных источников, просмотра данных с возможностями детализации и обобщения, а также для построения полноценных отчетов, как экранных, так и печатных.

Предполагается, что уровень подготовки специалиста, создающего отчеты, может быть приравнен к опыту среднего пользователя программы Майкрософт Excel. Поэтому пользователь составляет запрос к источнику данных, используя заранее подготовленный программистом каталог терминов (семантический слой). Визуализация результатов запроса может быть представлена пользователю в виде плоских или многомерных таблиц, графиков, диаграмм, различных специализированных интерфейсов.

Инструменты конечного пользователя для выполнения запросов и построения отчетов поставляются двумя способами:

• в составе OLAP-систем;

• в виде специализированных систем Query & Reporting.

Практически каждая система класса OLAP снабжена средствами Query & Reporting. Эти средства могут быть как встроенными в основной продукт (примеры — Business Objects, «Контур Стандарт», Oracle Discoverer), так и выделенными в отдельный продукт (например, система Impromptu в составе продуктов канадской компании Cognos).

Также существуют и специализированные системы генерации и дистрибуции отчетов. Наиболее распространенные из них — это продукты компаний Crystal Decisions (Франция) и Actuate Corporation (США). В то же время эти системы имеют в своем составе собственные OLAP-средства. Поэтому провести четкую грань между OLAP-системами и системами класса Query & Reporting практически невозможно. Примером могут служить продукты компании MicroStrategy, Inc. (США), которые различные аналитики и издания с равной регулярностью относят к продуктам обоих классов.