IT InfoArt Stars Справочная информация  •  Технологии

Методология Sybase для cоздания хранилищ и витрин данных

Сергей Цуприков
Sybase Russia, sergts@sybase.ru, тел. (095)797-4774, http://www.sybase.ru

Хранилища данных и поддержка принятия решений

В последние годы резко вырос интерес к технологиям хранилищ данных (ХД), что не без оснований связывают с повышением требований менеджеров по улучшению процессов поддержки принятия решений (DSS). Компании постоянно ищут новые ниши на рынке и ищут новые подходы, чтобы сохранить наиболее своих наиболее выгодных клиентов в обстановке неуклонного снижения цен. Условия функционирования предприятий все усложняются, что затрудняет выработку стратегии поведения и глубинное понимание процессов конкуренции. Инвестиции в аналитические системы производятся с целью более оперативного выявления и быстрого (быстрее конкурентов) использования новых возможностей, только обозначившихся на рынке.

Главная цель создания (ХД) состоит в том, чтобы сделать все значимые для управления бизнесом данные доступными в стандартизованной форме, пригодными для моделирования, анализа и получения необходимых отчетов. ХД можно назвать оптимально организованной базой данных, обеспечивающей максимально быстрый доступ к информации, необходимой при принятии решений. Таким образом, реальная (и весьма ощутимая) польза от ХД наступает при его эксплуатации в процессе анализа ситуации и принятия решения.

Согласно исследованиям корпорации Meta Group, сделанных еще в 1996 году, ХД данных в той или иной форме пытаются создавать около 90 % компаний, входящих список Fortune 1000. Согласно тем же исследованиям, средний проект создания корпоративного ХД данных обходился заказчику в 3 млн. долл и длился 24 месяца. Еще более удручает то, что по данным консалтинговой группы Earl Hadden & Assosiates, специализирующейся на исследованиях в области ХД, до 80 % из уже реализованных проектов не могут решить всех поставленных перед ними задач, а 40% из их числа могут считаться полностью проваленными.

Этапы создания ХД с точки зрения бизнес-процессов

В общих чертах, процесс создания ХД состоит из следующих основных этапов -- проектирования и загрузки данных. Проектировщики, тесно взаимодействуя с бизнес-аналитиками, очерчивают круг бизнес-понятий, процессов и объектов, принятых в конкретной организации, формализуют и описывают потоки данных. Проектируется структура хранилища, заполнение хранилища данными и начинается работа аналитиков.

В реальной жизни процессу создания хранилища данных зачастую предшествует разработка прототипа - небольшой системы, призванной продемонстрировать новые возможности, чтобы, попробовав систему в работе, сделать выводы о необходимости продолжения дальнейшей разработки.

Такая система, называемая далее витриной данных (ВД) - это небольшое хранилище, обеспечивающее потребности одного из подразделений компании, или одного из направлений бизнеса. ВД не требует, хотя и не исключает, наличие корпоративного ХД, охватывающей сразу все аспекты ее жизнедеятельности организации. Как правило, она доступна ограниченному кругу аналитиков, для работы которых она и создавалась. Стоимость разработки такой ВД намного ниже, чем корпоративного ХД, а результат ее внедрения может окупиться много быстрее. Параллельно с созданием ВД, может идти процесс проектирования корпоративного ХД.

Здесь важно подчеркнуть такое принципиальное отличие DSS на основе ХД от интегрированной системы управления предприятием, как наличие метаданных. Они хранятся в централизованно управляемом репозитарии, и содержат информацию о структуре данных ХД (или ВД); структурах данных, импортируемых из иных источников; о самих источниках; методах загрузки и агрегирования данных.

Для успешного внедрения, ВД должны сразу создаваться в рамках единой корпоративной архитектуры, для решения задач, связанных с поддержанием целостности, обмена, преобразования и перемещения данных внутри всей корпоративной инфраструктуры. Можно выделить четыре ключевых требования к корпоративной архитектуре витрин данных:

Комплексный подход Sybase к созданию ХД и ВД

В настоящее время компания Sybase считается одним из лидеров технологии хранилищ данных (ХД) - по данным различных исследовательских отчетов, она удерживает почти треть этого рынка. Хотя число производителей ПО для создания и эксплуатации ХД давно превысило второй десяток, подход Sybase к этому процессу представляет особый интерес из-за наличия полной линии собственных продуктов, реализующих все его этапы. Это как минимум гарантирует хорошую интеграцию их друг с другом, что существенно повышает надежность работы ХД (которое, как известно, для данных систем считается характеристикой наибольшего приоритета).

Более того, Sybase стала практически единственной компанией, выпустившей интегрированный комплект базовых программных продуктов для ХД под названием Warehouse Studio для решения всех задач, связанных с их созданием, управлением и развитием. Среди этих продуктов - высокопроизводительные оптимизированные сервера для хранения и управления бизнес-информации, связующее ПО для доступа к распределенным источникам данных, популярные средства разработки для построения лучших систем поддержки принятия решений.

Корпоративная архитектура ХД компании Sybase представляет собой интегрированный набор программных продуктов Sybase и ее партнеров, позволяющих быстро создавать масштабируемые приложения для DSS в рамках единой архитектуры, способной сохранить целостность и непротиворечивость данных, а также обеспечить свое развитие ХД в будущем.

Компонентная адаптивная архитектура

Компонентная адаптивная архитектура Sybase (ImpactNOW) обеспечивает наиболее широкие возможности по повторному использованию стандартных компонент, причем всех основных форматов объектов -- ActiveX, JavaBeans, CORBA. Кроме того, она позволяет использовать их на любой уровне: клиента, сервера баз данных, промежуточного слоя. Это обеспечивает быструю разработку приложений, их высокую производительность, расширяемость и надежность.

Методология SAFE/DW

Методология SAFE/DW предлагает ряд подходов, позволяющих ускорить процесс построения ХД. В частности, в рамках исследовательской стадии проекта она требует определить бизнес-цели, информационные запросы, определить критические для успеха факторы, разработать предварительную бизнес-модель. В рамках создания бизнес-модели требуется идентифицировать потоки данных, выявить относительную ценность данных, смакетировать потоки данных в логическую структуру объектов.

PowerDesigner -- семейство продуктов для проектирования корпоративных ВД

PowerDesigner (бывшее название S-Designor) базовый продукт Sybase для проектирования корпоративных информационных. Различные модули PowerDesigner, интегрированные между собой и объединенные системой групповой разработки MetaWorks, позволяют создавать функциональные диаграммы потоков данных в нотации различных методологий, создавать концептуальные и физические информационные модели, производить создание информационных моделей на основе уже имеющихся баз данных (обратное проектирование), создавать приложения для ряда популярных средств разработки.

PowerDesigner WarehouseArchitect -- специальный модуль для проектирования хранилищ данных, позволяющий проектировать многомерные информационные модели, модели типа "звезда" и поддерживающий генерацию баз данных как для Sybase IQ, так и для других СУБД. WarehouseArchitect поддерживает все уровни ХД с точки зрения моделирования данных, метаданных и импорта данных, а также содержит интерфейсы для подключения аналитических инструментов третьих фирм, которые являются неотъемлемой частью хранилищ данных.

Основные возможности WarehouseArchitect:

Многомерное моделирование является методом, помогающим проектировщику баз данных строить информационные структуры, удовлетворяющие запросам, выдвигаемым конечными пользователями. Цель пространственного моделирования состоит в том, чтобы предоставить хранилищам данных и инструментам управления запросами корректное определение БД, которое само может быть представлено для предметно-ориентированного моделирования информации. Для этого, информация может быть переопределена и представлена конечным пользователям различными способами, с различных точек зрения. WarehouseArchitect позволяет при многомерном моделировании использовать графические объекты, которые могут удерживаться и управляться словарем PowerDesigner MetaWorks:

Sybase Adaptive Server IQ

Согласно исследованиям Meta Group, около половины всех запросов пользователей хранилищ данных составляют незапланированные запросы. Когда пользователи ИС получают результаты аналитического запроса, то у них, во многих случаях, возникают дополнительные вопросы по полученной информации.

Sybase Adaptive Server IQ представляет собой специализированную СУБД для DSS. Ориентированный на стандартные многопроцессорные (SMP) платформы, она обеспечивает повышение производительность при обработке запросов в 10-100 раз, по сравнению с традиционными реляционными СУБД, сжимает размер базы данных, а также позволяет существенно сократить расходы на внедрение и эксплуатацию.

Ключевыми технологиями в Sybase IQ являются вертикальное хранение данных (по столбцам, а не по записям) и использование технологии обработки запросов Bit-Wise. Вертикальное хранение данных позволяет запросам использовать только необходимые поля или столбцы (наборы полей), значительно сокращая количество операций ввода/вывода при типичном пользовательском запросе. Шагом вперед по сравнению с традиционными алгоритмами индексирования, типа B-деревьев и индексов побитового отображения (bit-map), является технология индексирования Bit-Wise, которая позволяет представить все данные в виде особых бинарных структур, доступ к которым, а также операции группирования, суммирования и сравнения производятся с высокой скоростью. Набор специализированных алгоритмов индексации позволяет оптимизировать производительность обработки запросов для произвольных типов данных с любой мощностью (мощность - показатель количества одинаковых значений в одной колонке. Чем больше разных значений, тем больше мощность столбца. Примером, высокомощных данных является монотонно возрастающий уникальный столбец ID.

В отличие от алгоритмов побитового отображения данных, которые известны много лет, в Sybase IQ при обработке запроса могут применяться одновременно несколько индексов. В традиционной реляционной СУБД (даже с использованием индексов с побитовым отображением) обработка запроса ограничена рамками одного индекса, после которого обычно следует частичное сканирование таблицы. В Sybase IQ сканирование таблицы исключается. Нет принципиальной необходимости и в больших таблицах для хранения агрегированных данных, которые часто используются в традиционных параллельных или многомерных СУБД. Любые необходимые агрегаты могут быть получены в реальном времени. Поэтому в ВД имеет смысл хранить детальные данные, предоставляя пользователям большие возможности по получению необходимой им информации.

Sybase IQ построен на базе открытой архитектуры Sybase Open Client/Open Server, поэтому он является полностью совместимым с широким набором популярных продуктов для аналитических запросов, таких как Cognos Impromptu, Powerplay, Business Objects, Brio Query и многими другими инструментами через интерфейсы Sybase Open Client или ODBC, поддерживая стандартный язык запросов SQL.

В отличии от многих других СУБД, Sybase IQ работает с одинаковым быстродействием на информационных схемах "звезда", плоских таблицах или на нормализованных БД, в зависимости от того, какая информационная модель более пригодна для конкретной области деятельности. В силу того, что Sybase IQ обеспечивает автоматическую настройку, основываясь на характеристиках данных, нет необходимости в сложных моделях или постоянных настройках таблиц для новых запросов. Это особенно важно при итеративном проектировании и внедрении. Кроме того, существуют возможность параллельной загрузки и последовательного обновления данных. В результате, ХД или ВД на основе Sybase IQ может быть создана в весьма сжатые сроки.

В традиционной РСУБД, индексы и агрегаты в значительной степени увеличивают размер хранилища данных. Согласно исследованиям Sentry Market Research, проведенным в 1996 году, хранилища данных на 65%-75% заполнены агрегированными значениям, индексами и другими дополнительными структурами, которые существенно увеличивают размер базы данных по сравнению с исходными данными. Так, например, система с 50 Гбайт исходных данных превратится в несколько витрин данных, каждое из которых с объемом данных в несколько сотен гигабайт, что повлечет за собой значительные дополнительные расходы и сложности в администрировании. Размер сжатой базы данных в Sybase IQ будет занимать от 50% до 100% от размера "чистых" данных, что дает значительную экономию.

В случаях, когда отсутствует необходимость в уникальных качествах Sybase IQ, его место заменяет СУБД Sybase Adaptive Server Enterprise, признанная одной из наиболее высокопроизводительных в своем классе. Для настольных и мобильных ВД можно даже использовать "портативную" СУБД Sybase Adaptive Server Anywhere, которая может быть инсталлирована даже на карманном ПК типа Palm Pilot.

Семейство продуктов EnterpriseCONNECT

Любая корпоративная информационная система требует поддержания ВД в актуальном состоянии. Для некоторых приложений достаточно ежемесячных обновлений данных, для других требуется ежедневные обновления, либо обновления по событию. Принципиальным моментом здесь является обеспечение целостности обновлений. Кроме того, важно обеспечить возможность использования стандартных программ для "очистки" и необходимых преобразований данных между разными витринами данных. Таким образом, необходима архитектура перемещения данных, которая бы позволяла перемещать большой объем данных с соблюдением транзакционной целостности, обеспечивая при этом надежную устойчивую работу распределенной системы, а также давая возможность организовать доступ к различным источникам данных в рамках одной витрины данных или всего корпоративного хранилища данных.

Семейство программных продуктов EnterpriseCONNECT является одним из наиболее известных наборов технологий для управления движением данных в распределенных и разнородных средах.

Первым шагом в технологии ХД является обеспечение доступа к оперативным и архивным данным. С помощью сервера Sybase OmniCONNECT и набора модулей доступа для него обеспечивается одновременный доступ и извлечение данных из 25 различным источников, включая DB2, IMS, VSAM, Teradata и AS/400. Интересной особенностью здесь является то, что для пользователя вся работа происходит в единой логической БД.

После извлечения оперативных данных, они должны быть доставлены в конкретные ВД. В рамках технологии ХД этот процесс называется "захват измененных данных". Семейство программных продуктов Sybase Replication Server позволяет организовать перемещение данных как из архивных систем на мэйнфреймах, так и из систем в архитектуре клиент/сервер в ВД. Важно отметить, что при этом поддерживается тиражирование данных из разнородных источников, таких как DB2, IMS, IDMS, Oracle, Sybase и Lotus Notes. Используя открытый интерфейс к Replication Server, существует возможность поддержки репликации из произвольных источников данных. Применение технологии SQL Remote, обеспечивающей тиражирование данных по электронной почте, позволяет организовать обмен данным на уровне всего предприятия, начиная с мэйнфреймов и заканчивая ПК-блокнотами. В основе технологии тиражирования данных Sybase лежит идея чтения завершенных транзакций из журнала транзакций, что позволяет минимизировать нагрузку на работающую систему. После этого транзакции попадают в Replication Server, который может находиться на отдельной машине и работать под отличной от СУБД-источника операционной системой. В случае если линия связи недоступна, транзакции хранятся в очереди. При появлении связи, тиражирование автоматически восстанавливается, причем гарантируется целостная доставка транзакций в хранилище или витрину данных, при этом тиражирование данных производится асинхронно. Replication Server поддерживает как инкрементальное тиражирование данных, так и тиражирование данных по событию. Таким образом, при необходимости, можно организовать непрерывное передачу завершенных транзакций из оперативной базы данных в хранилище данных.

Во многих случаях полезно иметь несколько витрин данных с одинаковыми схемами баз данных, что требует симметричного тиражирования данных. Однако в других случаях витрины данных будут обмениваться элементами данных, отличающимися по структуре.

Replication Server поддерживает модель "подписки" на данные. После того, как Replication Server получил данные, на которые он подписан, существует возможность программирования произвольной логики для модификации и преобразования этих данных. Поэтому схема базы данных - приемника может быть полностью идентична базе данных - источнику, может слегка отличаться, либо может быть совершенно другой.

Кроме того, существует возможность маршрутизации потоков транзакций между несколькими Replication Server. Большое число ХД и ВД использует собственные программы преобразования данных. В других системах используются программные продукты Carleton, Prism, Informatica или других поставщиков. Replication Server позволяет подключать произвольные программ преобразования данных, обеспечивая тем самым законченное решение для перемещения и "очистки" данных. В рамках партнерской программы Sybase Warehouse WORKS, в которой участвуют более 70 компаний, Sybase расширяет рамки своей технологии продуктами третьих фирм для преобразования, получения, проектирования и управления данными в хранилищах данных. В частности, программные инструменты Carleton PASSPORT позволяют автоматизировать процесс проектирования, преобразования и извлечения данных из мэйнфремов. На выходе получается файл, готовый для загрузки в Sybase IQ. Набор программных продуктов Informatica PowerMart, построенные в архитектуре клиент/сервер, позволяют проектировать, преобразовывать и обновлять данные из реляционных СУБД. Технология PowerMart может быть интегрирована непосредственно в Replication Server, используя при этом динамическое преобразование данных.

Кроме того, сбор данных возможен и более простыми способами: через ODBC-интерфейс, путем извлечения их из текстовых файлов и некоторых структурированных файлов (например, файлов формата dBASE).

PowerStage - инструмент загрузки данных в ХД

В процессе загрузки данных в ХД решаются три взаимосвязанные задачи: сбор данных, их очистка, агрегирование. Сбор данных состоит в организации передачи данных из внешних источников в ХД. Очистка данных - это процесс модификации данных по ходу заполнения ХД, который состоит из следующих последовательных этапов:

Компания Sybase предлагает свой продукт PowerStage (разработанный на базе ПО DataStage компании VMARK), упрощающий извлечение, очистку, трансформацию и агрегирование данных. Он специально оптимизирован для работы с Sybase IQ.

Dynamic OLAP - новая архитектура для DSS

Dynamic OLAP - это новая архитектура для DSS, предложенная Sybase Inc. Она базируется на контроле со стороны конечного пользователя процессов построения и разделения аналитических моделей в масштабируемой среде ХД. Dynamic OLAP объединяет гибкость и простоту "табличного" похода с масштабируемостью РСУБД. В отличие от традиционного подхода OLAP, требующего нескольких месяцев для реализации, Dynamic OLAP обеспечивает построение сложных аналитических систем в считанные дни. Для реализации Dynamic OLAP компания Sybase предлагает PowerDimensions, пространственную среду бизнес- моделирования. Последняя содержит развитые аналитические функции: финансового, статистического, логического анализа, расчета временных рядов и прочие математические отношения, которые являются неотъемлемыми атрибутами при построении аналитической модели.

PowerDimensions - это фактически аналитический подход, рожденный из катастрофического сокращения времени, отпущенного на принятие решения. Единственно возможный выход - дать аналитикам контроль над процессом моделирования. Сочетание такого контроля со стороны аналитика с контролем информационного подразделения за ХД, основанным на других технологических решениях Sybase, обеспечивает сохранение целостности информации, но не за счет производительности конечного пользователя. Сервер PowerDimensions может легко интегрируется в существующую инфраструктуру и показывает в сочетании с Sybase IQ рекордную в отрасли производительность.

Рис. 1

Матрица технологий Sybase для создания ХД и ВД

Категория Технология Sybase
Проектирование, разработка PowerDesigner - интегрированный набор средств проектирования;
Сбор данных Семейство программных технологий Sybase EnterpriseCONNECT, в том числе Replication Server, Replication Agents, OmniCONNECT;
Загрузка данных в хранилище PowerStage - автоматизация выборки, очистки, трансформации данных из разнородных оперативных БД;
Adaptive Server Enterprise - СУБД масштаба предприятия;
Adaptive Server Anywhere - CУБД масштаба департамента
Витрины данных Adaptive Server IQ - Оптимизированная СУБД для хранилищ и витрин данных;
Анализ данных, построение модели бизнеса PowerDimensions - пространственная среда моделирования модели бизнеса;
Администрирование, управление мета данными Warehouse Control Center, Carleton Passport, Informatica PowerMart, Intellidex MetaCenter, Prism Warehouse Manager и другие;
Методология SAFE/DW, учебные курсы по технологиям хранилищ данных и витрин данных;

Быстрое создание ХД для Windows NT

Не стоит думать, что ХД можно построить только на дорогостоящей Unix-платформе. Для упрощенного старта проекта Sybase разработала интегрированный пакет программ QuickStart DataMart for Windows NT, основанный на Sybase IQ 11.5. QuickStart DataMart содержит все программные компоненты, необходимые для построения законченных витрин данных, включая средства проектирования, трансформации и перемещения данных, БД, инструменты анализа и администрирования. Версия QuickStart DataMart для Windows NT включает PowerStage, упрощащий извлечение, очистку и трансформацию данных именно в среде Windows NT. По оценкам Sybase, с помощью него можно разработать ХД в течение всего трех месяцев.

Пакет QuickStart ReportMart for Windows NT, предназначен для построения витрин данных, содержащих данные работающих систем OLTP, для построения сложных аналитических запросов и отчетов. Он содержит Sybase IQ 11.5, а также Replication Agent и Replication Server.

Внедрение ВД в корпорации MCI

К настоящему времени ХД и ВД на базе технологий Sybase внедрены в десятках организаций: MCI, Chase Manhattan, American Airlines, AT&T Wireless Services и др.

В качестве довольно наглядного примера можно рассмотреть реализации архитектуры ВД Sybase в американской телекоммуникационной корпорации MCI, клиенты которой ежедневно генерируют миллионы транзакций. Задача состояла в том, чтобы использовать эту информацию с помощью многочисленных прикладных систем для создания новых услуг, анализа ценовой политики, стратегического и тактического планирования и телемаркетинговой службы, ориентируясь при этом на разные группы пользователей (например, физические лица, небольшие компании или крупные корпорации).

В идеале, для решения такой задачи подходит централизованное хранилище данных. Однако, в реальности, в условиях, когда различные подразделения компании быстро создают и развивают собственные приложения, такая система была бы неэффективной. На сегодняшний день в MCI работает как минимум три самостоятельных ВД, объем одной из которых более 100 гигабайт. Ими управляет Sybase SQL Server 11 (это старое название СУБД Adaptive Server Enterprise) в сочетании с Sybase IQ на платформе SPARCsever 2000, при этом исходные данные хранятся на мэйнфрейме. В настоящее время эти ВД активно используются в службе телемаркетинга, отделе планирования и подразделении обслуживания клиентов. После их внедрения срок выполнения аналитических процессов сократился с нескольких недель до нескольких часов.

Кроме того, в MCI существует проект создания большого централизованного ХД для обработки транзакций, которое будет использоваться, в том числе и для обеспечения "общей" информацией ВД. В виду того, что каждая ВД имеет различный набор задач и требований, она спроектирована индивидуально и использует собственные внешние источники данных. Эти ВД были внедрены значительно быстрее и обошлись гораздо дешевле, чем создание централизованного ХД.

В России возможность внедрения ХД на базе Sybase IQ рассматривает Транспортная Клиринговая Палата, выполняющая функции координации и проведения расчетов за авиаперевозки (в ее работе участвуют более 200 перевозчиков из СНГ). Основная задача этого проекта -- прогноз, выявление тенденций и выработка рекомендаций по улучшению обслуживания пассажиров.

Литература

1) http://www.sybase.com/datawarehousing/