Большим данным — большая аналитика
Автор: Сергей Костяков, "Intelligent Enterprise" (№1, 2012)
Если говорить о тенденциях 2011 г. области BI, то наверное не надо быть глубоким стратегом, сказав, что фактором, в наибольшей степени оказавшим влияние на развитие данного направления в корпоративном секторе, стала концепция «больших данных». Суть этой концепции в течении 2011 г. была многократно описана, как в отечественной, так и в зарубежной прессе. Что же касается отклика на эти события в пространстве бизнес-аналитики, то он имеет место одновременно по двум векторам — повышению скорости обработки больших массивов информации и формированию новых алгоритмов преобразования данных самых различных форматов — как по отдельности, так и в комбинации друг с другом.
Аналитические машины, и не только
Одним из флагманских направлений повышения производительности аналитической обработки в 2011 г., безусловно, стало развитие направления Data Appliances, в котором приняли участие большинство крупных игроков корпоративного рынка. В том числе и те, для кого оно оказалось новым. В середине 2010 г. SAP (в партнерстве с рядом вендоров hardware-hitybq) представила свой вариант Data Appliances под названием Hana, который компания небезуспешно продвигала на рынок весь последующий год. В июле 2010 г. компания EMC приобретает производителя средств хранилищ данных Greenplum, и через год, к середине 2011 г., это приобретение материализуется в образе нового устройства — Greenplum Analytics Appliance, функционирующего на основе программных разработок приобретенной компании. IBM за год после приобретения производителя программно-аппаратного решения в области аналитической обработки данных Nettaza тоже существенно продвинулась в направлении его дальнейшего развития, выпустив соответственно в июне 2011 г. новую версию IBM Netezza High Capacity Appliance. Наконец нельзя не упомянуть о мощной машине аналитических вычислений Exalytics, которую компания Oracle представила в октябре 2011 года. Напомним, что история всех упомянутых выше инициатив не превышает полутора-двух лет, и, пожалуй, именно за последние полгода они по-настоящему обретают промышленные масштабы, адекватные решению задач категории Big Data.
С другой стороны, констатация подобных тенденций, сопряженных с появлением отнюдь не дешевых и не предназначенных для массового рынка решений, могла бы оказаться интересной лишь для очень ограниченного числа крупных предприятий, если бы не одно обстоятельство. Дело в том, что подобные решения интересны не только собственной архитектурой — их использование на практике, а главное, маркетинговый напор, сопровождающий их продвижение на рынок, способны потянуть за собой целый слой аналитических систем и функций, новых даже для зарубежного рынка, не говоря уже о российском.
Речь идет, например, о проекте Apache Hadoop, предусматривающем развитие распределенной архитектуры вычислений (а значит, и достижение необходимого уровня производительности за счет масштабирования), а также возможностей обработки очень больших массивов структурированной, полу- и неструктурированной информации. Именно такие задачи как раз и стоят в тех случаях, когда мы говорим о работе с «большими данными». Возвращаясь к сказанному ранее, отметим, что Hadoop явным образом поддерживают и EMC GreenPlum Analytics Appliance и Oracle Exalytics, и компаний IBM через свои продукты Infosphere BigInsight или Cognos Customer Insight.
Проект Hadoop, в свою очередь, также интересен не только сам по себе, а еще и в связи с тем, что является частью довольно мощного направления развития аналитических инструментов класса open source, который заслуживает отдельного рассмотрения. По прогнозу Gartner, сделанному в прошлом году, в 2012 г. объем использования BI-инструментов категории Open Source в бизнесе должен увеличиться пятикратно! Это по меньшей мере должно сделать рынок BI более конкурентным, как за счет существенного возрастания числа игроков на нем, так и за счет увеличения гибкости предлагаемого функционала. О решениях таких компаний, как JasperSoft, Pentaho, Actuate или Birst, пока в России вряд ли даже кто-то слышал, хотя по крайней мере на американском рынке многие из них уже почти на равных начитают конкурировать к признанными грандами мира BI — SAP, Oracle, IBM, SAS, Information Builders или MicroStrategy.
Возвращаясь к вопросам производительности аналитики, отметим еще одно «горячее» направление под названием in-memory computing. Согласно Gartner, в 2012 г. 79% организаций списка Global 1000 будут использовать эту концепцию в качестве основанного средства оптимизации производительности своих BI-приложений. Сама идея поднятия производительности за счет задействования самого ресурса хранения информации — оперативной памяти, довольно тривиальна и, разумеется, далеко не нова. Однако именно сейчас по совокупности причин она стала еще и эффективно реализуемой. Тут сыграли роль и падение цен на модули оперативной памяти, и распространение 64-разрядной архитектуры (32-разрядная просто не «видела» ничего за пределами 4 Гбайт), и все более популярная замена традиционных дисковых накопителей на более быстрые флеш-диски. Имеет значение и возрастающая зрелость коммерческих СУБД с архитектурой, рассчитанной на хранение данных по колонкам (columnar databases), в противовес традиционному принципу хранения их порядно. Среди производителей тут можно отметить уже упоминавшуюся GreenPlum, а также Vertica, Asterdata или Sybase.
Аналитика в образах
Явно заслуживающий внимание тренд последнего времени в сфере BI — более вдумчивое отношение к вопросам визуализации данных. Постепенно даже сформировался новый термин — Visual Data Mining. Стимулом к подобной тенденции служит все то же стремление решить проблему оперативной обработки больших данных. Средства визуализации здесь очень важны, хотя бы в силу количества исходной информации. Именно визуальный анализ в подобных случаях может наталкивать бизнес-аналитика на мысли о проверке ряда побочных трендов, которые могут быть обнаружены при анализе действительно больших объемов информации. Дело в том, что, не имея дела с такими внушительными массивами, подобные «вторичные» тренды могли представать перед аналитиками лишь в виде определенных «точек выброса» и никогда не проверяться априори.
Совершенствование технологий визуализации фактически превращается в некую дисциплину прикладных научных исследований, результаты которой мгновенно пытаются превратить в жизнь. Интересно, что попутно опровергаются некоторые традиционные постулаты о способах представления корпоративных данных, или, наоборот, открываются новые зависимости. Так, например, в последнее время поставлен под серьезное сомнение тезис о полезности применения трехмерных диаграмм. Зато крайней полезной при обработке Big Data признается анимационная или интерактивная графика с возможностью сохранения данных свойств в условиях коллективной работы.
На волне «новой визуализации» уже выросли вполне респектабельные коммерческие компании, ныне с полным правом занимающие свои ниши на рынке BI. Такова, например, Tableau Technology. Примечательны в этом смысле функции, предоставляемые, например, Tibco SpotFire, или достижения некоммерческого проекта Gapminder.org.
Технологии ближайшего окружения
Пожалуй, есть еще одно следствие влияния проблематики Big Data на развитие технологий аналитических приложений. Это своего рода сближение двух традиционных классов корпоративных приложений — Business Intelligence и Enterprise Information Integration (EAI). больших данных более тесно, чем в традиционных сценариях, связана с загрузкой и преобразованием данных из различных источников, а стало быть, со средствами ETL, Data Cleansing или Master Data Management, традиционно скорее относящиеся к разряду интеграционных компонент. Однако в сценариях, характерных для Big Data c BI, эти направления оказываются ассоциированными куда сильнее.
Преимущество здесь имеют скорее «классические» поставщики BI-инструментов, — особенно наиболее крупные и известные игроки на рынке корпоративных систем, в арсенале которых богатейшая гамма предложений прикладной программной инфраструктуры. Впрочем, не очень отстают от них и давно присутствующие на рынке специализированные поставщики BI-систем. Среди этих компаний можно назвать, например, Information Builders, которая в текущем году явно отметилась и на российском рынке. Да и упомянутые open source аналитические системы в этом смысле тоже пытаются не отставать. В частности, Hadoop некоторые специалисты рассматривают прежде всего как ETL-средство, и лишь затем как BI-платформу.
Еще одно свидетельство своего рода генерализации направления бизнес-аналитики — направление collaborative decision making (CDM), истоки возникновения которого кроются в потенциально низком КПД, который, по свидетельствам многих аналитиков рынка корпоративных ИТ-систем, получается у бизнеса в результате крайне неэффективного выстраивания и выполнения процессов принятия решений. Как следствие, бизнес-результат очень часто оказывается значительно ниже ожидаемого, притом что сама информация, подготовленная непосредственно с помощью BI-инструмента, как раз бывает весьма ценной и своевременно полученной. Эксперты отмечают, что пока «чистого» рынка CDW-решений не сформировалось. Поиск находится где-то между BPM и BI, хотя не является их аддитивной суммой.
Наконец, хотелось бы сказать несколько слов о традиционном рынке BI, на котором за последний год, пожалуй, не появилось никаких принципиально новых направлений. Пожалуй, даже наоборот, вчерашние инновации постепенно становятся неким мейнстримом. Кроме тех направлений, о которых мы сказали выше, среди часто упоминаемых можно, наверное, назвать лишь мобильную аналитику и аналитику социальных медиа (Social Media Analytics). Надо сказать, что, по коллективному мнению экспертов (при внимательном изучении потока публикаций трудно его не заметить), мобильная аналитика на практике пока не слишком оправдывает технологические и маркетинговые усилия разработчиков. Что касается аналитики социальных медиа, ее назвать новой дисциплиной тоже можно весьма условно. По сути, это одна из прикладных реализаций текстовой аналитики, которая уже развивается на протяжении длительного времени.
|