«Большие данные»: как из мухи делают слона
Автор: Василий Здобнов
Источник: iBusiness.ru
Аналитики и менеджеры запутались в мифе о «больших данных», называя этим термином совершенно разные вещи. Что же он означает на самом деле?
«Большие данные», о необходимости которых все время говорили аналитики, стали фикцией. Такой вывод можно сделать, сопоставив сентябрьские отчеты PwC и Accenture на эту тему. Представители бизнеса плохо понимают, что такое «большие данные»: каждый называет этим термином что-то свое. В прошлогодней статье The Washington Post утверждалось, что этот термин вообще не означает ничего определенного; если принять эту версию, он не имеет смысла.
Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое. По типичному пресс-релизу «Компания N внедрила решение Big Data» невозможно понять, о какой системе идет речь, как она работает и в чем ее польза. В результате этот сегмент рынка не производит впечатление устойчивого и надежного.
Рассуждая о «больших данных», аналитики PwC дают им странное определение: это «новая волна электронной информации, получаемой в большом объеме из растущего количества источников (т.е. не просто данные, собранные отдельной организацией в ходе своей обычной деятельности)» — «the recent wave of electronic information produced in greater volume by a growing number of sources (i.e., not just data collected by a particular organisation in the course of normal business)».
ИТ-специалисты и маркетологи сразу заметят, что это определение ведет к путанице, неверным ответам респондентов на вопросы аналитиков и ошибочным решениям в бизнесе. Конечно же, данные, собираемые из фиксированного количества источников одной организацией в ходе своей обычной деятельности, тоже бывают «большими». В том же отчете PwC приведен пример: оператор собрал данные о 25 млн. своих клиентов (очевидно, речь идет о статистике сеансов связи) и сделал бесхитростный вывод, что сеть нового поколения (4G) выгоднее всего строить вдоль главных транспортных магистралей.
Аналитики Accenture не решились дать в отчете свое определение, а лишь отметили, что «у многих компаний есть разные определения больших данных». Зато они привели результаты опроса 1007 специалистов, использующих эти данные на практике. Респонденты с сильным сомнением отнесли к «большим» данные следующих категорий (или из следующих источников):
- Файлы объемом более 20 терабайт (так считают 65% респондентов).
- Углубленная аналитика или анализ (60%).
- Данные от программ визуализации (50%).
- Данные из социальных сетей (48%).
- Неструктурированные данные (видео, открытый текст, звукозапись) (43%).
- Геолокационные данные (38%).
- Социальные медиа / мониторинг / преобразование (37%).
- Телематика (34%).
- Неструктурированные данные / логи / произвольный текст (25%).
Ответы респондентов на вопрос: «Что из перечисленного вы считаете частью больших данных (независимо от использования этого в вашей компании)?»
Источник: Accenture, сентябрь 2014
|
Эта бессистемная классификация напоминает знаменитую «китайскую классификацию животных» Борхеса. Впрочем, главное в ней — это признание того факта, что к «большим данным» относятся обычные информационные объекты, с которыми люди работали (создавали, изучали, систематизировали, использовали в бизнесе) задолго до появления компьютеров: книги, служебные документы, фотографии и так далее. Ничего сложного.
Ниже я дам правильное определение «больших данных», а пока — несколько слов о происхождении этого термина и его применении в ИТ-индустрии. Он возник в научной среде как неопределенный образ, означающий, по мнению некоторых авторов, просто «ценную исследовательскую информацию» («research data can also be big by being of lasting significance»). Вскоре его заметили маркетологи, решив, что он поможет увеличить продажи. Например, продажи компьютеров.
Представьте, что вы выпускаете хорошие компьютеры. Они надежны и годами работают в дата-центрах клиентов. Те довольны и не хотят покупать новые. Зачем, если старые отлично работают, решая все задачи бизнеса?
В такой ситуации полезно подкинуть клиентам новые задачи. Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи. Но для этого нужны особые компьютеры, которые непременно должны работать в кластерах, то есть распределять одну задачу на 10, а лучше на 100 системных блоков, одновременно выполняющих вычисления. Поэтому их надо покупать в большом количестве, заполняя длинные ряды серверных стоек.
У системных администраторов есть шуточное определение «больших данных»: «Если на одном сервере не умещаются, значит большие». В этой шутке есть доля истины: термин часто ассоциируется с распределенными вычислениями. Многие вендоры продают в качестве готовых решений для «больших данных» серверы с пакетом программ «Хадуп» (Hadoop) или подобным. Считается, что он упростит клиенту программирование для распределения своей задачи на несколько системных блоков. В остальном это просто серверы: обычная конфигурация включает корпус со сдвоенным блоком питания, системную плату с CPU и модулями памяти, HDD и Linux в придачу.
Распределенные вычисления — это не отличительный признак «больших данных». И, конечно, этим признаком не является «Хадуп», тем более что он рассчитан только на узкий класс задач. Остальные, не укладывающиеся в его парадигму, требуют принципиально других решений.
Есть много способов повысить эффективность бизнеса с помощью анализа собранных данных на одном компьютере, безо всяких распределенных вычислений. Вспомните: статистические данные успешно анализировали и 20, и 30 лет назад — а в то время «сервер корпоративного уровня» за сотни тысяч долларов сильно уступал современному бытовому компьютеру.
Итак, что такое «большие данные»? Их отличительный признак — это непригодность (или неэффективность) типового решения для получения из них нужного результата. Специалисты называют «большим» массив или поток информации, если его структура, объем или иные особенности не позволяют решить конкретную задачу по его обработке с помощью стандартных, общепризнанных, проверенных временем технологий. В таких случаях приходится искать нестандартные, уникальные решения или менять постановку задачи.
Один и тот же массив данных (скажем, статистика покупок в сети магазинов за квартал) может быть «большим» для одной задачи (точного прогнозирования спроса на следующий квартал) и «маленьким» для другой (подсчета квартальной выручки). Понятие «больших данных» вне контекста определенной задачи обычно не имеет смысла.
Приведу наглядный пример. В городе Пуэрто-Сомбра завелся маньяк, убивающий старушек. Мэр распорядился развесить на улицах 100 видеокамер, круглосуточно снимающих все вокруг. У сыщика есть 100 видеозаписей продолжительностью 7 суток каждая. Задача: автоматически сопоставляя записи, вычислить маньяка. Время дорого: один день — одна старушка.
В данном случае относительно большой объем данных — это не главное. Гораздо важнее, что задача крайне сложна математически. Для ее решения нужен прежде всего хороший алгоритм распознавания объектов (точнее, субъектов) в информационном потоке, присвоения им идентификаторов и составления карты всех перемещений по городу. Кто-то должен придумать этот алгоритм и написать по нему хороший код. Если код будет «кривым», неэффективным, то решение задачи займет в десятки, сотни или даже тысячи раз больше времени.
Наш сыщик плохо ориентируется в рынке ПО? Тогда он должен первым делом обратиться за консультацией к системному интегратору. Не исключено, что нужное ПО уже существует и остается лишь адаптировать его для решения конкретной задачи. Это гораздо быстрее и дешевле, чем написать аналогичное ПО с нуля. Именно на этой стадии выяснится, являются ли данные «большими» по состоянию на данный момент. Если есть готовое типовое решение, то о «больших данных» говорить не приходится: надо просто купить или взять в аренду (SaaS) соответствующую систему, ввести в нее данные и получить результат.
Указанный тип задачи хорошо подходит для распределения на 100 системных блоков. Если для анализа каждой видеозаписи выделить отдельный компьютер, то результат будет получен примерно в 100 раз быстрее, чем при последовательном анализе всех записей на одном компьютере такой же мощности.
Если готового ПО нет и приходится придумывать алгоритм, писать код, а затем проводить параллельные вычисления на 100 компьютерах одновременно, то перед нами классический пример работы с «большими данными».
Сравните с другой ситуацией: никакого маньяка нет, а видеозаписи надо лишь упорядочить на сайте мэра, чтобы показать идиллию на улицах Пуэрто-Сомбра. Данные остаются теми же самыми, но теперь они уже не могут считаться «большими». Это типовая задача, для нее есть готовые решения, и с ней справится любой местный студент-программист с бытовым компьютером за 200 тысяч песо.
Многие компании нуждаются в анализе коммерчески ценной информации. Но они, следуя моде на облака, давно отдали свою ИТ-инфраструктуру внешним подрядчикам, лишившись важного элемента современного бизнеса — человеческого капитала в сфере ИТ. Теперь у них нет никого, кто мог бы оценивать текущие задачи и сопоставлять их с возможностями доступных на данный момент информационных технологий.
В результате случаются анекдотические ситуации: возомнив себя знатоком, директор решает выделить большой бюджет на «большие данные», хотя на самом деле его компания нуждается лишь в простейшей доработке реляционной базы данных с переносом на новый сервер. Или наоборот, сложнейшая проблема, требующая создания уникального алгоритма и длинного кода, кажется руководителю простой; он поручает ее одному сотруднику и через неделю злится, что ничего не получается.
Говоря чуть ли не о жизненной необходимости модных «больших данных», многие менеджеры и аналитики на самом деле имеют в виду всего лишь бизнес-аналитику. Так называют сочетания данных и задач, для которых существуют стандартные решения — в том числе в форме серийно выпускаемых программных продуктов.
Посмотрите на диаграмму. Мнения респондентов о «больших данных» в основном восторженные. 89% считают, что по революционному воздействию на бизнес «большие данные» сопоставимы с интернетом. 79% считают, что компании, не использующие их, ослабнут или вовсе разорятся. Судя по всему, респонденты имеют в виду не распределенные вычисления и не индивидуальное создание кода для каждого случая бизнес-аналитики, а очевидное утверждение: «Для успеха в бизнесе надо анализировать доступную информацию и делать верные выводы».
Мнения респондентов о важности «больших данных» для бизнеса
Источник: Accenture, сентябрь 2014
|
Ваша компания теряет конкурентоспособность из-за растущих объемов данных? Не тратьте деньги на специализированные серверы и модные программы. Вместо этого обратитесь за консультацией к экспертам. Они правильно сформулируют и классифицируют ваши задачи, подберут готовые решения для одних и огорчат их отсутствием для других. Только потом можно будет думать о «железе» и «софте». Обратите внимание: на первой стадии любого проекта надо платить экспертам не за решение задач, а за их независимую оценку и правильную формулировку.
|