ТЕНДЕНЦИИ \| Big Data	20 мая 2016 г.

Как большие данные готовы преобразовать бизнес

Источник: Rusbase

Продолжение аналитической статьи (см. Часть I) Кеннета Кукьера (Kenneth Cukier), редактора The Economist, специалиста по big data, соавтора книги «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» (Big Data: A Revolution That Will Transform How We Live, Work, and Think).

Смысл больших данных в том, что мы можем делать нечто новое. Один из наиболее перспективных способов использования лежит в сфере «машинного обучения». Идея, попросту говоря, заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда. По сути, это способ заставить компьютер делать что-то не путем конкретных указаний к действию, а так, чтобы машина сама разбиралась в том, что ей нужно делать, на основании огромного объема информации.

Эта область довольно молода. Несмотря на то что сама задумка появилась в 1950-х годах, такой метод плохо работал на практике. Поэтому был сделан вывод о его несостоятельности. Однако всего лишь за последнее десятилетие произошла интеллектуальная и техническая революция, когда с помощью этого метода исследователи достигли больших результатов. Чего не доставало ранее, так это объема данных. Сейчас, когда их достаточно, метод заработал. Сегодня машинное обучение лежит в основе всего, в том числе в основе поисковых систем, предоставляемых в онлайн-режиме рекомендаций по выбору продуктов, компьютерного перевода с одного языка на другой, распознавания голоса и многого другого.

История машинного обучения

Чтобы понять суть машинного обучения, полезно знать, как появилась такая концепция. В 1950-х годах программист компании IBM Артур Самуэль написал компьютерную программу для игры в шашки. Но игра получилась не очень интересной. Он выигрывал, потому что машина знала только разрешенные ходы. Артур Самуэль знал стратегию. Поэтому он написал умную подпрограмму, которая при каждом ходе оценивала вероятность того, что полученная конфигурация приведет к выигрышу, а не к проигрышу. И вновь партия между человеком и машиной не удалась — система была слишком незрелой. Но потом Самуэль оставил машину играть самостоятельно. Играя сама с собой, она собирала больше данных. Собирая больше данных, она делала более точные предсказания. Артур Самуэль снова сыграл с компьютером — и проиграл. И снова проиграл. Человек создал машину, превзошедшую его способности в выполнении задачи, которой он эту машину научил.

А как мы пришли к самоуправляемым автомобилям? Индустрия программного обеспечения научилась лучше кодировать правила дорожного движения? Нет. Увеличилась компьютерная память? Нет. Появились более быстрые процессоры? Нет. Дело в более умных алгоритмах? Нет. В более дешевых микросхемах? Нет. Все это способствовало развитию процесса. Но что действительно сделало возможной такую инновацию, это изменение компьютерщиками самой сути проблемы.

Ее обратили в проблему данных вместо обучения машины езде, что сделать очень трудно. Мир сложен — и автомобиль собирает все данные из окружающей его действительности, пытаясь разобраться в них. Он понимает, что впереди светофор, что горит красный, а не зеленый свет, и это значит, что следует остановиться. Автомобиль может делать тысячу предсказаний в секунду. Результат — возможность самоуправления. Больше данных не значит лишь увеличение объема. Больше данных порождает нечто иное.

Идея машинного обучения привела к обнаружению шокирующих результатов, которые, кажется, ниспровергают идею превосходства человека как источника разумного осмысления в этом мире.

Компьютер совершил прорыв в медицине

В ходе проведенного в 2011 году исследования специалисты Стэнфордского университета загрузили в алгоритм машинного обучения тысячи образцов раковых клеток молочной железы и данные о проценте выживания пациентов и попросили компьютер выявить характерные признаки, с наибольшей вероятностью предсказывающие тяжелый злокачественный характер конкретной биопсии. Компьютер смог найти 11 признаков, которые с наибольшей вероятностью предсказывают тяжелый злокачественный характер клеток молочной железы. В чем соль? Из медицинской литературы известны только восемь таких признаков. О трех из найденных признаков патологи не знали и не искали их.

Опять же в этом случае исследователи не говорили компьютеру, что анализировать. Они просто дали ему образцы клеток, их общие характеристики и данные о выживании пациентов (этот прожил еще 15 лет, тот умер через 11 месяцев…). Компьютер обнаружил очевидное. Но он также заметил и неочевидные вещи: признаки болезни, которых не видели люди, потому что человеческому глазу это не под силу. Однако эти признаки были выявлены благодаря некоторому алгоритму. Машинное обучение достигает успешных результатов, потому что компьютеру предоставляют большие объемы данных — больше информации, чем человек может переработать за всю жизнь или мгновенно запомнить. Однако в данном случае компьютер превзошел человека. Он заметил такие признаки, которые не увидели специалисты. Это позволяет ставить более точные диагнозы. А поскольку это компьютер, он может делать такие вещи в требуемом масштабе. Итак, «больше» для больших данных — это не просто больше, это еще и «лучше».

Почему это важно?

Только подумайте: применяя данный подход в требуемом масштабе, мы сможем анализировать материал биопсии раз в день, каждый день, для каждого человека — вместо одного или нескольких раз за жизнь. Благодаря этому мы сможем определить, как выглядит рак на самых ранних стадиях, с тем чтобы его можно было лечить самыми простыми, самыми эффективными и наименее дорогими способами, от чего выиграют пациенты, общество и бюджет государственной системы здравоохранения, из которого такое лечение оплачивается.

Что в этом нового?

Не забывайте, что компьютер не просто повысил точность диагностики за счет добавления новых признаков. Фактически он также сделал научное открытие. (В данном случае ранее неизвестные три признака тяжелой степени рака представляли собой отношения между клетками в клеточном материале под названием строма, а не просто характерные особенности самих клеток.) Компьютер обнаружил нечто, что ускользнуло от людей и что продвигает человеческую мысль вперед.

Что значит иметь больше данных?

Убедительный пример приводит Манолис Келлис (Manolis Kellis), исследователь-генетик из Института Брода в Кембридже. Как отмечается в докладе Белого дома, «Большое количество генетических данных имеет решающее значение при выявлении значимого для заболевания варианта гена. В данном исследовании связанная с шизофренией аллель не выявлялась при анализе 3500 случаев, а начала лишь слабо прослеживаться при анализе 10000 случаев и внезапно оказалась статистически значимой при анализе 35000 случаев». Вот как объяснил это Келлис: «Существует точка перелома, в которой все меняется».

Медицина являет собой еще один убедительный пример того, как большие данные готовы преобразовать бизнес. Сфера здравоохранения представляет множество примеров, так как уже накопила огромное количество данных, однако она серьезно отстает в плане их использования в соответствии с громадным потенциалом.

Обратимся к проблеме выявления нежелательного взаимодействия лекарственных веществ — в случае, когда человек принимает два разных препарата, которые по отдельности безопасны и эффективны, но в сочетании дают опасный побочный эффект. При условии наличия на рынке десятков тысяч препаратов, эту проблему сложно решить из-за невозможности протестировать одновременный прием всех препаратов. В 2013 году исследовательское подразделение компании Microsoft и несколько американских университетов придумали оригинальный способ выявления подобных случаев: путем анализа поисковых запросов.

Как большие данные готовы преобразовать бизнес. Пример из медицины

Исследователи составили список из 80 терминов, связанных с симптомами общеизвестного заболевания — гипергликемии (такими как «высокий уровень сахара в крови» или «помутнение зрения»). После этого они анализировали следующее: искали ли пользователи один препарат пароксетин (антидепрессант) и/или другой препарат, правастатин (снижающий уровень холестерина). Проанализировав 82 миллиона поисковых запросов, выполненных за несколько месяцев 2010 года, ученые напали на след.

Поиски только симптомов, без того или иного препарата, составляли исключительно малое количество запросов — менее 1%, как «фоновый шум». Поиски симптомов и только одного из препаратов составили 4% запросов, поиски симптомов и другого препарата — 5%. А поиски симптомов и обоих препаратов составили целых 10% запросов. Другими словами, люди более чем с удвоенной вероятностью вводили в поисковую систему определенные медицинские симптомы, если при этом они искали оба препарата, а не один из двух.

Это серьезный результат. Но он не является неопровержимым доказательством. И не дает права полиции ворваться в дома топ-менеджеров фармацевтических компаний и увозить их в отделение. Это всего лишь соотношение, которое ничего не говорит о причинах. Тем не менее подобные результаты имеют глубокий смысл и большое значение для бизнеса и отрасли. Раньше о таком нежелательном взаимодействии лекарственных веществ не знали, о нем ничего не писали в инструкции по применению. Оно не включалось в рамки клинических исследований или в процесс одобрения препарата к применению. Оно обнаружилось при анализе старых поисковых запросов — опять же в количестве аж 82 миллионов.

Значение данных

Значение этих данных огромно. Если вы пациент, вам следует знать эту информацию. Если вы врач, вы тоже захотите ее иметь. Если вы медицинский страховщик, вы еще больше хотите ее получить. А если вы инспектор по контролю лекарственных средств, вы однозначно желаете владеть этими данными. Если же вы представляете компанию Microsoft, возможно, вам следует подумать о создании подразделения по лицензированию данных как о способе организации нового потока доходов, вместо того чтобы просто зарабатывать на рекламе, появляющейся рядом с результатами поисковых запросов.

Препятствия

Этот новый мир данных и то, как компании могут поставить его себе на службу, наталкивается на сопротивление двух областей государственной политики и регулирования. Первая — сфера занятости. Прежде всего руководители компаний видят необходимость нового типа работников — наступает великая эпоха специалистов по обработке и анализу данных. Консультанты по вопросам управления бьют тревогу, предупреждая о серьезной нехватке кадров. Университеты готовятся удовлетворять этот спрос. Но это очень недальновидный взгляд на вещи. В средне- и долгосрочной перспективе большие данные украдут наши рабочие места. Можно ожидать, что развитие технологий вызовет волну структурной безработицы.

А все потому, что большие данные и алгоритмы теснят офисных работников умственного труда в XXI веке точно так же, как автоматизация производства и сборочные конвейеры вытеснили с производства тяжелый ручной труд в XIX и XX веках. В то время ценным ресурсом считались мускулы, и тут машины справлялись лучше людей. В будущем окажется, что и ум наш слабее машинного. Исследование, проведенное специалистами Оксфордского университета, дает прогноз, что в США не менее 47% объема всей сегодняшней работы может быть переложено на компьютеры.

Возьмем пример патолога, который становится ненужным, так как алгоритм машинного обучения позволяет читать результаты биопсии у раковых больных намного точнее, быстрее и дешевле. Как правило, патологи имеют высшее медицинское образование. Они покупают дома. Платят налоги. Голосуют. По выходным они натаскивают в игре футбольные команды своих детей. Короче говоря, они являются вовлеченными и заинтересованными членами общества. И вот им — и еще целому классу подобных им профессионалов — предстоит увидеть, как их работа меняется до неузнаваемости или, возможно, полностью упраздняется.

Преимущество больших данных состоит в том, что они дадут обществу потрясающие вещи. Но все мы рискуем превратиться в инструкторов по йоге или в официантов кофеен для небольшой группы миллионеров — специалистов в области теории вычислительных машин и систем. Нам нравится думать, что технологии способствуют созданию рабочих мест, даже если это происходит после временного периода дезориентации. Это действительно было верно для периода хаоса, который уже имел место в нашей системе ориентиров, во время промышленной революции. Тогда машины заменили ручной труд. Города быстро обросли фабриками, а бедные и необразованные батраки смогли — после появления трудового законодательства и народного образования — улучшить свое положение и продвинуться по социальной лестнице. Безусловно, это был катастрофический период диспропорций, но в конечном итоге он привел к улучшению условий жизни.

Однако такой оптимистичный взгляд игнорирует тот факт, что некоторые виды труда исчезают и уже никогда больше не возвращаются. Как заметил американский экономист, лауреат Нобелевской премии Василий Леонтьев, промышленная революция не принесла бы вам ничего хорошего, если бы вы были лошадью. То есть после того как в сельском хозяйстве появились трактора, а на место экипажей пришли автомобили, в общем и целом необходимость в использовании лошадей в народном хозяйстве отпала.

«Больше» для больших данных — это не просто больше, это еще и «лучше»

Потрясения промышленной революции создали почву для революций политических и возникновения совершенно новых экономических доктрин и политических движений типа марксизма. Не требуется большого ума, чтобы предсказать появление новых политических доктрин и социальных движений вокруг больших данных, роботов, компьютеров и интернета, как и их влияния на экономику и представительную демократию. Недавние дебаты по поводу неравенства в распределении доходов и движение «Захвати Уолл-стрит» (Occupy Wall Street), по-видимому, указывают именно на это.

Вторая сфера — конфиденциальность. Разумеется, проблема конфиденциальности существовала и в эпоху «малых данных». Она останется проблемой и в эру больших данных. На первый взгляд эта проблема может не показаться принципиально новой, а лишь той же самой, в увеличенном масштабе. Но и в этом случае «больше» значит нечто иное. Суть защиты персональных данных меняется, когда потенциальное нарушение конфиденциальности происходит не раз в день или раз в час, а тысячу раз в секунду. Или когда сбор данных идет не открытым способом и в активном режиме, а скрыто и в пассивном режиме, например, в виде побочного продукта другого сервиса.

К примеру, в Европе веб-сайты обязаны информировать своих посетителей о том, что они создают куки-файлы, используемые для идентификации людей, посещающих сайты. Вроде бы, такое требование разумно. Но что происходит в том случае, когда каждый осветительный прибор в здании определяет присутствие человека с целью обеспечения защиты и безопасности (как, например, при пожаре спасатели знают, куда им идти). А программное обеспечение при ничтожно малых затратах достаточно умно, чтобы идентифицировать этих людей на основании их визуального облика, походки или, возможно, пульса. Трудно представить, как классический закон о неприкосновенности частной жизни будет справляться с таким миром, каким образом человек, который считает себя пострадавшим, будет предъявлять иск — или даже как он осознает нарушение конфиденциальности.

В США не менее 47% объема всей сегодняшней работы может быть переложено на компьютеры

Дальше — хуже. В основу законов о неприкосновенности частной жизни во всем мире положен принцип, закрепленный в рекомендациях ОЭСР по защите конфиденциальности. Он гласит, что организация должна удалить данные после выполнения главной цели, для которой они собирались. Но весь смысл больших данных в том, что их следует хранить вечно, поскольку сегодня никто не может знать, с какой пользой эти данные можно будет применить завтра. Если бы компания Microsoft удалила данные старых поисковых запросов за 2010 год, в 2013 году она ни за что не смогла бы выявить нежелательное взаимодействие пароксетина и правастатина.

Таким образом, подобно тому как для больших данных «больше» не значит всего лишь больше, а подразумевает новое, лучшее и иное, так и современным компаниям потребуются регламентирующие органы, понимающие, что правила использования больших данных не могут просто стать больше — больше все тех же правил. На самом деле существующие ныне правила очень плохо защищают конфиденциальность, поэтому простое масштабирование посредственной политики практически не имеет смысла. Вместо этого компании, связанные с обработкой больших данных, просят о создании новых, лучших, отличных от прежних правил и норм.

Большие данные изменят бизнес, а бизнес изменит общество. И есть надежда, что преимущества перевесят недостатки

Большие данные изменят бизнес, а бизнес изменит общество. И есть надежда, что преимущества перевесят недостатки. Факт в том, что все это очень ново, и мы как общество не особо хорошо умеем обращаться с данными, которые теперь можем собирать. Еще совсем недавно, в 1893 году, на Всемирной выставке в Чикаго была присуждена золотая медаль за изобретение вертикального шкафа для хранения документов, на тот момент блестящее решение проблемы хранения и поиска бумажных файлов — в эпоху, когда бизнес захлестнул поток информации. То была «бета-версия» больших данных в корпоративном мире.

Ясно то, что мы не можем обернуть наш опыт в предвидение будущего. Технологии удивляют нас подобно тому, как древний человек со счётами изумлялся бы, глядя на iPhone. Но что несомненно — «больше» не будет означать всего лишь больше. Это будет нечто иное.

По материалам "Big Data and the Future of Business", OpenMind.