Великі дані: шум чи цінність?
Джерело: Kyivstar Business Hub
Сьогодні всі розуміють, що працювати з даними потрібно. Деякі компанії вже навіть спробували збирати big data й розчарувалися. Чому так стається? Що потрібно, аби аналітика великих даних стала дієвим інструментом для прийняття управлінських рішень? І у який бік рухається цей напрям? Про це розповідає Євген Пенцак, експерт із фінансового, інвестиційного та ризик-менеджменту, керівник програми Master of Banking & Finance у Києво-Могилянській бізнес-школі, доктор філософії Лозаннського університету Швейцарії.
Які компанії зараз працюють з аналітикою великих даних?
Колись тільки великі компанії могли дозволити собі найняти дата-сайнтистів. Про цю ситуацію казали: «велика рибка їла малу», тобто великі бізнеси отримували дані й працювали більш ефективно. Та поступово ситуація змінювалася і перетворилася на таку: «швидка рибка їсть повільну».
Взагалі великий і малий бізнес в Україні можна порівняти з великими й малими кораблями. У маленьких немає коштів на автоматизовану навігаційну систему чи тримати фахівців, які будуть здійснювати інтуїтивну навігацію — тому вони найбільш вразливі до ризиків сильного шторму. А великі кораблі мають це робити, проте нерідко є занадто лінивими. Вони звикли до старих правил гри, а світ зараз стрімко змінюється. Екосистемний підхід, платформенний підхід дозволяють гравцям швидко переорієнтовуватися, формувати нові екосистеми з новими правилами, в яких стара навігація не працює.
Тепер картина неоднозначна: можна швидко піти у бізнес-аналітику, розчаруватися й закинути її. Робота з великими даними має відповідати на певні управлінські запитання, наприклад, як збільшити виручку чи кількість заходів на сайт тощо. Питання в тому — як конвертувати бізнес-запит у технічне завдання для дата-сайнтистів? Зараз це є найскладнішим у роботі з великими даними. Тому значна частина компаній, які швидко увійшли у сферу big data, чимало інвестували у техніку та дата-сайнтистів, зараз зупинилися: вони не бачать суттєвих результатів і відчувають розчарування.
Отже, зараз потрібен поступальний рух. Я б описав це так: «голодна рибка може з’їсти й велику рибку». Тобто навіть не дуже велика компанія, якщо формуватиме багато гіпотез і задаватиме собі багато запитань, зможе перевершити великих гравців. Але ці запитання мають походити не від машини, а від людини, яка розуміє і мову бізнесу, і мову аналітики.
Зараз компаніям бракує саме таких фахівців. Університети вже навчилися готувати дата-сайнтистів. Є чимало людей, які добре розуміються на бізнесі. Але тих, хто поєднував би обидві компетенції — не так багато. Дата-сайнтисти можуть зробити чимало, але хтось має їм сказати, що саме.
У чому найбільші складнощі в роботі з big data для організацій?
По-перше, варто розуміти, що великі дані характеризуються не обсягом, а динамікою надходження. Навіть звичайна аналітика може працювати з великими обсягами даних. Але світ змінюється дуже швидко, чинників стає більше, частота збору даних зростає. І щоб бути лідером цих змін, важливо не рухатися швидко, а рухатися фундаментально, мати в компанії хороший дата-менеджмент. Бо якщо на вході будуть помилкові дані, то якою б доброю не була аналітика, вона все одно буде хибна.
За даними треба «доглядати», тобто очищувати їх. Адже навіть якщо модель буде налаштована правильно, а на вході будуть неправильні (неочищені) дані, вона дасть неправильні результати.
Так було у моїй практиці: велика компанія звернулася до мене для розробки моделі аналізу великих даних. У процесі роботи у мене виникло інтуїтивне відчуття, що з даними щось не те. Я попросив аналітика перевірити їх — і виявилося, що там дійсно є велика кількість «викидів» (outliers), бо при вивантаженні даних частина рядків чомусь замінилася на інші.
Коли дані зчитує робот, він не знає їхньої природи: яких значень вони можуть досягати, з якими знаками вони можуть бути, якою може бути їхня амплітуда. А людина має певні очікування, гіпотези щодо даних. І якщо вони не проходять перевірку у процесі роботи, то намагається з’ясувати, чому так сталося. Відповідно, поки що роботи у цій сфері не можуть замінити людину. Робот діє автоматично й видає висновки, які можуть виявитися неправильними.
Друга велика проблема — у тому, що в Україні ще немає культури аналітичного мислення. Компанії думають, що досить придбати потужний комп’ютер і забезпечити потік великих даних, щоб стати лідером на ринку. Але воно так не працює. Не завжди у даних міститься інформація, не завжди вони мають цінність. А ще — одні й ті самі дані не є цінними для кожної компанії.
Це схоже на видобування нафти: ніхто не бурить свердловини навмання, щоб подивитися — а чи є там нафта? Якщо провести аналогію з великими даними: люди думають, що нафта є у кожній дірці й що вона однаково потрібна усім бізнесам.
Як зрозуміти, які дані потрібні компанії?
Збирання даних заради їх накопичення не має сенсу. До мене часом звертаються компанії та кажуть: «Ми вже пів року збираємо дані, підкажіть, що з них можна зробити». Але так це не працює! Спочатку треба розуміти, для чого потрібні дані, потім побудувати модель, а вже потім вона підкаже — які дані треба збирати.
Для яких управлінських рішень найчастіше потрібні моделі й big data?
Найчастіше мова йде про рішення, які збільшують продаж, підвищують ефективність. Особливо — коли є психологічна складова. Різноманітні логістично-оптимізаційні завдання, відстеження трафіку тощо — вже давно використовують big data та штучний інтелект. А от як поводять себе люди — це найскладніше, але й найкорисніше використання великих даних.
Великі дані вже відмінно себе показали у сільському господарстві: супутники збирають інформацію про вологість повітря, температурні режими, визначають ймовірність посухи — і це впливає на моделювання врожайності. З людською поведінкою все не так просто. Існує класичний приклад, з якого раніше починалися усі книжки з big data: про те, як мережа Target прислала дівчині рекламу товарів для вагітних ще до того, як вона дізналася, що при надії. Але згодом виявилося, що це сталося випадково. Тому цей напрям ще розвивається.
Чи всі дані потрібно збирати і очищувати самостійно?
Великі дані, які стосуються не вашої компанії, а, наприклад, сфери бізнесу, можна купувати. Але треба знати, які дані вам потрібні (знову-таки: спочатку — мета, потім модель і лише потім — дані). Інакше можна заплатити купу грошей, але навіть не окупити витрати.
Обробку макроданих (скажімо, галузевих) можна віддати на аутсорс, звернувшись до профільних компаній. Але віддавати внутрішні дані на аутсорс для очищення не варто. Адже в них міститься цінність, і не можна допустити, щоб вона опинилася в чужих руках.
Які види даних зараз збирають?
Колись збирали лише цифрові дані, а зараз — і відеоінформацію (зокрема потоки машин чи людей). Такі дані можуть становити цінність для управлінських рішень, адже ми маємо розуміти споживчу поведінку та впливати на неї.
Часто компанії збирають дані з пристроїв (наприклад, фітнес-браслетів та VR-окулярів), можуть навіть видавати гаджети користувачам безкоштовно за згоду відправляти їхні дані до хмари.
Кого потрібно наймати у першу чергу, щоб вибудувати систему управління великими даними у компанії?
Зараз кажуть про те, що в компанії має бути аналітичний центр. Наразі немає однозначної відповіді, яким він має бути, кому підпорядковуватися — тут все залежить від стратегічних цілей компанії. Але вже зрозуміло, що це має бути відокремлений департамент, який вирішує завдання інших підрозділів. Зокрема, вони можуть просити центр перевірити певні гіпотези.
Спочатку треба підібрати лідера групи, який розумітиме цілі компанії, спілкуватиметься з топменеджментом, знатиме, куди рухається бізнес. Тоді він розумітиме, які моделі потрібні для забезпечення стратегії розвитку.
Далі він формує групу аналітиків, які відповідають за різні напрями (адже один фахівець не може знати все). І потім — наймає «робочі руки», тобто дата-сайнтистів, яким аналітики ставитимуть завдання. Вони мають бути кваліфіковані: знати економетричний аналіз, відповідне ПЗ (MathLab, R, Python тощо).
Важливо, щоб у команді була людина, яка б моніторила інновації на ринку й принаймні щомісяця доповідала про тренди: що роблять інші бізнеси, які технології вони використовують. Бо бути одинаком і розвивати свою власну аналітику, не зважаючи на інших, — небезпечно. Так ви ризикуєте пропустити щось важливе, що придумав хтось інший і що може забезпечити йому перевагу.
Наступний рівень — дата-менеджери, тобто айтішники, які займатимуться складуванням даних (у себе чи в хмарі), обробляти їх (очищувати, верифікувати).
Потрібно дуже прискіпливо підійти до відповіді на запитання: які дані, з якою частотою ми будемо збирати, хто буде їх очищувати й готувати. Кожну нову порцію даних треба ретельно перевіряти. А частота надходження нових даних має бути адекватна. Не варто занадто спішити, краще сфокусуватися на якості обробки.
Моделі, які розробляють аналітики, повинні бути самонавчальні. Це означає: коли ми вже створили ефективну модель, яка дійсно допомагає приймати рішення, що частіше до неї потраплятимуть нові дані, то краще вона працюватиме й то ціннішою для управлінців буде.
Скільки часу займає побудова аналітичної моделі під певне бізнес-завдання?
Аналітики схожі на футболістів, які мають «домашні заготовки». Коли тренер дає їм вказівки, вони вже розуміють, що робити. Так само аналітики мають певні заготовлені моделі для стандартних бізнес-завдань (наприклад, проведення акцій) — бібліотеку моделей. А нові дані дозволяють їх відкалібрувати й дізнатися правильні параметри, з якими, скажімо, треба запускати акції (у яких магазинах, в яких регіонах тощо).
Що ще потрібно розуміти компанії, щоб отримати перевагу від використання великих даних?
Найголовніше — розуміти, яка у вас ціль, для чого ви розвиваєте напрям бізнес-аналітики.
По-друге, потрібно бути голодними до нових гіпотез, це допоможе бізнесу змінюватися. Наприклад, саме це можна спостерігати зараз у банківській сфері. Великі гравці вже розуміють, що традиційне комерційне банківництво добігає кінця, тому потрібно рухатися у напрямку фінтех і ставати лідерами у цій сфері. І починають обростати фінтех-стартапами.
По-третє, аналітика не може існувати сама собою, вона завжди пов’язана з суспільними трендами. Роботизація, втрата людьми посад, пандемія — усе це впливає на аналітику. Моделі, сформовані до пандемії, можуть вже не давати якісні результати. Тому модель треба доглядати, як рослину.
І, нарешті, важливо будувати архітектуру збору даних, бібліотеку моделей, йти від простого до складнішого. І не намагатися зробити все й одразу, щоб не розчаруватися.
|