Что такое big-data и почему о ней все говорят? - Инновации и развитие Петербурга

Цитата дня: Смотреть на мир вокруг себя — на существующую реальность, которую все остальные обычно просто принимают, — и спрашивать: А что, если мы сделаем это? Или попробуем это?

Что такое big-data и почему о ней все говорят?

17.05.2021 в 20:08 | время чтения: 5 мин.

Специалисты по big data зарабатывают огромные суммы. В Ютубе можно найти бесконечное множество рекламных роликов, расхваливающих всевозможные курсы «инженеров больших данных». Но что такое большие данные, что в них входит, откуда они берутся и наконец, кому они так нужны? Сегодня мы постараемся разобраться «на пальцах» в том, что кроется за уже знакомым каждому термином «биг дата». Без рекламных интеграций, регистрации и смс. И как говорят на одном популярном канале о технологиях, погнали!

В целом большие данные – это абсолютно такие же данные для анализа, как и любые другие. Разница в том, что их (вот неожиданность) – больше. Для примера приведем часть информации, которую использует каждый день для понимания хода продаж интернет магазин. Допустим, у нас есть первый набор данных:

  • Клиентов сегодня
  • Брошенные корзины
  • Движение всех товаров в течение месяца
    • Наиболее популярные товары
    • Наименее популярные товары

Это будут простые данные для анализа. Из них мы можем узнать сколько всего у нас сегодня было клиентов, сколько совершили покупки, сколько не совершили, а сколько – дошли до середины процесса, но почему-то развернулись и передумали. Также узнаем, что клиенты покупают и сможем в будущем заказать больше этих товаров на склад. Такие данные можно проанализировать с использованием ручки и тетради. В принципе, небольшие интернет магазины примерно так и работают. Но есть и другой вариант:

  • Клиенты сегодня
    • Пол клиента
    • Возраст
    • Семейное положение клиента
    • Картина ценностей
      • Распределение ценностей по значимости и мировоззрение
    • Семейное положение
      • Распределение отношений с родственниками по значимости для конкретного клиента
    • Интересы
      • Подгруппы интересов ранжированные по значимости

Этот список можно продолжать бесконечно. Количество параметров, которые можно приписать одному клиенту может быть огромным и зависеть только от того, какие действия с этим клиентом планируется произвести. Из этих данных мы можем понять, какой идеальный товар предложить тому или иному человеку в зависимости от его реальных потребностей. И это уже будет биг дата. Впрочем, не только товары. Любые продукты можно предложить проведя такой анализ. Просто данные для анализа берутся разные. Для банка это будет один набор данных, для магазина – другой, для сотового оператора или правоохранительных органов – третий.

Досье на любого человека в автоматическом режиме формируется с каждым нашим последующим действием в сети. Машины уже давно научились отслеживать все и собирать на нас настолько подробное досье, что зачастую они даже знают нас лучше чем мы сами. Что уж говорить, с помощью всех этих данных можно весьма точно (с точностью до 80% предсказать беременность) Ведь каждое наше действие так или иначе говорит о нас и поддается анализу. Вот этот анализ и называется – работой с большими данными.

Анализировать поток данных можно не только от людей. Анализировать можно рынки, технику, климатические данные, что угодно. Информация летает вокруг, все есть информация. Важно именно её правильно обработать и знать, ради чего это делается.

Биг дата отличается именно тем, что на входе у нас имеется колоссальный массив сырых данных из которых можно слепить любые выводы, но для этого – их сначала нужно структурировать. Именно этим и занимаются такие ценные специалисты по big data.

Сам термин «большие данные» ввел редактор журнала Nature, Клиффорд Линч в 2008 году. В своей статье он размышлял про экспоненциальный рост генерируемых данных на мировом рынке информации и сложности, связанные с их обработкой. Линч указал, что большие данные начинаются от потока в 100Гб в день. Сейчас многим аналитикам эта цифра покажется смешной.

Для чего все это нужно?

Если кратко – для эффективности. Для эффективности всего, что угодно, будь то продажи, работы оборудования, предсказания погоды, лечение больных. Именно поэтому специалисты по этой самой биг дате так ценятся. Эффективность – это священная корова любых компаний и тот, кто может её повысить будет бесценным сотрудником.

Допустим, реальный кейс применения больших данных от компании Вымпелком (бренд «Билайн»): базовые станции генерируют отчёты. В отчётах говорится, сколько было сбоев на станции. Но не просто общее количество, а сколько из них застал конкретный клиент. Компания понимает, что клиенты уходят не от того, что в сети случаются технические неполадки, а от того, что это касается именно их. Потому информация о сбоях – это конечно хорошо, но гораздо лучше знать поименно всех, кто пострадал и сколько раз с каждым это случилось. Исходя из этих данных компания выполняет корректировку предложения клиенту, например предлагает скидку. Супер-персональную в автоматическом режиме. Но зачем для этого нужна биг дата? Дело в том, что у Вымпелком – 50 миллионов клиентов. Никакой менеджер не смог бы предложить персональные условия каждому, а алгоритм основанный на анализе клиентских данных – может. А ведь каждый отдельный клиент – это прибыль компании. Потому технология, которая позволяет не терять клиентов – повышает общую эффективность и соответственно стоит дорого.

Анализ больших данных позволяет увидеть и работать с закономерностями, которые в силу колоссальных объемов информации для анализа никак не может увидеть человек.

Объем информации для анализа переоценить сложно. Согласно материалу опубликованному на Rusbase, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC.

И важно то, что большую часть данных будут генерировать не предприятия, а обычные люди, которые по прогнозам, будут взаимодействовать со всемирной сетью до 4800 раз в день.

Все эти данные имеют потенциал сделать жизнь людей и работу компаний лучше. Но для этого весь этот бесконечно растущий массив информации необходимо оперативно и эффективно обрабатывать.

Поделиться с друзьями