Что такое Data Science и Data Scientist?

Цитата дня: Ключ к успеху бизнеса – в инновациях, которые, в свою очередь,
рождаются креативностью.
Джеймс Гуднайт

Что такое Data Science и Data Scientist?

01.12.2021 в 23:02 | время чтения: 6 мин.

Его задачей является очистка данных и построение прогнозных моделей. Давайте разбираться подробнее.

В 20 раз больше за 10 лет

С каждым годом в мире появляется все больше и больше информации. В целом, происходит экспоненциальный рост объемов данных и подавляющая их часть – данные сгенерированные простыми пользователями. Согласно Statista, в 2010 году общий объем созданных данных, составил 2 зеттабайта, но уже в прошлом году он увеличился до 47 зеттабайт с перспективой роста до 612 зеттабайт через 10 лет и до невероятных 2142 зеттабайт к 2035 году. И здесь идёт речь не только о выложенных в сеть сториз и ТикТоках, здесь идёт речь о бесконечном профилировании пользователей. Каждое действие человека в сети и в оффлайне так или иначе становится чьими-то данными. Каждый клик на сайте, подключение к сети WiFi, поход в магазин или даже разговор в автомобиле с друзьями приобретает цифровую форму и улетает на сервера одной из множества компаний, которые сосредоточены на том, чтобы знать о вас и ваших привычках как можно больше. Но получить данные – это ещё половина успеха, вторая половина – верно их обработать и создать на их основе корректные модели. Вот здесь как раз и вступают в игру дата-сайентисты.

«Все модели неправильные, но некоторые из них – полезны»

Ещё в 1976 году аналитик Джордж Бокс шутил на тему дата-сайенса. И его шутка не теряет актуальности до сих пор. Какую бы модель и какое предсказание вы бы не построили, она наверняка не будет учитывать все множество факторов, которые могут повлиять на исход. Тем не менее, некоторые прогнозы могут быть более точными, если в них учитывается больше данных.

Кстати, сама научная область Data Science возникла примерно в то же время, в 1970-х. Её основателем можно считать датского информатика Петера Наура. Он определил эту область знания как дисциплину, которая изучает цифровые данные с момента появления до их использования в других областях. Если расширить это определение, то Data Science – это область знаний, которая охватывает все этапы работы с данными и ориентирована в первую очередь на получение практических результатов.

В чем принципиальная разница с Big Data специалистами? В том, что они работают с большими выборками статистики. Анализируют то, что уже случилось, как менялось поведение пользователей со временем, какие товары и услуги пользовались наибольшим спросом. Специалисты по Data Science в свою очередь занимаются поиском связей и закономерностей в больших данных с последующим построением моделей, прогнозирующих будущее, то есть как будет меняться поведение пользователей и как будет меняться спрос на товары и услуги.

На что молится дата-сайентист?

Основное «сырье» для работы дата-сайентиста – это данные. Большие массивы данных, которые продолжают генерироваться в реальном времени. Например метеоданные за какой-то период, статистика запросов в поисковых системах, результаты спортивных состязаний, базы данных геномов микроорганизмов. Главное – данных должно быть действительно много и они должны быть «сырыми», то есть неструктурированными. Специалист в свою очередь использует математическую статистику и машинное обучение, чтобы проанализировать полученный объём данных, найти в нем закономерности и на его основе составить модель. Из всего объема данных в обработку и построение модели пойдут те, которые будут подходить для решения поставленной задачи.

Какие задачи решаются при помощи Data Science?

Все вы наверняка пользовались хотя бы раз рекомендательным сервисом. Netflix, Spotify, Deezer, наша отечественная Яндекс.Музыка? Нет? Может быть тогда ТикТок, Ютуб или лента в Инстаграме? А ведь все эти сервисы работают на основе прогнозных моделей, которые никак не обошлись без участия дата-сайентистов.

Допустим, на примере Deezer, объясним работу подобных моделей. Итак вы заходите в приложение и слушаете музыку. Один из треков вам понравился. Вы добавляете его в избранное и вот здесь начинается шуршание компьютерных нейронов. Алгоритм сразу же вспоминает то, что вам нравилось кроме этого трека, сканирует базу тех, кто добавил этот трек кроме вас, сопоставляет ваши предпочтения и предпочтения миллиона других пользователей, находит закономерности и выдает результат: Capone – Oh No. И вам почему-то нравится. А значит модель не ошиблась. А если вам не нравится и вы пролистываете трек, то модель тоже получает бесценную информацию о вас и вносит в ваш невидимый профиль корректировку.

Впрочем не только рекомендательными сервисами едиными живут дата-сайентисты. Предсказать подобным образом можно что угодно, если есть достаточное количество данных для анализа и задача, которую нужно решить. Допустим, нужно определить где следует ставить новые банкоматы. Как в этом может помочь дата сайентист? Он может собрать данные о перемещениях клиентов и адресах, где они живут, а также провести анализ загруженности уже установленных устройств. На основе этих данных дата-сайентист может выдвинуть предположение, что в этом районе и на этой улице как раз не хватает ещё одного терминала. Ну или наоборот, можно оптимизировать сеть, убрав терминалы из тех мест, где они пользуются наименьшим спросом и передвинуть всего на пару кварталов, где необходимость в банкомате будет выше.

Что ещё может сделать дата-сайентист?

  • Помочь роботу научиться сортировать мусор, выбирая из общего потока ленты конвейера пластиковые бутылки, пакеты и одноразовые стаканчики
  • Научить нейросеть удалять из поискового запроса контент 18+ (вы ведь заметили, как хорошо поисковые машины фильтруют подобный контент, если не искать его специально? Это тоже заслуга дата-сайентистов)
  • Спрогнозировать платежеспособность клиента проанализировав его потребительский профиль
  • Спрогнозировать спрос на услуги такси в конкретном регионе в конкретное время
  • Поисковые системы, предсказывающие запрос
  • Клавиатура, которая подсказывает какое слово вы хотите напечатать по первым буквам

В принципе список задач можно продолжать бесконечно. Демон Лапласа, который мог обладая знаниями о положении и скорости каждой частицы во вселенной предсказать её эволюцию в будущем и прошлом, в какой-то степени тоже был специалистом по дата-сайенс.

Зачем мне нужен дата-сайентист?

Если у вас есть большое количество необработанных данных, то ответ очевиден – для их сортировки и обработки. Но в целом, дата-сайентисты работают во многих сферах бизнеса.

  • В торговле и услугах – создают модели предсказывающие спрос на товары и услуги, а также прогнозирующих падение этого спроса
  • В биоинформатике – анализируют данные геномов, строят генетические карты
  • В метеослужбах – сопоставляют данные для создания прогноза погоды
  • В сельском хозяйстве – прогнозируют урожай, оптимизируют пользование землёй, строят логистику
  • На производстве – анализируют закономерности в сбоях оборудования и прогнозируют выход оборудования из строя
  • В банках – анализируют клиентов с целью понимания их платежеспособности, анализируют рынки, создают схемы максимально эффективной расстановки банкоматов
  • В страховых компаниях – анализируют клиента и условия в которых он живёт, на основе чего оценивают вероятность наступления страхового случая
  • В логистике – пишут алгоритмы для построения оптимальных маршрутов
  • В IT – занимаются разработкой систем машинного обучения и искусственного интеллекта, поисковых систем, предиктивного набора, т.д.

В целом, специалист по дата-сайенс – бесценный специалист в любой области, где есть множество данных и требуется составлять прогнозы.

Сколько стоит Data Scientist?

Простой ответ – дорого. Но это ведь вас не устроит? Согласно данным hh.ru в Санкт-Петербурге зарплаты специалистов по работе с данными не опускаются ниже 100 тысяч рублей в месяц. В среднем, они составляют 150-180 тысяч (по данным на май 2021 года) и продолжают расти. Это тот рынок, где спрос превышает предложение, даже несмотря на то, что подготовкой этих специалистов заняты сразу несколько площадок и компании в целом готовы сами «натаскивать» подобных спецов. Американское издание Mashable даже поставило специалистов по дата-сайенс на первое место в рейтинг перспективных профессий. В ближайшем будущем динамика спроса на дата-сайентистов также должна остаться неизменной.

Поделиться с друзьями