Рецензия на книгу
«Наука о данных. Базовый курс»

Иван Рогальский,

Менеджер проектов Markswebb

Первые известные данные начали собирать еще в 3200 г. до н.э. в Месопотамии. Это были сведения о восходах и заходах солнца, выполненные в виде зарубок.

Спустя примерно 5000 лет, к 2003 году, человечество накопило колоссальный объем данных: около 5 эксабайт. Однако начиная с 2013 года люди генерируют и хранят 5 эксабайт ежедневно, каждый день!

Когда вы делаете ежедневные вещи: пишете кому-то сообщение, совершаете звонок, просматриваете новости, делаете селфи или запрос в гугле — вы генерируете прямые и метаданные.

Только представьте весь тот путь, который проходят данные от момента, как вы совершили какое-то действие в сети, до их систематизации, кластеризации, анализа, принятия решений и последующего хранения на будущее.

Это завораживает, восхищает и пугает одновременно, настолько необъятным, полезным и притягательным кажется вся эта вселенная данных!

Об авторе

Авторы книги, Джон Келлехер (John D. Kelleher) и Брендан Тирни (Brendan Tierney), люди не понаслышке знакомые с наукой анализа данных.

Джон Келлехер — руководитель Научно-исследовательского института информации, коммуникации и развлечений при Дублинском технологическом университете. Он изучает искусственный интеллект, анализ данных и машинное обучение.

Брендан Тирни — консультант, директор Oracle ACE. Читает лекции по Data Mining и усовершенствованным базам данных в том же институте. У него более чем 23-летний опыт работы с данными. Брендан работал над проектами в Ирландии, Великобритании, Европе, Канаде и США.

Из двух авторов получился тандем, закрывающий процесс сбора, подготовки и анализа данных: Брендан специализируется на хранении данных, а Джон — на их анализе.

Стиль

Книга написана в научно-популярном стиле. Авторы постарались простым и понятным языком описать науку, которая образовалась на стыке математики и компьютерных технологий. С некоторыми оговорками им это удалось.

Однако вторая, третья и четвертая главы содержат достаточное количество технических и математических терминов и понятий, что может затруднить чтение.

Авторы последовательно преподносят тему, постепенно погружая читателя всё глубже в науку о данных, её этапах, особенностях, областях применения и будущих тенденциях.

О книге

Начиная с пояснения на базовом уровне, что такое «наука о данных», авторы затем переходят к детальному рассмотрению понятий «данные» и «набор данных» как таковых. Затем рассматривается «экосистема науки о данных», и читатель погружается в специфику работы с данными — сбора, обработки, систематизации, анализа и вынесения решения на основе анализа. Такой процесс ещё имеет известный в узких кругах термин CRISP-DM, отражающий жизненный цикл работы с данными, но о нём подробнее позже.

В последних главах книги затрагиваются этические вопросы науки вместе с перспективами её прогресса. По мнению авторов, в персонализированной медицине и в развитии умных городов уже в ближайшие 10−20 лет возможно будет увидеть эффект от использования науки о данных.

Реальные задачи, которые решает наука о данных

В основе всех проблем, решаемых с помощью науки о данных, лежат четыре стандартные класса задач. Давайте кратко коснемся каждого из них:

Кластеризация (сегментация)
Данный класс задач отвечает на привычный вопрос: «Кто наши клиенты?». Он часто соответствует практической коммерческой цели — формированию портрета клиента, и встречается при решении задач по маркетингу и продажам.

Наиболее известным алгоритмом машинного обучения для кластеризации является метод k-средних (k-количество кластеров).

Обнаружение аномалий (или выбросов)
Данный класс задач можно трансформировать в популярный вопрос службы fraud-мониторинга финтех компаний и банков: «Мошенничество ли это?» (к-л транзакция). Обычно этот способ применяется при анализе страховых претензий.
Часто задачи этого класса — обнаружение выбросов, решаются с помощью ряда SQL-правил, которые могут быть запущенными в БД самостоятельно и с помощью сторонних языков.

С учётом распространения датчиков и увеличение мониторинга различных параметров здоровья, поиск аномального поведения организма, может иметь важность жизни или смерти.

Запускаемые SQL-правила — это первый подход к решению задачи обнаружения выбросов.
Другой подход для выявления аномалий состоит в разработке модели прогнозирования. Сама модель может представлять собой дерево решений или иметь другие форматы реализации. В этом случае данные классифицируются на нормальные и аномальные, чем больше объект не похож на другие, тем выше необходимость его исследования.

Кроме выявления мошеннических действий, обнаружение аномалий применяется в кибербезопасности для выявления взломов через нетипичное поведение сотрудников в сети.

Активное распространение датчиков и технологии интернета вещей позволяет собирать данные из окружающего нас мира, что способствует отслеживанию нештатных ситуаций ещё до их начала и формированию предупреждений.

Поиск ассоциативных правил
Бизнес часто пользуется помощью данного класса задач для увеличения среднего чека клиентов. Клиенту предлагается товар, который ранее покупали клиенты с похожими запросами.

Вы сами можете увидеть результат работы алгоритма, решающего такую задачу, когда в интернет-магазине вам предлагают товар, потому что он «подойдёт», его «купили такие же, как ты» или «часто покупают вместе с этим товаром».

Прогнозирование (классификация и регрессия)
«Уйдёт иль не уйдёт, вот в чём вопрос»
Подобный вопрос возникает, когда бизнес ставит своей целью поиск причин оттока клиентов. Также прогнозирование помогает заблаговременно обнаружить людей с высоким риском ухода к конкурентам, среагировать и таким образом удержать клиентов.

«Сколько это будет стоить» — следующий подкласс задач, регрессия.
Ценовое прогнозирование помогает оценить стоимость товара в определённый момент времени.

Регрессионный анализ может быть использован в самых разных областях, от расчёта прибыли и объёма продаж до величины спроса, дозировок и объёмов чего-либо при определённых условиях.

Он отличается от классификации тем, что целевой атрибут — это непрерывная величина, а классификация оценивает значение категориального атрибута.

В начале книги автор говорит нам о важности параметров, которые следует определить для сбора «правильных» данных. В свою очередь, понимание, какой класс задач стоит перед специалистом по данным, помогает определить, какие параметры данных потребуются. Класс задачи и параметры данных тесно взаимосвязаны.

Можно сделать вывод, что понимание класса задач значительно облегчает и помогает в принятии различных проектных решений.

Оценка и выводы

Как и все науки, наука о данных влияет на различные сферы жизни людей и отрасли экономики. Наука о данных по сути является инструментом, который может быть использован для решения различных насущных задач. Например, достижения мира во всем мире или для реализации целей отдельных людей в ущерб интересам других.

Авторы рассказывают о науке о данных как о любой другой науке: через понятные образы задач из окружающего нас мира. Пояснение разбавлено научными терминами и описаниями процессов, в которые погружены data science специалисты.
В книге, простым языком, говорится о данных, которые мы с вами генерируем прямо сейчас. К примеру, я пишу этот текст и генерирую прямые и метаданные.

Для кого эта книга?

Книга будет полезна людям из широкого набора профессий и отраслей:
Пользу от книги поясню на своём примере. Для себя вижу профит с двух сторон: для менеджера проектов, где будет присутствовать элемент науки о данных, и для обывателя — для понимания как развивается индустрия анализа данных.

Как менеджеру: польза заключается в применении полученных знаний в проекте с элементами науки о данных. Полезными являются вторая и третья главы, поясняющие суть данных, их формат, а также основные трудности в процессе сбора, очистки, подбора необходимых параметров, кластеризации и прочих этапов анализа данных.
Как обывателю: книга помогла мне разобраться с основами понятий и историей зарождения науки о данных. Я стал лучше понимать, как устроен мир данных вокруг.

Наука о данных развивается и совершенствуется с каждым днем.

Книга даёт понимание вектора развития науки, говорит об отраслях, где через 10−30 лет мы достигнем значительного эффекта. И сможем пользоваться благами от внедрения науки о данных в медицину и в системы «умный город».

Автор: Иван Рогальский, Менеджер проектов Markswebb
Книга: Джон Келлехер, Брендан Тирни «Наука о данных. Базовый курс»

Подпишитесь на @pmclub, чтобы не пропустить новые статьи и наш YouTube — там крутые видео.

Понравилась статья?