Рецензия на книгу «Наука о данных. Базовый курс»
Авторы постарались простым языком описать науку, которая образовалась на стыке математики и компьютерных технологий
Первые известные данные начали собирать еще в 3200 г. до н.э. в Месопотамии. Это были сведения о восходах и заходах солнца, выполненные в виде зарубок.
Спустя примерно 5000 лет, к 2003 году, человечество накопило колоссальный объем данных: около 5 эксабайт. Однако начиная с 2013 года люди генерируют и хранят 5 эксабайт ежедневно, каждый день!
Когда вы делаете ежедневные вещи: пишете кому-то сообщение, совершаете звонок, просматриваете новости, делаете селфи или запрос в гугле — вы генерируете прямые и метаданные.
Только представьте весь тот путь, который проходят данные от момента, как вы совершили какое-то действие в сети, до их систематизации, кластеризации, анализа, принятия решений и последующего хранения на будущее.
Это завораживает, восхищает и пугает одновременно. Настолько необъятным, полезным и притягательным кажется вся эта вселенная данных!
Об авторе
Авторы книги, Джон Келлехер (John D. Kelleher) и Брендан Тирни (Brendan Tierney), люди не понаслышке знакомые с наукой анализа данных.
Джон Келлехер — руководитель Научно-исследовательского института информации, коммуникации и развлечений при Дублинском технологическом университете. Он изучает искусственный интеллект, анализ данных и машинное обучение.
Брендан Тирни — консультант, директор Oracle ACE. Читает лекции по Data Mining и усовершенствованным базам данных в том же институте. У него более чем 23-летний опыт работы с данными. Брендан работал над проектами в Ирландии, Великобритании, Европе, Канаде и США.
Из двух авторов получился тандем, закрывающий процесс сбора, подготовки и анализа данных: Брендан специализируется на хранении данных, а Джон — на их анализе.
Стиль
Книга написана в научно-популярном стиле. Авторы постарались простым языком описать науку, которая образовалась на стыке математики и компьютерных технологий. С некоторыми оговорками им это удалось.
Однако вторая, третья и четвертая главы содержат достаточное количество технических и математических терминов и понятий.
Авторы последовательно преподносят тему. Постепенно погружают читателя в науку о данных, её этапах, особенностях, областях применения и будущих тенденциях.
О книге
Начиная с пояснения на базовом уровне, что такое «наука о данных», авторы переходят к детальному рассмотрению понятий «данные» и «набор данных». Затем рассматривается «экосистема науки о данных». Читатель погружается в специфику работы — сбор данных, обработка, систематизация, анализ и решение на основе анализа. У процесса есть термин CRISP-DM, отражающий жизненный цикл работы с данными, но о нём позже.
В последних главах книги затрагиваются этические вопросы науки вместе с перспективами её прогресса. По мнению авторов, в персонализированной медицине и в развитии умных городов уже в ближайшие 10−20 лет возможно будет увидеть эффект от использования науки о данных.
Реальные задачи, которые решает наука о данных
В основе всех проблем, решаемых с помощью науки о данных, лежат четыре стандартные класса задач. Давайте кратко коснемся каждого из них:
Кластеризация (сегментация)
Данный класс задач отвечает на привычный вопрос: «Кто наши клиенты?». Он часто соответствует практической коммерческой цели — формированию портрета клиента, и встречается при решении задач по маркетингу и продажам.
Наиболее известным алгоритмом машинного обучения для кластеризации является метод k-средних (k-количество кластеров).
Обнаружение аномалий (или выбросов)
Данный класс задач можно трансформировать в популярный вопрос службы fraud-мониторинга финтех-компаний и банков: «Мошенничество ли это?» (к-л транзакция). Обычно этот способ применяется при анализе страховых претензий.
Часто задачи этого класса — обнаружение выбросов, решаются с помощью ряда SQL-правил, которые могут быть запущенными в БД самостоятельно и с помощью сторонних языков.
С учётом распространения датчиков и увеличение мониторинга различных параметров здоровья, поиск аномального поведения организма, может иметь важность жизни или смерти.
Запускаемые SQL-правила — это первый подход к решению задачи обнаружения выбросов.
Другой подход для выявления аномалий состоит в разработке модели прогнозирования. Сама модель может представлять собой дерево решений или иметь другие форматы реализации. В этом случае данные классифицируются на нормальные и аномальные. Чем больше объект не похож на другие, тем выше необходимость его исследования.
Кроме выявления мошеннических действий, обнаружение аномалий применяется в кибербезопасности для выявления взломов через нетипичное поведение сотрудников в сети.
Активное распространение датчиков и технологии интернета вещей позволяет собирать данные из окружающего мира. Это способствует отслеживанию нештатных ситуаций ещё до их начала и формированию предупреждений.
Поиск ассоциативных правил
Бизнес часто пользуется помощью данного класса задач для увеличения среднего чека клиентов. Клиенту предлагается товар, который ранее покупали клиенты с похожими запросами.
Вы сами можете увидеть результат работы алгоритма, решающего такую задачу, когда в интернет-магазине вам предлагают товар, потому что он «подойдёт», его «купили такие же, как ты» или «часто покупают вместе с этим товаром».
Прогнозирование (классификация и регрессия)
«Уйдёт иль не уйдёт, вот в чём вопрос». Подобный вопрос возникает, когда бизнес ставит своей целью поиск причин оттока клиентов. Также прогнозирование помогает обнаружить людей с высоким риском ухода к конкурентам, среагировать и удержать.
«Сколько это будет стоить» — следующий подкласс задач, регрессия. Ценовое прогнозирование помогает оценить стоимость товара в определённый момент времени.
Регрессионный анализ может быть использован в самых разных областях, от расчёта прибыли и объёма продаж до величины спроса, дозировок и объёмов чего-либо при определённых условиях.
Он отличается от классификации тем, что целевой атрибут — это непрерывная величина, а классификация оценивает значение категориального атрибута.
В начале книги автор говорит нам о важности параметров, которые следует определить для сбора «правильных» данных. В свою очередь, понимание, какой класс задач стоит перед специалистом по данным, помогает определить, какие параметры данных потребуются. Класс задачи и параметры данных тесно взаимосвязаны.
Следовательно, понимание класса задач значительно облегчает и помогает в принятии различных проектных решений.
Оценка и выводы
Как и все науки, наука о данных влияет на различные сферы жизни и отрасли экономики. Наука о данных — инструмент, который может быть использован для решения различных насущных задач. Например, достижения мира во всем мире или для реализации целей отдельных людей в ущерб интересам других.
Авторы рассказывают о науке о данных как о любой другой науке: через понятные образы задач из окружающего нас мира. Пояснение разбавлено научными терминами и описаниями процессов, в которые погружены data science специалисты.
В книге, простым языком, говорится о данных, которые мы с вами генерируем прямо сейчас. К примеру, я пишу этот текст и генерирую прямые и метаданные.
Для кого эта книга?
Книга будет полезна людям из широкого набора профессий и отраслей:
Пользу от книги поясню на своём примере. Для себя вижу профит с двух сторон: для менеджера проектов, где будет присутствовать элемент науки о данных, и для обывателя — для понимания как развивается индустрия анализа данных.
- Как менеджеру: польза заключается в применении полученных знаний в проекте с элементами науки о данных. Полезными являются вторая и третья главы, поясняющие суть данных, их формат, а также основные трудности в процессе сбора, очистки, подбора необходимых параметров, кластеризации и прочих этапов анализа данных.
- Как обывателю: книга помогла мне разобраться с основами понятий и историей зарождения науки о данных. Я стал лучше понимать, как устроен мир данных вокруг.
Наука о данных развивается и совершенствуется с каждым днем.
Книга даёт понимание вектора развития науки, говорит об отраслях, где через 10−30 лет мы достигнем значительного эффекта. И сможем пользоваться благами от внедрения науки о данных в медицину и в системы «умный город».
Управление продуктом: от стратегии до запуска
Полное погружение в мир продакт-менеджмента от эксперта из «Яндекса»
ПодробнееКурс: Управление продуктом
Узнаете всё, что нужно продакту: как анализировать рынок, тестировать гипотезы и строить стратегию