В основе всех проблем, решаемых с помощью науки о данных, лежат четыре стандартные класса задач. Давайте кратко коснемся каждого из них:
Кластеризация (сегментация)
Данный класс задач отвечает на привычный вопрос: «Кто наши клиенты?». Он часто соответствует практической коммерческой цели — формированию портрета клиента, и встречается при решении задач по маркетингу и продажам.
Наиболее известным алгоритмом машинного обучения для кластеризации является метод k-средних (k-количество кластеров).
Обнаружение аномалий (или выбросов)
Данный класс задач можно трансформировать в популярный вопрос службы fraud-мониторинга финтех компаний и банков: «Мошенничество ли это?» (к-л транзакция). Обычно этот способ применяется при анализе страховых претензий.
Часто задачи этого класса — обнаружение выбросов, решаются с помощью ряда SQL-правил, которые могут быть запущенными в БД самостоятельно и с помощью сторонних языков.
С учётом распространения датчиков и увеличение мониторинга различных параметров здоровья, поиск аномального поведения организма, может иметь важность жизни или смерти.
Запускаемые SQL-правила — это первый подход к решению задачи обнаружения выбросов.
Другой подход для выявления аномалий состоит в разработке модели прогнозирования. Сама модель может представлять собой дерево решений или иметь другие форматы реализации. В этом случае данные классифицируются на нормальные и аномальные, чем больше объект не похож на другие, тем выше необходимость его исследования.
Кроме выявления мошеннических действий, обнаружение аномалий применяется в кибербезопасности для выявления взломов через нетипичное поведение сотрудников в сети.
Активное распространение датчиков и технологии интернета вещей позволяет собирать данные из окружающего нас мира, что способствует отслеживанию нештатных ситуаций ещё до их начала и формированию предупреждений.
Поиск ассоциативных правил
Бизнес часто пользуется помощью данного класса задач для увеличения среднего чека клиентов. Клиенту предлагается товар, который ранее покупали клиенты с похожими запросами.
Вы сами можете увидеть результат работы алгоритма, решающего такую задачу, когда в интернет-магазине вам предлагают товар, потому что он «подойдёт», его «купили такие же, как ты» или «часто покупают вместе с этим товаром».
Прогнозирование (классификация и регрессия)
«Уйдёт иль не уйдёт, вот в чём вопрос»
Подобный вопрос возникает, когда бизнес ставит своей целью поиск причин оттока клиентов. Также прогнозирование помогает заблаговременно обнаружить людей с высоким риском ухода к конкурентам, среагировать и таким образом удержать клиентов.
«Сколько это будет стоить» — следующий подкласс задач, регрессия.
Ценовое прогнозирование помогает оценить стоимость товара в определённый момент времени.
Регрессионный анализ может быть использован в самых разных областях, от расчёта прибыли и объёма продаж до величины спроса, дозировок и объёмов чего-либо при определённых условиях.
Он отличается от классификации тем, что целевой атрибут — это непрерывная величина, а классификация оценивает значение категориального атрибута.
В начале книги автор говорит нам о важности параметров, которые следует определить для сбора «правильных» данных. В свою очередь, понимание, какой класс задач стоит перед специалистом по данным, помогает определить, какие параметры данных потребуются. Класс задачи и параметры данных тесно взаимосвязаны.
Можно сделать вывод, что понимание класса задач значительно облегчает и помогает в принятии различных проектных решений.