Data Mining
Data mining: нужная информация рядом
Последние годы компании активно внедряют в свою деятельность различные средства по цифровой обработке баз данных, стремясь повысить таким образом уровень прибыльности и эффективности бизнеса. В результате, в качестве побочного продукта образовались внушительные объемы сырых данных. И есть все основания полагать, что в них заключен огромный потенциал в виде полезной информации для принятия решений.
Илья Иосифович Пятецкий-Шапиро, автор термина
Data mining (интеллектуальный анализ данных, добыча данных, «просев» информации) — процесс выявления скрытых закономерностей, обнаружения в сырых данных (RAW data) ранее неизвестных, нетривиальных знаний, простых для интерпретации и практически полезных в принятии решений во всех областях человеческой жизни.
Технология Data Mining позволяет выявить среди больших объемов данных закономерности, которые не могут быть обнаружены стандартными способами обработки сведений, но являются объективными и практически полезными. Методы Data Mining основываются на базе различных научных дисциплин: статистки, теории баз данных, искусственного интеллекта, алгоритмизации, визуализации и других наук. Применяется в различных сферах, например, софт Data Mining Ongame.
Обработка данных: отличия Data Mining
Традиционные статистические методы анализа баз данных или системы оперативной аналитической обработки (OLAP) направлены на проверку заранее поставленных задач и гипотез.
По определению Data Mining предназначен для выявления нетривиальных закономерностей.Принципиальное отличие описанной технологии заключено в возможности самостоятельно обнаруживать такие закономерности и выстраивать гипотезы. Таким образом, методы интеллектуальной обработки информации справляются с более сложной задачей: формулировкой самой гипотезы.
Задачи Data Mining
1. Классификация – обнаружение определенных признаков у объектов (событий), позволяющих отнести их к тому или иному ранее известному классу.
2. Кластеризация – это более сложная задача, решаемая инструментами интеллектуального анализа, логически продолжает идеи классификации. Позволяет группировать объекты при изначальном отсутствии самих классов.
3. Ассоциация – поиск закономерностей между связанными событиями. Например, ассоциативное правило, определяющее, что за событием X следует событие Y. В отличие от вышеописанных задач – это ассоциативное выявление закономерностей основывается не на анализе характеристик объекта, а на рассмотрении нескольких событий, происходящих в один момент времени.
4. Последовательность – это установление закономерностей между связанными по времени событиями. Также называется нахождением последовательных шаблонов. Правило последовательности говорит, что через определенное время после события X наступит событие Y.
5. Регрессия и прогнозирование. Обнаружение зависимости выходных данных от переменных входных сведений.
6. Визуализация – графическое представление анализируемой информации.Аналитик данных (data analyst) использует сырые данные для поиска осмысленных, практически важных сведений методами «просева» информации. Задачи, решаемые data scientist, обширны и затрагивают различные научные отрасли, но в то же время дают превосходные результаты.
Внедрение Data Mining, OLAP позволяет обнаружить закономерности в базах данных и использовать полученные сведения для принятия различного рода решений.
Читайте также: Виды данных, Биржа данных, Большие данные по McKinsey, Что такое RTB (Realtime Bidding)