Data Mining

Data mining: нужная информация рядом

Последние годы компании активно внедряют в свою деятельность различные средства по цифровой обработке баз данных, стремясь повысить таким образом уровень прибыльности и эффективности бизнеса. В результате, в качестве побочного продукта образовались внушительные объемы сырых данных. И есть все основания полагать, что в них заключен огромный потенциал в виде полезной информации для принятия решений.

Илья Иосифович Пятецкий-Шапиро, автор термина

Data mining (интеллектуальный анализ данных, добыча данных, «просев» информации) — процесс выявления скрытых закономерностей, обнаружения в сырых данных (RAW data) ранее неизвестных, нетривиальных знаний, простых для интерпретации и практически полезных в принятии решений во всех областях человеческой жизни.

Технология Data Mining позволяет выявить среди больших объемов данных закономерности, которые не могут быть обнаружены стандартными способами обработки сведений, но являются объективными и практически полезными. Методы Data Mining основываются на базе различных научных дисциплин: статистки, теории баз данных, искусственного интеллекта, алгоритмизации, визуализации и других наук. Применяется в различных сферах, например, софт Data Mining Ongame.

Обработка данных: отличия Data Mining

Традиционные статистические методы анализа баз данных или системы оперативной аналитической обработки (OLAP) направлены на проверку заранее поставленных задач и гипотез.

По определению Data Mining предназначен для выявления нетривиальных закономерностей.Принципиальное отличие описанной технологии заключено в возможности самостоятельно обнаруживать такие закономерности и выстраивать гипотезы. Таким образом, методы интеллектуальной обработки информации справляются с более сложной задачей: формулировкой самой гипотезы.

Задачи Data Mining

1. Классификация – обнаружение определенных признаков у объектов (событий), позволяющих отнести их к тому или иному ранее известному классу.

2. Кластеризация – это более сложная задача, решаемая инструментами интеллектуального анализа, логически продолжает идеи классификации. Позволяет группировать объекты при изначальном отсутствии самих классов.

3. Ассоциация – поиск закономерностей между связанными событиями. Например, ассоциативное правило, определяющее, что за событием X следует событие Y. В отличие от вышеописанных задач – это ассоциативное выявление закономерностей основывается не на анализе характеристик объекта, а на рассмотрении нескольких событий, происходящих в один момент времени.

4. Последовательность – это установление закономерностей между связанными по времени событиями. Также называется нахождением последовательных шаблонов. Правило последовательности говорит, что через определенное время после события X наступит событие Y.

5. Регрессия и прогнозирование. Обнаружение зависимости выходных данных от переменных входных сведений.

6. Визуализация – графическое представление анализируемой информации.Аналитик данных (data analyst) использует сырые данные для поиска осмысленных, практически важных сведений методами «просева» информации. Задачи, решаемые data scientist, обширны и затрагивают различные научные отрасли, но в то же время дают превосходные результаты.

Внедрение Data Mining, OLAP позволяет обнаружить закономерности в базах данных и использовать полученные сведения для принятия различного рода решений.

Real-Time Bidding. Новая технология медиабаинга.