Big Data — большие данные

Смысловое отличие русской статьи в Википедии от более полной английской значимо: в России «большими данными» принято отграничивать набор технологий по обработке данных, а в англоязычной среде — сами наборы данных, недоступных для обработки привычными инструментами.

В серию подходов и методов обработки больших данных входят средства массово-параллельной обработки сырых данных (raw data) решениями NoSQL, MapReduce. Наиболее популярное решением по работе с big data — Hadoop, проект фонда Apache, представляет собой набор утилит, программных каркасов и библиотек, распространяется бесплатно.

Дополним представленную там информацию кратким переводом обзора исследования McKinsey «Большие данные: новое поле инноваций, конкуренции и производительности».

Что эксперты McKinsey имеют в виду под Big Data?

Выражение «Big Data» — большие данные — относится к наборам данных, размер которых превышает возможности типичного программного обеспечения по управлению базами данных. Оценка «большие» субъективна и требует определить насколько большим должен быть набор данных, чтобы считаться big data. Логично предположить, что по мере развития технологий размеры баз данных тоже будут расти, и все больше данных будут называться большими.

Новые горизонты Big Data

Закон Мура об удвоении производительности компьютеров имеет следствие в отношении оцифрованных данных: хранение больших объемов данных становится всё проще и эффективнее. Уже сейчас за $600 можно приобрести жесткий диск, которого хватит, чтобы сохранить всю музыку мира. Технологические барьеры в big data снижаются в целом: обработка больших объемов данных тоже становится всё доступнее. Данные все проще собирать, хранить и передавать, однако нехватка специалистов, способных на эффективный анализ больших объемов данных — big data analytics, — ощущается уже сейчас и будет только усиливаться.

В 2010 году более 4 млрд. человек (60% всего населения) использовали мобильные телефоны. 12% из них использовали смартфоны. Тогда же был зафиксирован рост числа владельцев смартфонов на 20% в год.

Работа с большими объемами данных будет направлена не только на получение дополнительной выгоды, придется также решать проблемы, которые сами же большие данные и создают. McKinsey обозначают новые горизонты в семи пунктах:

Big data нашли применение в каждой отрасли и стали важным фактором производства.

  • Big data создают ценность несколькими способами
  • Использование big data станет ключевым показателем конкуренции частных фирм
  • Использование больших данных будет лежать в основе новой волны роста производительности и прибыли
  • Большие данные имеют применение в каждом секторе экономики, однако в некоторых из них использование big data окажется более прибыльным
  • Нехватка специалистов, которым по силам разобраться с big data.

Чтобы полноценно воспользоваться возможностями big data потребуется преодолеть несколько трудностей.

Big data имеют потенциал, более чем достаточный чтобы полностью изменить ситуацию в сегодняшней экономике. Поскольку компетенции компаний в использовании больших данных станут ключевым фактором конкуренции, появятся новые конкуренты, которые достаточно креативны и проактивны по части данных — они знают какие данные необходимо собрать, как получить к ним доступ и проанализировать, не нарушив закона.

Одной из задач в сфере безопасности личных данных и политики конфиденциальности станет помощь потребителям в понимании ценности и рисков использования больших данных. И ценность, и риски big data в явном виде проявляются в цифровой рекламе.

Big Data в RTB

Стоит отметить, что большие объемы данных накапливают, продают и активно используют в цифровой рекламе в целом, не только в экосистеме RTB. Однако успех применения технологии Real-Time Bidding зависит от использования big data больше других: при малом количестве данных или их некорректной обработке КПД кампаний, проведенных посредством RTB, может оказаться ниже контекста или прямого размещения баннеров. Но даже если данные начать собирать прямо сейчас, уже через 1-2 месяца данные о вашей аудитории можно будет назвать большими, и их будет достаточно, чтобы увидеть чудеса математически точного таргетинга, ретаргетинга, технологии Look-Alike и другие возможности обработки данных.

Читайте также: Data Mining, Виды данных