Big Data

Что такое Big Data

Big Data — это бесконечные объемы оцифрованной информации. В 2008 году редактор научного журнала Nature Клиффорд Линч рассказал о потоке «больших данных». Теперь этим термином описывают все, что копится и обрабатывается в сетях и ПК. Источники Больших данных — каналы, по которым мы получаем текстовые материалы, изображения, видео, аудио, графики: 

  • интернет;

  • считывающие устройства, датчики, трекеры;

  • соцсети, СМИ;

  • данные со спутника и измерительных приборов;

  • облачные хранилища;

  • научные открытия, медицинские исследования;

  • статистика компаний, городов, государств.


Те данные, которые уже обработала нейросеть или аналитик, называют структурированными. Информационные ресурсы непрерывно растут, поэтому большая часть Big Data всегда не структурирована. 

Data Science или наука о данных — это математический и статистический анализ. Цель этого процесса — обработать массивы неструктурированной информации и найти в них что-то ценное для конкретных задач.

Характеристики Больших данных

К основным признакам информации VVV — volume/объем, velocity/скорость, variety/разнообразие, со временем добавили еще три V — veracity/достоверность, variability/изменчивость, value/ценность. Сейчас актуальна еще одна характеристика — безопасность. 

  • Объем. Материалы занимают терабайты и петабайты памяти. К 2025 году Big Data увеличится до 175 зеттабайт. Обрабатывают такие объемы через грид-вычисления («виртуальный суперкомпьютер»), нейросети, специальные формулы и программы. 

  • Скорость создания. Данные быстро генерируются и постоянно обновляются в режиме реального времени. Все мы в этом участвуем: 66% людей пользуются сотовой связью, и 60% регулярно выходят в Интернет.

  • Разнообразие. Любые цифровые форматы (анимация, фильмы, транзакции, аудиофайлы, показания сенсоров) относятся к Big Data. Они могут быть упорядоченными или скапливаться хаотично. Data mining — процесс, который  помогает найти закономерности и привести данные к единому виду. 

  • Достоверность. Информация для анализа должна быть неподдельной, из надежных источников. Иначе результаты будут бесполезными.

  • Изменчивость. Большинство данных поступают не последовательно, со спадами и всплесками. 

  • Ценность. Чтобы оценить пользу данных, их делят на две категории. Важные и сложные — финансовая аналитика, показатели медицинских приборов, статистика населения, сигналы со спутников. Второстепенные и простые — фотографии из соцсетей, комментарии под видео, городской справочник. 

  • Безопасность. Файлы должны быть очищены от вирусов и защищены от взлома. Конфиденциальность данных волнует почти половину потребителей — 48% в 2019 году отказались от компаний, которые недостаточно заботятся о безопасности. И следующие 5 лет 74% предпринимателей планируют развивать этику работы с данными.

Как работает технология Big Data

Google разработали MapReduce — самую известную модель вычислений для Больших данных. На ее примере опишем технологию работы с Big Data:

  1. Массив информации проходит через программные коды MapReduce. 

  2. Программа разделяет данные на форматы.

  3. Параллельно обрабатывается каждая часть массива.

  4. В финале все результаты объединяются на отдельном узле.


Искусственные нейросети пропускают через себя нужные материалы по этому же принципу. Они получают и обрабатывают новую информацию, то есть постоянно обучаются.

Как используют Big Data 

Компании изучают своих пользователей, отслеживают мировые тенденции и делают прогнозы. Такие корпорации, как Google, Facebook, Microsoft, имеют больше данных для анализа Big Data благодаря широкой аудитории. Рассмотрим, как это работает в разных сферах.

Маркетинг. Большие данные в торговле помогают изучать предпочтения клиентов: какой товар пользуется спросом в будние и выходные дни, как меняются предпочтения из сезона в сезон. На основании результатов, гипермаркеты корректируют ассортимент, ценовую политику, оформление зала и рекламу. Так, Amazon проводит полную аналитику поведения своих покупателей, чтобы рекомендовать им подходящие товары. 

Найм сотрудников. HR-аналитику проводят, чтобы вычислить текучесть кадров, загруженность персонала, каналы привлечения новых сотрудников. Рекрутеры обрабатывают много заявок на вакансии, собирают сведения о каждом кандидате, проводят собеседования, делают заметки и по результатам выбирают подходящих.

Банки анализируют поведение клиентов и предлагают выгодные кредитные условия.

Большие данные применяют и для безопасности платежей. Например, если пользователь снял крупную сумму далеко от его места жительства, банк может заподозрить, что карта попала в руки мошенников и временно заблокировать ее.

Медицина. В здравоохранении с помощью технологии можно собирать данные о привычках пациентов, об образе жизни, хирургических вмешательствах, амбулаторных обследованиях, а после — предлагать лечение.

Также Большие данные помогают анализировать МРТ, КТ снимки и анализы. И управлять медицинским персоналом: следить, сколько пациентов принимают врачи, какое лечение назначают и удается ли вылечить людей.

Госструктуры. Большие данные помогают следить за населением, выявлять преступников и мошенников. Например, можно проанализировать где, в какое время граждане чаще нарушают порядок и разработать график патрулирования. 

Сведения о нарушителях получают через видеокамеры, GPS-датчики, анализ комментариев, публикуемого контента, сообществ в интернете. 

Транспорт. Большие данные помогают системам навигации построить маршрут в объезд пробкам и просчитывают загруженность дорог. ГЛОНАСС собирает координаты, контролирует скорость движения. Так система Яндекс.Такси показывает водителю районы с высоким спросом. 

Логистика. Здесь Big Data нужна, чтобы следить, успевают ли сотрудники принимать заказы, соблюдают ли сроки поставки и как заполняется склад. Для обработки используют машинные данные со сканеров посылок в почтовых офисах, а также отзывы людей в интернете.

Обработка фото. Программы для обработки фото считывают недостатки и автоматически корректируют их или предлагают фильтры, которые тоже работают на основании Больших данных. Есть приложения, в которые можно загрузить селфи и найти своего «двойника» или разыскать человека по фото. А в интернет-магазинах есть функция поиска похожих товаров.

В медиа Большие данные — это реакции пользователей на контент: лайки, репосты, комментарии, просмотры. Медиаресурсы научились предлагать пользователям то, что может их заинтересовать. Платформа Netflix учитывает продолжительность фильмов, жанр и даже паузы во время просмотра для подбора рекомендаций.

Методики анализа и обработки Больших данных

Машинное обучение и нейронные сети. Искусственный интеллект можно запрограммировать на распознавание лиц, математические расчеты, прогнозирование. Для этого нужны большие объемы достоверных данных из разных источников. Например, шахматист из Санкт-Петербурга загрузил сыгранные виртуальные партии в многомерную аналитическую модель и изобрел новую систему подготовки к турнирам. Так начинается много успешных стартапов.

Прогнозная аналитика. Чтобы сделать прогноз, аналитика использует шаблоны, которые построены на предыдущем опыте. С ней можно предсказать цену доллара, нефти или платежеспособность клиента банка.

Имитационное моделирование. Здесь нужно сымитировать изменения: в прошлых отчетах и графиках повысить или понизить показатель, например, цену продукта. Расчеты дохода и результаты отчетов будут меняться, так вы увидете риски.

Статистический анализ. Чем больше информации для статистики, тем выше достоверность. Статистика вычисляет средние значения. Также с помощью статистики можно определить закономерности (корреляцию).

Data Mining построена на: 

  • классификации — разделении данных на группы;

  • кластеризации — поиск сходств;

  • ассоциации — распознавании похожих образов;

  • регрессионном анализе — поиск факторов, которые могут изменить результаты;

  • анализе отклонений — поиск нетипичной информации.


Визуализация аналитических данных — это финальный этап анализа. Результаты получают в виде 3D-модели, графика, диаграммы, карты и пиктограммы, гистограммы. 

Описательная аналитика. Ее цель — изучать данные, которые поступают на компьютеры. Анализ Больших данных помогает понять, почему некоторые события приводят к успеху, а другие — к неудаче. Затем строится модель будущих действий и решений. Данные рекламных кабинетов — пример описательной аналитики. 

Предписательская аналитика находит кризисные ситуации и рассчитывает, как избежать неудач в будущем, создает сценарии, которые помогают избежать повтора ошибок.

Диагностическая аналитика выясняет причины происходящего, находит между событиями взаимосвязь и аномалии. 

Кто работает с Большими данными

Для работы с Big Data нужен навык программирования, опыт работы с системами баз данных и аналитики, знание языка java и математического анализа. 

Дата-сайентист находит закономерности, строит модели и гипотезы и прогнозирует возможные варианты событий. Может предсказать, сколько товара будет продано магазином в сезонную распродажу, или какой погоды ждать в конце лета. Для этого дата-сайентист исследует статистику прошлых лет. 

Аналитик данных проводит анализ, описывает результаты и приводит их в понятный для восприятия вид. 

Дата-инженер организует сбор информации, хранение и первоначальную обработку.

Инженеры создают программное обеспечение, которое автоматизирует задачи исследования данных. 

Проблемы и перспективы Big Data

Big Data помогает:

  • развивать новые технологии;

  • вести медицинскую статистику;

  • прогнозировать будущее компаний и государств;

  • отслеживать экологическую ситуацию;

  • создавать «умные» города и делать городскую среду комфортной.


Информации становится все больше, сведения для нейросетей постоянно обновляются. Для торговли это вечный двигатель: компании генерируют половину Больших данных, проводят исследования, результаты применяют для развития бизнеса и увеличивают их доход.  

Из-за переизбытка информации с Big Data могут возникать проблемы. Например:

  • Не хватает вычислительной мощности. Обработкой Big Data занимаются специальные вычислительные компьютеры. Это дорогие ресурсы, которые доступны только компаниям-гигантам.

  • Вопросы приватности. Компании собирают информацию, в том числе и персональную. Многие пользователи против этого и даже обращаются в суд. Иски подавали на Google, Facebook.

  • Честность работы с данными и безопасность. Есть случаи, когда на данных пытаются нелегально заработать. Продают недостоверные клиентские базы или просто конфиденциальную информацию. В этом обвинили антивирусную систему Аваст. Хакеры взламывают серверы, которые хранят Большие данные,  и данные попадают в третьи руки.

Что важно запомнить

  • Объем, скорость создания, разнообразные форматы, безопасность, ценность, изменчивость — главные признаки Больших данных. 

  • Обработкой Big Data занимаются дата-аналитики, дата-инженеры и дата-сайентисты с помощью программирования. 

  • Применяют Big Data в медицине, маркетинге, логистике и строительстве, навигации, госструктурах и медиа.

  • К минусам технологии можно отнести необходимость следить за безопасностью данных, поддерживать вычислительные ресурсы, приватность пользователей и клиентов компаний. А к плюсам — помощь в решение медицинских и экологических задач человечества, контроль распределения государственного бюджета, создание комфортной городской среды.

  • Перспективы Больших данных долгосрочные и многообещающие. Нейросети быстро развиваются и пользуются популярностью.

Может быть интересно:
Оглавление

Другие популярные термины

И
Искусственный интеллект
Что такое искусственный интеллект — расскажем в статье простыми словами. Каким бывает искусственный интеллект. Принципы работы и технологии искусственного интеллекта. Как применить ИИ в бизнесе