ИТ Блог. Администрирование серверов на основе Linux (Ubuntu, Debian, CentOS, openSUSE)
Среда, 18 декабря, 2024

Как определить, неверны ли ваши данные (и как это исправить)

Как определить, неверны ли ваши данные (и как это исправить)

Шумиха вокруг больших данных заключается в том, что они могут (и будут) трансформировать практически каждый аспект наших деловых решений. Это может помочь нам узнать больше о наших пользователях и клиентах, информировать о наших стратегических решениях и позволить нам создавать инновационные, прогнозирующие модели, которые могут приводить в действие двигатели рекомендаций и искусственный интеллект. Это мечта, по крайней мере.

Реальность немного более беспорядочная, и большая часть этого заключается в том, что многие данные, с которыми работают люди, плохие. На самом деле, плохие данные могут стоить миллиарды (или даже триллионы ) долларов в год дополнительной работы и потери производительности. Если у вас есть команда для работы с данными, скорее всего, они тратят слишком много времени, просто переводя ваши данные в работоспособное состояние, а не строят и обучают модели для использования этих данных.

 

ЧТО ПРОИСХОДИТ, КОГДА ДАННЫЕ ИДУТ ПЛОХО

Ученые, работающие с данными, часто говорят вам, что система искусственного интеллекта или машинного обучения хороша только в той мере, в которой она используется. Когда данные плохие, результатом могут быть серьезные технические сбои и даже кошмар PR.

Для драматического примера того, что может произойти, когда мощная система заполнена плохими данными, рассмотрим несколько громких сбоев chatbot . На техническом уровне эти боты делали именно то, для чего они были созданы, но их разработчики не учитывали то, как люди говорят и действуют в интернете.

На более приземленном уровне, когда ваши данные неверны, это означает, что ваши прогнозы будут менее точными, а ваши визуализации — менее информативными. Это может привести к уменьшению количества пользователей, конверсий и продаж.

БЫСТРАЯ ТАКСОНОМИЯ ПЛОХИХ ДАННЫХ

Люди часто говорят о том, что данные «грязные», но на самом деле это может означать разные вещи. Являются ли данные «грязными», потому что они неструктурированы или потому, что они неполные? Существует столько видов неверных данных, сколько существует способов ошибиться, но для наших целей мы просто сосредоточимся на нескольких наиболее распространенных примерах и на том, как они могут сделать жизнь вашей команды по работе с данными несчастной.

  1. Неструктурированные данные. Если у вас есть ценная информация, но ее нет в упорядоченной электронной таблице, возможно, она неструктурирована. Электронная почта, фотографии, аудиофайлы, сообщения в социальных сетях — все они содержат ценную информацию, но вы не сможете получить к ней доступ без необходимых инструментов.
  2. Неполные данные. Когда-нибудь оставляли поле пустым при заполнении формы и велели вернуться? Это неполные данные. Как вы можете себе представить, чем менее полон ваш набор данных, тем меньше вы можете извлечь из него уроки.
  3. Поврежденные данные. Перебои в подаче электроэнергии, сбои оборудования и ошибки преобразования могут превратить чистые данные в бессмысленную тарабарщину.
  4. Устаревшие данные. Глядя на данные о трафике за 1980-е годы, вряд ли можно сказать, будет ли сегодня шоссе переполнено. Даже данные трафика со вчерашнего дня могут не сказать. И все же старые данные часто попадают в модели или прогнозы, которые могут сделать результаты менее точными.
  5. Данные с ошибками. Также называемый «шумом», это может быть результатом человеческой или машинной ошибки и может быть систематическим или случайным. В качестве глупого примера, вы бы назвали гамбургер сэндвичем? А как насчет хот-дога? Бутерброд с мороженым? Это может показаться глупым примером, но если вы пытаетесь выяснить, сколько буханок пшеничного хлеба вы хотите заказать, неправильно помеченные данные могут стать большой проблемой.
  6. Смещенные данные. Один печально известный пример необъективных данных — президентские выборы в США в 1936 году. Национальный журнал по ошибке назвал выборы Альфа Лэндона, потому что по результатам самого большого опроса общественного мнения, проведенного до того времени. Эта проблема? Опрос был основан на телефонных опросах, когда у большинства американцев не было даже телефонов. Таким образом, результаты опроса были искажены избирателям Лэндона, которые, как правило, были богаче, полностью игнорируя миллионы американцев, которые проголосовали за второй срок Франклина Рузвельта.
  7. Разреженные данные. Если у вас мало информации, но недостаточно, чтобы дать вам полную картину, это редкие данные. Даже если в ваших наблюдениях нет ничего плохого, слишком много полагаясь на слишком мало наблюдений, вы можете сделать неверные выводы.

3 СОВЕТА ДЛЯ РАБОТЫ С НЕПРАВИЛЬНЫМИ ДАННЫМИ

Плохие данные — это часть жизни, но есть способы, которыми их можно уменьшить. Вот три вещи, которые вы могли бы сделать, чтобы убедиться, что вы получаете максимальную отдачу от своих данных.

1. Очистите ваши данные.
Регулярная очистка данных гарантирует, что неточные или поврежденные записи будут удалены, и гарантирует, что существующие данные будут в удобной форме. Некоторые распространенные операции по очистке данных включают стандартизацию форматов даты и времени или проверку значений по списку известных объектов. Очистка данных может также включать в себя объединение записей из разных источников, удаление дублированных или неполных записей и т. д.

2. Сделайте резервную копию ваших данных. Если ваши данные ценны, вам нужно убедиться, что вы их где-то создали. К счастью, благодаря облаку стало проще, чем когда-либо, хранить гигантские объемы данных за сравнительно дешевую цену. Решения облачного хранилища позволяют вам предоставлять практически неограниченные объемы хранилища по мере необходимости, а холодное хранилище дает вам безопасный и экономичный способ привязки к историческим данным.

3. Используйте NoSQL для неструктурированных данных.
Примерно  80-90% данных, которые мы создаем каждый день, неструктурированы. К счастью, мы создали инструменты, которые позволяют нам эффективно использовать хотя бы некоторые из этих данных. Платформы NoSQL позволяют извлекать информацию из неструктурированных данных без предварительного преобразования их в реляционную базу данных, что может привести к другим проблемам, таким как повреждение или неправильная маркировка.

Exit mobile version