Шумиха вокруг больших данных заключается в том, что они могут (и будут) трансформировать практически каждый аспект наших деловых решений. Это может помочь нам узнать больше о наших пользователях и клиентах, информировать о наших стратегических решениях и позволить нам создавать инновационные, прогнозирующие модели, которые могут приводить в действие двигатели рекомендаций и искусственный интеллект. Это мечта, по крайней мере.
Реальность немного более беспорядочная, и большая часть этого заключается в том, что многие данные, с которыми работают люди, плохие. На самом деле, плохие данные могут стоить миллиарды (или даже триллионы ) долларов в год дополнительной работы и потери производительности. Если у вас есть команда для работы с данными, скорее всего, они тратят слишком много времени, просто переводя ваши данные в работоспособное состояние, а не строят и обучают модели для использования этих данных.
Ученые, работающие с данными, часто говорят вам, что система искусственного интеллекта или машинного обучения хороша только в той мере, в которой она используется. Когда данные плохие, результатом могут быть серьезные технические сбои и даже кошмар PR.
Для драматического примера того, что может произойти, когда мощная система заполнена плохими данными, рассмотрим несколько громких сбоев chatbot . На техническом уровне эти боты делали именно то, для чего они были созданы, но их разработчики не учитывали то, как люди говорят и действуют в интернете.
На более приземленном уровне, когда ваши данные неверны, это означает, что ваши прогнозы будут менее точными, а ваши визуализации — менее информативными. Это может привести к уменьшению количества пользователей, конверсий и продаж.
Люди часто говорят о том, что данные «грязные», но на самом деле это может означать разные вещи. Являются ли данные «грязными», потому что они неструктурированы или потому, что они неполные? Существует столько видов неверных данных, сколько существует способов ошибиться, но для наших целей мы просто сосредоточимся на нескольких наиболее распространенных примерах и на том, как они могут сделать жизнь вашей команды по работе с данными несчастной.
Плохие данные — это часть жизни, но есть способы, которыми их можно уменьшить. Вот три вещи, которые вы могли бы сделать, чтобы убедиться, что вы получаете максимальную отдачу от своих данных.
1. Очистите ваши данные.
Регулярная очистка данных гарантирует, что неточные или поврежденные записи будут удалены, и гарантирует, что существующие данные будут в удобной форме. Некоторые распространенные операции по очистке данных включают стандартизацию форматов даты и времени или проверку значений по списку известных объектов. Очистка данных может также включать в себя объединение записей из разных источников, удаление дублированных или неполных записей и т. д.
2. Сделайте резервную копию ваших данных. Если ваши данные ценны, вам нужно убедиться, что вы их где-то создали. К счастью, благодаря облаку стало проще, чем когда-либо, хранить гигантские объемы данных за сравнительно дешевую цену. Решения облачного хранилища позволяют вам предоставлять практически неограниченные объемы хранилища по мере необходимости, а холодное хранилище дает вам безопасный и экономичный способ привязки к историческим данным.
3. Используйте NoSQL для неструктурированных данных.
Примерно 80-90% данных, которые мы создаем каждый день, неструктурированы. К счастью, мы создали инструменты, которые позволяют нам эффективно использовать хотя бы некоторые из этих данных. Платформы NoSQL позволяют извлекать информацию из неструктурированных данных без предварительного преобразования их в реляционную базу данных, что может привести к другим проблемам, таким как повреждение или неправильная маркировка.