Взгляните на эту цифру: 136 миллиардов долларов в год. Такова оценка исследовательской фирмы IDC размера мирового рынка больших данных в 2016 году. Эта цифра не должна удивлять тех, кто проявляет интерес к большим данным. Но вот еще одна цифра: 3,1 трлн долларов США , оценка IBM годовой стоимости данных низкого качества только в США в 2016 году. Хотя большинство людей, которые имеют дело с данными каждый день, знают, что плохие данные обходятся дорого, эта цифра ошеломляет. Хотя цифры на самом деле несопоставимы, и существуют значительные различия между ними, можно только заключить, что прямо сейчас улучшение качества данных представляет собой гораздо большую возможность для данных. Руководителям рекомендуется более глубоко оценить имеющиеся возможности для улучшения качества данных и использовать их более полно, чем сегодня.
Причина, по которой плохие данные обходятся так дорого, заключается в том, что лица, принимающие решения, менеджеры, работники умственного труда, специалисты по обработке и анализу данных и другие лица должны приспосабливаться к ним в своей повседневной работе. А делать это долго и дорого. В необходимых им данных содержится множество ошибок, и перед лицом критического срока многие люди просто вносят исправления, чтобы выполнить поставленную задачу . Они не думают обращаться к создателю данных, объяснять свои требования и помогать устранять первопричины. Довольно быстро эта работа по проверке данных и внесению исправлений становится просто еще одним фактом рабочей жизни. Взгляните на рисунок ниже. Отдел B, помимо выполнения своей собственной работы, должен добавлять шаги для устранения ошибок, созданных отделом A.
Он исправляет большинство ошибок, хотя некоторые из них доходят до клиентов. Таким образом, отдел B также должен иметь дело с последствиями просачивающихся ошибок, которые могут включать такие проблемы, как недовольство клиентов (и начальство!), посылки, отправленные по неправильному адресу, и запросы на снижение счетов. W160912_REDMAN_DATAFACTORY Я называю добавленные шаги « фабрикой скрытых данных» . Компании, государственные учреждения и другие организации изобилуют скрытыми фабриками данных. Продавцы тратят время на работу с ошибочными данными о потенциальных клиентах; сотрудники службы доставки тратят время на исправление ошибочных заказов клиентов, полученных от продаж. Специалисты по данным тратят огромное количество времени на очистку данных; ИТ-отдел тратит огромные усилия на создание систем, которые «не разговаривают». Высшее руководство хеджирует свои планы, потому что не доверяет цифрам из финансового отдела.
Такие скрытые фабрики данных стоят дорого. Они составляют основу годовой цифры IBM в размере 3,1 триллиона долларов. Но вполне естественно, что менеджеров должны больше интересовать издержки их собственных организаций, чем экономики в целом. Итак, подумайте: 50 % — количество времени, которое работники умственного труда тратят на фабрики скрытых данных, охотясь за данными, находя и исправляя ошибки и ища подтверждающие источники данных, которым они не доверяют. 60% — расчетная доля времени, которую специалисты по данным тратят на очистку и организацию данных, согласно CrowdFlower . 75% — оценка доли общих затрат, связанных со скрытыми фабриками данных в простых операциях, основанная на двух простых инструментах, так называемом пятничном дневном измерении и «правиле десяти». В снижении стоимости плохих данных нет никакой тайны — вы должны пролить свет на эти скрытые фабрики данных и максимально сократить их количество.
Вышеупомянутое пятничное дневное измерение и правило десяти помогают пролить этот суровый свет. То же самое относится и к осознанию того, что скрытые фабрики данных представляют собой работу, не добавляющую ценности. Чтобы убедиться в этом, взгляните еще раз на описанный выше процесс. Если отдел А хорошо справляется со своей работой, то отделу Б не нужно выполнять дополнительные действия по поиску, исправлению и устранению последствий ошибок, что устраняет необходимость в скрытой фабрике. Ни один достаточно хорошо информированный внешний клиент не стал бы платить больше за эти шаги. Таким образом , скрытая фабрика данных не создает ценности. Предприняв шаги по устранению этих неэффективностей, вы можете потратить больше времени на более ценную работу, за которую они будут платить.
Обратите внимание, что в ближайшем будущем вам, вероятно, придется продолжать эту работу. Просто безответственно использовать неверные данные или передавать их клиенту. В то же время все хорошие менеджеры знают, что они должны минимизировать такую работу. Достаточно ясно, что способ уменьшить размер скрытых фабрик данных состоит в том, чтобы перестать делать так много ошибок. В приведенном выше двухэтапном процессе это означает, что отдел B должен связаться с отделом A, объяснить свои требования, привести несколько примеров ошибок и поделиться измерениями. Отдел A, со своей стороны, должен признать, что это является источником дополнительных расходов для отдела B, и усердно работать над поиском и устранением основных причин ошибок. Те, кто следуют этому режиму, почти всегда сокращают расходы, связанные со скрытыми фабриками данных, на две трети, а часто на 90% и более.
Я не хочу, чтобы это звучало проще, чем оно есть на самом деле. Это требует нового образа мышления. Упорядочение ваших требований как клиента может потребовать некоторых усилий, не всегда ясно, откуда берутся данные, и иногда возникает основная причина, которую трудно устранить. Тем не менее, подавляющее большинство проблем с качеством данных дает результат. Важно отметить, что преимущества повышения качества данных выходят далеко за рамки снижения затрат. Трудно представить какое-либо будущее в данных, когда так много всего плохого. Таким образом, повышение качества данных — это дар, который не перестаёт приносить — он позволяет вам постоянно сокращать расходы и легче использовать другие стратегии работы с данными.
Для всех, кроме немногих, нет лучшей возможности в данных. .