Лицам, принимающим решения, лидерам, специалистам по данным и менеджерам часто приходится быстро оценивать, могут ли они доверять набору данных , могут ли они включать их в анализ или нужны ли они им, чтобы выбрать новое направление. Хотя существуют тысячи вариантов, их основной вопрос: «Есть ли у меня проблемы с качеством данных?» Я создал простой метод, который поможет любому ответить на этот вопрос. Я называю это «Измерение после полудня пятницы» (FAM), и оно предназначено для менеджеров любого уровня, чья работа зависит от данных. (На самом деле, FAM — это хорошее упражнение, которое нужно знать, если вы надеетесь стать тем, кого я называю провокатором данных .) Этот метод помогает вам легко измерить текущий уровень качества данных, разработать высокоуровневую оценку его влияния и обобщить. результаты. Он взаимозаменяем, то есть хорошо адаптируется к различным компаниям, процессам и наборам данных.

Чтобы следовать его методологии, выполните следующие четыре шага. Шаг 1.  Соберите последние 100 записей данных, использованных или созданных вашей группой. Например, если ваша группа принимает заказы клиентов, соберите последние 100 заказов; если вы создаете инженерные чертежи, соберите последние 100 чертежей. Затем сосредоточьтесь на 10–15 важных элементах данных (или атрибутах) в записи данных. Разложите их на электронной таблице или больших листах бумаги. Шаг 2.

  Попросите двух-трех человек, знакомых с данными, присоединиться к вам для двухчасовой встречи. (FAM берет свое название потому, что многие люди назначают эти встречи в пятницу днем, когда темп работы замедляется.) Шаг 3.  Работая запись за записью, попросите своих коллег отмечать явные ошибки заметным цветом, например красным или оранжевым. Для большинства записей это будет происходить невероятно быстро. Члены вашей команды либо заметят ошибки — неправильно написанное имя клиента или информацию, помещенную не в тот столбец, — либо нет. В некоторых случаях вы будете участвовать в подробных обсуждениях того, действительно ли элемент неверен, но обычно вы тратите на запись не более 30 секунд.

Шаг 4.  Подведите итоги. Во-первых, добавьте в таблицу столбец «отлично или нет». Отметьте его «да», если ошибок нет, и «нет», если в записи отображается красный или оранжевый цвет. Суммарное количество идеальных записей. Вы получите таблицу, очень похожую на рисунок ниже. W160720_REDMAN_ПЯТНИЦА ПОЛДЕНЬ   Интерпретируйте «количество идеальных записей» следующим образом: из последних 100 записей данных, завершенных нашей группой, мы правильно завершили только две трети — 67 из 100.

Почти каждый признает это действительно плохой производительностью. (Обратите внимание, что я часто использую это упражнение при обучении и консультировании, и я видел много худших результатов и несколько лучших. Качество данных 67% находится на верхней границе типичного.) Этот вывод подтверждает, что у вас есть проблема с качеством данных. Чтобы увидеть, как это повлияет на ваш бизнес, сделайте еще один шаг. Плохие данные вызывают всевозможные проблемы — принимать правильные решения сложнее, клиенты злятся — и это увеличивает затраты. Так называемое «правило 10» обеспечивает простой способ оценки этих затрат.

Он основан на наблюдении, что «выполнение единицы работы при дефектных входных данных стоит в 10 раз больше, чем при идеальных входных данных». Таким образом, в приведенном выше примере кто-то, использующий данные, сможет сделать это без дополнительных усилий в двух третях случаев, но в одной трети случаев внесение исправлений и завершение работы будет стоить примерно в 10 раз больше. . В качестве простого примера предположим, что ваша рабочая группа должна выполнять 100 единиц в день, и каждая единица стоит 1 доллар США, если данные идеальны. Если все идеально, дневная работа стоит 100 долларов (100 единиц по 1 доллару каждая). Но всего 67 идеальных: Общая стоимость = (67 x 1 доллар США) + (33 x 1 доллар США x 10) = 67 долларов США + 330 долларов США = 397 долларов США. Как видите, общая стоимость почти в четыре раза больше, чем если бы все данные были хорошими.

Думайте об этой разнице как о плате за низкое качество данных. Большинство компаний не могут и не должны мириться с такими расходами. Теперь, когда вы знаете, что у вас есть проблема с данными, и знаете, какие затраты связаны с этим, вы можете внести некоторые реальные улучшения! Электронная таблица показывает, в каких атрибутах есть ошибки, и, просматривая эти данные, вы можете увидеть, какие атрибуты нужно исправить в первую очередь. Подсчитайте количество ошибок в каждом столбце и сосредоточьтесь на двух-трех атрибутах с наибольшим общим количеством. Найдите и устраните их первопричины. В большинстве случаев вы должны ожидать, что лица, ответственные за создание данных (либо ваша команда, либо другая, в зависимости от выбранных вами данных), будут вносить эти улучшения в рамках своей повседневной работы с минимальными капиталовложениями или вообще без них. .

Но вы увидите, что частота ошибок снижается, а связанные с этим затраты значительно уменьшаются. Каждый должен сделать качество данных частью своей работы, и это упражнение предлагает простой способ сделать шаги к улучшению. Этот процесс не должен быть одноразовым упражнением — вы можете регулярно выполнять FAM для оценки качества ваших данных. Проведя время с FAM, вы сможете не только определить , есть ли  у вас проблема с качеством данных, но и узнать, на что направить свои усилия для ее устранения. .