Что, если бы вы могли делиться данными с партнерами, правительствами и другими организациями, чтобы стимулировать инновации, не нарушая законов о конфиденциальности? Разве не было бы здорово, если бы вы могли лучше использовать тщательно охраняемые данные клиентов вашей компании и поддерживать самые высокие стандарты конфиденциальности и безопасности? Представьте, если бы вы могли создать новые источники дохода для своего бизнеса, монетизируя свои данные без ущерба для личной/конфиденциальной информации? Таково обещание синтетических данных, которые способны произвести революцию в том, как мир использует свои данные и извлекает из них выгоду. В современном мире данные действительно заставляют мир вращаться. Это основа практически всего, что мы делаем. А данные приобретают еще большую силу и важность, когда ими делятся. Подумайте о том, насколько быстрее можно было бы лечить болезни, или насколько меньше отходов, или насколько эффективнее могли бы работать экосистемы, если бы можно было свободно обмениваться данными. Конечно, такой обмен сегодня невозможен, потому что мы ограничены использованием наших собственных данных, которые по уважительной причине хорошо защищены. Что такое синтетические данные? Проще говоря, синтетические данные — это данные, искусственно сгенерированные алгоритмом ИИ, обученным на реальном наборе данных.
Цель состоит в том, чтобы воспроизвести статистические свойства и закономерности существующего набора данных путем моделирования его вероятностного распределения и выборки. Алгоритм по существу создает новые данные, которые имеют все те же характеристики, что и исходные данные, что приводит к тому же ответу, но, что особенно важно, какие-либо из исходных данных невозможно когда-либо реконструировать ни из алгоритма, ни из созданных им синтетических данных. . В результате синтетический набор данных имеет такую же предсказательную силу, как и исходные данные, но не содержит проблем конфиденциальности, которые ограничивают использование большинства исходных наборов данных. Вот пример: представьте себе простое упражнение, в котором вы заинтересованы в создании синтетических данных о спортсменах, в частности о росте и скорости. Мы можем представить взаимосвязь между этими двумя переменными в виде простой линейной функции… если вы возьмете эту функцию и захотите создать синтетические данные, достаточно просто заставить машину случайным образом создать набор точек, соответствующих уравнению. Это наш синтетический набор.
То же уравнение, но другие значения. Теперь представьте, что вас интересуют рост, скорость, артериальное давление, содержание кислорода в крови и т. д. Данные намного сложнее, и для их представления требуются более сложные нелинейные уравнения, и нам нужна мощь ИИ, чтобы помочь нам определить "шаблон." Используя то же мышление, что и в нашем простом примере, теперь можно использовать обученный ИИ для создания точек данных, которые приближаются к этому новому, более сложному «шаблону», который мы изучили, и, таким образом, создать наш синтетический набор данных. Синтетические данные — это благо для исследователей. Одним из примеров является то, что Национальные институты здравоохранения (NIH) в США делают с Syntegra, стартапом в сфере ИТ-услуг.
Syntegra использует свой механизм синтетических данных для создания и проверки неидентифицируемой копии базы данных NIH о пациентах с COVID-19, включающей более 2,7 миллиона человек, прошедших скрининг, и более 413 000 пациентов с положительным результатом на COVID-19. Синтетический набор данных, который точно дублирует статистические свойства исходного набора данных, но не содержит ссылок на исходную информацию, может быть передан и использован исследователями по всему миру, чтобы узнать больше о болезни и ускорить прогресс в лечении и вакцинах. Хотя пандемия продемонстрировала потенциальные варианты использования синтетических данных, ориентированные на исследования в области здравоохранения, мы видим потенциал этой технологии в ряде других отраслей. Например, в сфере финансовых услуг, где ограничения в отношении использования данных и конфиденциальности клиентов являются особенно ограничивающими, компании начинают использовать искусственные данные, чтобы помочь им выявлять и устранять предвзятость в отношении к клиентам, не нарушая при этом нормативных актов о конфиденциальности данных. Розничные продавцы начинают осознавать, как они могут создавать новые потоки доходов, продавая синтетические копии покупательского поведения своих клиентов, которые такие компании, как производители потребительских товаров, сочли бы чрезвычайно ценными, при этом сохраняя личные данные своих клиентов в надежном секрете. Ценность для бизнеса: безопасность, скорость и масштаб Хотя использование синтетических данных сегодня все еще находится в зачаточном состоянии, в ближайшие годы ожидается массовый рост, поскольку они обеспечивают компаниям безопасность, скорость и масштабируемость при работе с данными и искусственным интеллектом. Безопасность: защита конфиденциальной информации Наиболее очевидным преимуществом синтетических данных является устранение риска раскрытия критически важных данных и нарушения конфиденциальности и безопасности компаний и клиентов.
Такие методы, как шифрование, анонимизация и расширенное сохранение конфиденциальности (например, гомоморфное шифрование или безопасное многостороннее вычисление), сосредоточены на защите исходных данных и информации в этих данных, которая может быть отслежена до человека. Пока исходные данные находятся в игре, всегда существует риск компрометации или раскрытия их каким-либо образом. Синтетические данные не маскируют и не изменяют исходные данные — они заменяют их. Наиболее очевидным преимуществом синтетических данных является устранение риска раскрытия критически важных данных и нарушения конфиденциальности и безопасности компаний и клиентов. Это один из основных моментов в примере с COVID-19, упомянутом ранее, и, действительно, это большой аргумент в пользу отрасли здравоохранения в целом. Представьте, если бы мы с самого начала объединили все имеющиеся у нас данные обо всех, кто заразился этой болезнью по всему миру, и делились ими со всеми, кто хотел бы их использовать. Нам, вероятно, было бы лучше, но с точки зрения закона шансов на это нет.
Инициатива NIH демонстрирует, как синтетические данные могут преодолеть барьер конфиденциальности. Скорость: быстрый доступ к данным Еще одна серьезная проблема, с которой сталкиваются компании, — это быстрый доступ к своим данным, чтобы они могли начать извлекать из них пользу. Синтетические данные устраняют препятствия протоколов конфиденциальности и безопасности, которые часто усложняют и отнимают много времени для получения и использования данных. Рассмотрим опыт одного финансового учреждения. Предприятие имело большой запас ценных данных, которые могли помочь лицам, принимающим решения, решать различные бизнес-задачи. И все же данные были настолько хорошо защищены и контролировались, что получить к ним доступ было трудным процессом, даже если данные никогда не покинут компанию. В одном случае потребовалось шесть месяцев, чтобы получить даже небольшой объем данных, которые команда аналитиков использовала очень быстро.
Еще шесть месяцев последовало только для того, чтобы получить обновление. Чтобы обойти это препятствие доступа, компания создала синтетические данные из своих исходных данных. Теперь команда может постоянно обновлять и моделировать данные, а также генерировать постоянную важную информацию о том, как повысить эффективность бизнеса. Синтетические данные устраняют препятствия протоколов конфиденциальности и безопасности, которые часто усложняют и отнимают много времени для получения и использования данных. Кроме того, с помощью синтетических данных компания может быстро обучать модели машинного обучения на больших наборах данных, что означает более высокую скорость обучения, тестирования и развертывания решения ИИ. Это решает реальную проблему, с которой сталкиваются многие компании: отсутствие достаточного количества данных для обучения модели. Доступ к большому набору синтетических данных дает инженерам машинного обучения и специалистам по данным больше уверенности в результатах, которые они получают на разных этапах разработки модели, а это означает более быстрый выход на рынок с новыми продуктами и услугами и, в конечном итоге, большую ценность.
Быстрее. Масштаб: совместное использование для решения более серьезных проблем Масштаб — это побочный продукт безопасности и скорости. Безопасный и быстрый доступ к данным позволяет расширить объем данных, которые вы можете анализировать, и, соответственно, типы и количество проблем, которые вы можете решить. Это привлекательно для крупных компаний, чьи текущие усилия по моделированию имеют тенденцию быть довольно узкими, поскольку они ограничены только данными, которыми они владеют. Компании, конечно, могут приобретать сторонние данные в их «оригинальной» форме, но зачастую это непомерно дорого (и сопряжено с соответствующими проблемами конфиденциальности). Синтетические наборы данных от третьих лиц позволяют компаниям намного проще и дешевле дополнять свои собственные данные дополнительными данными из многих других источников, чтобы они могли больше узнать о проблеме, которую они пытаются решить, и получить более точные ответы — не беспокоясь. компрометации чьей-либо частной жизни.
Масштаб — это побочный продукт безопасности и скорости. Безопасный и быстрый доступ к данным позволяет расширить объем данных, которые вы можете анализировать, и, соответственно, типы и количество проблем, которые вы можете решить. Вот пример. Каждый банк обязан сам и регулирующие органы выявлять и пресекать мошенничество. И каждый банк находится в своем собственном поиске, работая независимо от других и выделяя значительные ресурсы на дело, потому что этого требуют регулирующие органы, и только самому банку разрешено просматривать свои данные для поиска подозрительной деятельности. Если бы банки использовали синтетические данные, они могли бы делиться информацией о своих расследованиях и анализах. Объединив свои синтетические наборы данных с коллегами в отрасли, они могли бы получить целостную картину обо всех людях, взаимодействующих с банками в конкретной стране, а не только о каждом банке, что помогло бы упростить и ускорить процесс обнаружения и, в конечном итоге, устранить больше мошенничества с использованием меньшего количества ресурсов.
Почему не все используют его? Преимущества синтетических данных убедительны и значительны. Но для их реализации требуется нечто большее, чем просто подключение инструмента ИИ для анализа ваших наборов данных. Для правильного создания синтетических данных требуются люди с действительно глубокими знаниями в области искусственного интеллекта и специализированными навыками, а также очень специфические, сложные структуры, которые позволяют компании подтвердить, что она создала то, что намеревалась создать. Это критический момент. Команда, работающая над проектом, должна быть в состоянии продемонстрировать бизнесу (или регулирующим органам или клиентам, если необходимо), что созданные ими искусственные данные действительно представляют исходные данные, но не могут быть связаны с исходными данными или раскрывать их. установить любым способом. Это действительно трудно сделать.
Если он не совпадает, важные закономерности в оригинале будут отсутствовать. Это означает, что последующие усилия по моделированию могут упустить из виду потенциально большие возможности или, что еще хуже, привести к неточным выводам. Существует также проблема предвзятости, которая может легко проникнуть в модели ИИ, обученные на созданных человеком наборах данных, которые содержат врожденные исторические предубеждения. Если компания создает синтетический набор данных, который просто копирует оригинал, новые данные будут иметь все те же смещения. Поэтому вам необходимо внести сложные коррективы в модели ИИ, чтобы они могли учитывать предвзятость и создавать более справедливый и репрезентативный набор синтетических данных. И это непросто, но возможно. Для правильного создания синтетических данных требуются люди с действительно глубокими знаниями в области искусственного интеллекта и специализированными навыками, а также очень специфические, сложные структуры, которые позволяют компании подтвердить, что она создала то, что намеревалась создать.
Синтетические данные также можно использовать для создания наборов данных, которые согласуются с заранее согласованным определением справедливости. Используя эту метрику в качестве ограничения для оптимизирующей модели, новый набор данных не только будет точно отражать исходный, но и будет соответствовать этому конкретному определению справедливости. В результате этот новый достоверный набор данных можно использовать для обучения модели без необходимости использования стратегий уменьшения смещения, таких как алгоритмическая справедливость, которые могут привести к компромиссам в отношении точности. Например, Mostly.AI продемонстрировал свою эффективность на хорошо известном наборе данных COMPAS о рецидивах, который подпитывал алгоритмические результаты расовой дискриминации. Подход Mostly.AI сократил разрыв между высокими показателями COMPAS для афроамериканцев (59%) и представителей европеоидной расы (35%) всего до 1% с «минимальным компромиссом в отношении точности прогнозирования».
Помимо проверки того, что реальная механика создания синтетических данных является надежной, большинству компаний также необходимо преодолеть общекультурное сопротивление этой концепции. «В нашей компании это не сработает». «Я не доверяю этому — это звучит небезопасно». «Регуляторы никогда не пойдут на это». Мы столкнулись с этим в североамериканской фирме, предоставляющей финансовые услуги, с которой работали. Когда мы впервые затронули эту тему с некоторыми руководителями компании, нам пришлось проделать большую работу, обучая их, а также отделы рисков и юристов тому, как работают синтетические данные. Но теперь, когда они одумались, их уже не остановить.
Движение вперед: образование, цель и навыки Для компаний, которые хотят эффективно создавать и использовать синтетические данные, чтобы извлечь выгоду из этих преимуществ, необходимо помнить о трех основных соображениях: ОБРАЗОВАНИЕ ЦЕЛЬ НАВЫКИ И УМЕНИЯ Синтетические данные — это новое и сложное понятие для большинства людей, сопровождающееся множеством заблуждений. Прежде чем внедрять любую программу синтетических данных, важно, чтобы все высшее руководство, а также специалисты по управлению рисками и юристы полностью понимали, что это такое, как оно будет использоваться и какую пользу оно принесет предприятию. Взгляд в будущее: экономика синтетических данных? Жажда данных для решения всевозможных проблем никуда не денется. Если институты, университеты, правительства и компании откроют двери для своих данных — но синтетическим образом — потенциал будущего будет захватывающим. Это могло бы привести к развитию процветающей экономики синтетических данных, в которой стороны создают, покупают и продают данные — или, в некоторых случаях, раздают их по уважительной причине — не беспокоясь о том, что отдельные лица или компании могут каким-либо образом быть скомпрометирован. Большая доступность синтетических данных приведет к федеративному обучению, которое позволит организациям создавать интеллектуальные системы, обученные на наборах данных других организаций, демократизируя данные для общего блага при соблюдении конфиденциальности и безопасности. Дело в том, что если вы можете создавать синтетические данные из своих собственных данных и есть смысл делиться ими, Синтетические данные обладают захватывающим потенциалом и множеством жизнеспособных вариантов использования во всех мыслимых отраслях, но они по-прежнему находятся на переднем крае науки о данных.
Насколько быстро он переходит от текущего состояния к практическому применению в реальных условиях, еще предстоит увидеть. Но нет никаких сомнений в том, что организации, которые смогут понять, как его создать и эффективно использовать, ждут значительные преимущества. .