Вопросы и ответы об AWS Clean Rooms

Общие вопросы

AWS Clean Rooms упрощает вам и вашим партнерам анализ и сотрудничество при работе с общими наборами данных для получения новых ценных выводов. При этом не нужно раскрывать другим участникам свои базовые данные. Вы можете создавать собственные пустые комнаты за считаные минуты и приступать к анализу общих наборов данных вместе с партнерами, выполнив лишь несколько шагов. С помощью сервиса AWS Clean Rooms вы можете легко сотрудничать с сотнями тысяч компаний, готовых использовать AWS. При этом не нужно переносить данные за пределы AWS или загружать их на другую платформу.

Совместная работа в AWS Clean Rooms – это безопасные логические границы, позволяющие участникам совместной работы выполнять SQL-запросы и моделирование машинного обучения, не передавая необработанные данные своим партнерам. Компании могут присоединиться к совместной работе только по приглашению. Несколько участников вносят данные в совместную работу, а один ее участник может получать результаты. Только приглашенные компании могут стать участниками совместной работы в AWS Clean Rooms.

В Консоли управления AWS вы можете выбрать тип анализа, партнеров, с которыми вы хотите сотрудничать, и какие наборы данных нужно использовать для совместной работы. С помощью AWS Clean Rooms можно выполнять два типа анализа – SQL-запросы и машинное обучение.

Когда вы выполняете запросы SQL или Spark SQL, сервис AWS Clean Rooms считывает данные в месте их хранения и применяет встроенные гибкие правила анализа, чтобы помочь вам сохранить контроль над своими данными. AWS Clean Rooms содержит широкий набор настраиваемых элементов управления для SQL для контроля доступа к данным, в частности средства контроля запросов, ограничения выводимых результатов запросов и ведение журналов запросов. Все это дает компаниям возможность настраивать ограничения для запросов, выполняемых каждым участником пустой комнаты. Вы можете использовать аналитический движок Spark для выполнения запросов на диалекте Spark SQL для совместной работы в AWS Clean Rooms. Функционал Spark SQL в AWS Clean Rooms позволяет настраивать размер вычислительных ресурсов, что обеспечивает более гибкую настройку и распределение ресурсов для выполнения SQL-запросов в зависимости от требуемой производительности, масштабируемости и стоимости. AWS Clean Rooms Spark SQL доступен только в настраиваемых правилах анализа. Дифференциальная конфиденциальность AWS Clean Rooms помогает за несколько кликов защитить конфиденциальность пользователей с помощью интуитивно понятного и математически обоснованного управления. Если вы выбрали аналитический движок SQL, то можете использовать Дифференциальную конфиденциальность AWS Clean Rooms, выбрав собственное правило анализа, а затем настроив параметры дифференциальной конфиденциальности. Кроме того, Криптографические вычисления для Clean Rooms (C3R) помогают хранить конфиденциальные данные в зашифрованном виде при выполнении аналитических запросов SQL в аналитическом движке Spark или SQL. Чтобы применить для совместной работы сервис «Дифференциальная конфиденциальность AWS Clean Rooms» или правила агрегирования или анализа списка, вы должны использовать SQL в качестве аналитического движка.

Сервис машинного обучения AWS Clean Rooms ML помогает вам и вашим партнерам применять машинное обучение в соответствии с правилами защиты конфиденциальности, чтобы выполнять прогнозную аналитику без необходимости обмена необработанными данными. С помощью моделирования, аналогичного AWS Clean Rooms ML, можно обучить собственную модель на основе ваших данных и предложить партнерам предоставить в рамках совместной работы небольшой образец записей, чтобы создать расширенный набор аналогичных записей и защитить себя и базовые данные вашего партнера. Моделирование в сфере здравоохранения будет доступно в ближайшие месяцы.

Сервис AWS Clean Rooms ML был создан и протестирован на широком спектре наборов данных, таких как электронная коммерция и потоковое видео, и может помочь клиентам повысить точность моделирования двойников до 36 % по сравнению с репрезентативными отраслевыми базовыми показателями. В реальных приложениях, таких как поиск новых клиентов, такое повышение точности может привести к экономии миллионов долларов.

С помощью Консоли управления AWS или операций API вы создаете пустую комнату для совместной работы, приглашаете компании, с которыми хотите сотрудничать, и выбираете возможности, которыми обладает каждый участник в рамках совместной работы. Затем участники могут настроить правила запросов на структурированные данные и обучить модели машинного обучения на своих данных. Наборы данных не копируются из аккаунтов участников и доступны только при необходимости. С помощью AWS Clean Rooms вы можете выбрать нужный тип анализа: SQL-запросы и моделирование машинного обучения с использованием AWS Clean Rooms ML. При использовании SQL-запросов также доступны дополнительные возможности, такие как конструктор анализа без кода, дифференциальная конфиденциальность AWS Clean Rooms и криптографические вычисления. После того как участники свяжут данные или модели с совместной работой и проведут анализ, результаты совместной работы будут сохранены в специальной корзине простого сервиса хранения данных Amazon (Amazon S3).

Сервис AWS Clean Rooms поддерживает до пяти участников в рамках одной совместной работы.

Вы сами контролируете, кто может участвовать в вашей совместной работе в AWS Clean Rooms, можете создать совместную работу или принять приглашение присоединиться к ней. Участие в совместной работе – прозрачный процесс для каждой стороны, а после ее создания новые аккаунты уже невозможно добавить. Однако при необходимости можно организовывать новые совместные работы с другими клиентами или партнерами. Вы устанавливаете доступ к своему контенту и управляете им, а также устанавливаете доступ к сервисам и ресурсам AWS посредством управления пользователями, группами, разрешениями и мандатами.

Клиенты могут получать аналитические сведения с помощью SQL-запросов или моделей AWS Clean Rooms ML на основе коллективных наборов данных вместе с партнерами, не передавая и не раскрывая базовые данные.

С помощью SQL добавлять данные могут несколько участников, но только один из них может выполнять SQL-запросы и получать результаты. Присоединяясь к совместной работе, участники договариваются о том, какая сторона будет выполнять запросы, какая – получать результаты, а какая – оплачивать вычислительные ресурсы. Только те, кого вы приглашаете в совместную работу, могут получить аналитическую информацию на основе установленных вами правил анализа. Настраивая совместную работу в AWS Clean Rooms, можно указать разные возможности для каждого участника совместной работы в соответствии с конкретными примерами использования. Например, если вы хотите, чтобы выходные данные запроса перешли к другому участнику, вы можете назначить одного участника исполнителем запросов, а другого – получателем результатов запросов. Это дает автору совместной работы возможность убедиться в том, что участник, который может отправить запрос, не имеет доступа к его результатам.

С помощью AWS Clean Rooms ML сотрудник получает выборочный набор записей, на основе которых он найдет похожие сегменты у своего партнера; другая сторона имеет больше таких наборов, из которых мы генерируем похожие сегменты на основе их сходства с выборочным набором записей. AWS Clean Rooms ML отправит исходные похожие сегменты в конечную точку, указанную стороной, от которой будет получено большая выборка похожих сегментов.

Разрешение сущностей AWS изначально интегрировано в AWS Clean Rooms. Вы можете использовать сопоставление на основе правил или поставщиков услуг данных для подготовки, сопоставления и связывания пользовательских данных с данными партнера, используя любой общий ключ (например, псевдонимизированные идентификаторы) в рамках сотрудничества AWS Clean Rooms с улучшенной конфиденциальностью.

AWS Clean Rooms доступен в регионах Восток США (Огайо), Восток США (Северная Вирджиния), Запад США (Орегон), Азиатско-Тихоокеанский регион (Сеул), Азиатско-Тихоокеанский регион (Сингапур), Азиатско-Тихоокеанский регион (Сидней), Азиатско-Тихоокеанский регион (Токио), Европа (Франкфурт), Европа (Ирландия), Европа (Лондон) и Европа (Стокгольм).

В AWS Clean Rooms вы можете использовать гибкие правила анализа SQL и машинное обучение для повышения конфиденциальности – в соответствии с потребностями своего бизнеса. Анализ SQL предлагает гибкие возможности выбора плетельщиков за совместно используемые вычислительные ресурсы SQL-запросов, за единицу обработки пустых комнат (CRPU) в час посекундно (минимальная плата составляет 60 секунд). При использовании AWS Clean Rooms ML вы платите только за запрошенное обучение моделей и созданные схожие сегменты по цене за 1000 профилей. Дополнительные сведения см. в разделе Цены на AWS Clean Rooms.

С помощью Разрешения сущностей AWS в AWS Clean Rooms вы можете использовать методы сопоставления на основе правил или поставщиков услуг данных со специальными наборами данных (например, LiveRamp).

При использовании метода сопоставления на основе правил хотя бы один участник сотрудничества должен подготовить свои данные перед сопоставлением с наборами данных своих партнеров, за исключением случаев, когда они уже подготовили свои данные с помощью Разрешения сущностей AWS до создания сотрудничества или присоединения к нему. Этот участник будет платить за подготовку данных только в том случае, если они используются. Любой участник, участвующий в сотрудничестве, может заплатить за сопоставление данных. Для сопоставления данных также требуется единовременная плата за сотрудничество, которая назначается любому участнику, оплачивающему сопоставление данных.

При использовании сопоставления на основе поставщика услуг данных все участники сотрудничества должны иметь подписку поставщика, чтобы подготовить свои данные с использованием идентификаторов поставщиков. Все участники сотрудничества должны подготовить свои данные с использованием идентификаторов поставщиков, прежде чем сопоставлять их с наборами данных своих партнеров, за исключением случаев, когда они уже подготовили свои данные с помощью Разрешения сущностей AWS до создания сотрудничества или присоединения к нему. Любой участник, участвующий в сотрудничестве, может оплатить сопоставление данных с помощью идентификаторов поставщиков. Кроме того, участник, оплачивающий сопоставление данных, должен иметь подписку поставщика. Вы можете использовать публичные подписки, перечисленные на странице Обмен данными AWS (ADX), или приобрести частную подписку непосредственно у выбранного вами поставщика услуг данных, а затем использовать ее на ADX с помощью программы Bring Your Own Subscription (BYOS). 

Дополнительные сведения см. на странице цен для Разрешения сущностей AWS в AWS Clean Rooms.

AWS Clean Rooms ML

AWS Clean Rooms ML помогает вам и вашим партнерам применять модели машинного обучения к коллективным данным, чтобы получать прогнозную информацию без обмена конфиденциальными. Благодаря этой возможности AWS Clean Rooms вы можете пригласить партнеров в пустую комнату и применить управляемую AWS и готовую к использованию модель машинного обучения, которую обучают при каждой совместной работе создавать похожие наборы данных за несколько шагов, экономя месяцы работы по разработке, созданию, обучению, настройке и развертыванию собственной модели.

AWS Clean Rooms ML помогает клиентам в различных примерах использования: например, авиакомпания может использовать данные о своих клиентах, сотрудничать с сервисом онлайн-бронирования и выявлять потенциальных путешественников со схожими характеристиками, салоны лизинга автомобилей и компании по автострахованию могут выявлять потенциальных клиентов, имеющих схожие с текущими клиентами характеристики, а бренды и издатели могут моделировать похожие сегменты клиентов на рынке и предоставлять релевантные рекламные материалы, при этом не делясь исходными данными с другими. Моделирование в сфере здравоохранения будет доступно в ближайшие месяцы.

Сервис AWS Clean Rooms ML был создан и протестирован на широком спектре наборов данных, таких как электронная коммерция и потоковое видео, и может помочь клиентам повысить точность моделирования двойников до 36 % по сравнению с репрезентативными отраслевыми базовыми показателями. В реальных приложениях, таких как поиск новых клиентов, такое повышение точности может привести к экономии миллионов долларов.

С помощью моделирования по сходным признакам в рамках AWS Clean Rooms ML можно обучить собственную модель на основе ваших данных и предложить партнерам предоставить в рамках совместной работы небольшой образец записей, чтобы создать расширенный набор аналогичных записей и защитить себя и базовые данные вашего партнера. AWS Clean Rooms ML берет небольшую выборку записей от одной стороны и находит гораздо больший набор записей или похожий сегмент в наборе данных другого участника. AWS Clean Rooms ML не передает данные ни одной из сторон, и они могут удалить свои данные или удалить собственную модель в любое время. Можно указать желаемый размер полученного похожего сегмента, и AWS Clean Rooms ML в частном порядке сопоставит уникальные профили из вашего выбранного списка с профилями в наборе данных вашего партнера, а затем обучит модель машинного обучения, которая предсказывает, насколько каждый профиль в наборе данных вашего партнера похож на профиль в вашей выборке. AWS Clean Rooms ML автоматически сгруппирует профили, похожие на выбранный список, и выведет полученный похожий сегмент. AWS Clean Rooms ML устраняет необходимость делиться данными для создания, обучения и развертывания моделей машинного обучения с партнерами. С AWS Clean Rooms ML ваши данные будут использоваться только для обучения вашей модели и не будут использоваться для обучения модели AWS. Вы можете использовать интуитивно понятные элементы управления, которые помогут вам и вашим партнерам настроить прогнозные результаты модели.

Безопасность и защита данных

Защита данных осуществляется с учетом базовых принципов безопасности AWS, а AWS Clean Rooms построен на основе сервисов безопасности AWS, включая управление идентификацией и доступом AWS (IAM), сервис управления ключами AWS (KMS) и AWS CloudTrail. Это позволяет расширить существующую стратегию защиты данных на рабочие нагрузки совместной работы. С AWS Clean Rooms вам больше не нужно размещать или сохранять копии своих данных за пределами среды AWS и отправлять их другой стороне для проведения анализа, чтобы получить аналитическую информацию о поведении потребителей, маркетинговые измерения, прогнозы или оценку рисков.

Настраивая совместную работу в AWS Clean Rooms и проводя анализ SQL, можно указать разные возможности для каждого участника совместной работы в соответствии с конкретными примерами использования. Например, если вы хотите, чтобы выходные данные запроса перешли к другому участнику, вы можете назначить одного участника исполнителем запросов, а другого – получателем результатов запросов. Это дает автору совместной работы возможность убедиться в том, что участник, который может отправить запрос, не имеет доступа к его результатам.

Сервис AWS Clean Rooms также содержит элементы управления запросами SQL, позволяя ограничить определенные запросы и их типы, которые будут выполняться в ваших таблицах данных, через настройку правил анализа. AWS Clean Rooms поддерживает три типа правил анализа SQL: объединение, список и настройка. С помощью правила анализа «объединение» можно настроить таблицу, разрешив только те запросы, которые генерируют объединенную статистику (например, оценку или атрибуцию кампании). С помощью правила анализа «список» элементы управления можно настроить таким образом, что запросы будут анализировать только стыки ваших наборов данных с наборами данных члена, способного направлять запросы. С помощью правила анализа «настройка» вы можете настроить элементы управления на уровне запросов, чтобы разрешить выполнение определенных аккаунтов или запросов в наборе данных. При использовании специальных правил анализа вы можете использовать дифференциальную конфиденциальность. Дифференциальная конфиденциальность AWS Clean Rooms помогает защитить конфиденциальность пользователей с помощью интуитивно понятного и математического управления за несколько кликов. AWS Clean Rooms – это полностью управляемый сервис, поэтому не требуется предварительный опыт с дифференциальной конфиденциальностью, чтобы предотвратить повторную идентификацию пользователей. Другим элементом управления являются пороговые значения агрегирования, что препятствуют разбивке запросов на небольшие группы, которые могут быть повторно идентифицированы.

С AWS Clean Rooms ML ваши данные будут использоваться только для обучения вашей модели и не будут использоваться для обучения модели AWS. AWS Clean Rooms ML не использует данные обучения или сравнения сегментов какой-либо компании с данными других компаний, и вы можете удалить свою модель и данные обучения в любое время.

Нет. Наборы данных хранятся в аккаунтах AWS участников. Сервис AWS Clean Rooms временно считывает данные из их аккаунтов для выполнения запросов, сопоставления записей, обучения моделей машинного обучения или расширения исходных сегментов. Результаты анализа отправляются в местоположение S3, предназначенное для анализа.

Разрешение сущностей AWS в AWS Clean Rooms создает набор данных, который сопоставляется с идентификаторами всех участвующих сторон. Набор данных сопоставления управляется AWS Clean Rooms. Ни один из участников не может просматривать или загружать таблицу сопоставления. Если все участники согласятся смягчить эту меру обеспечения конфиденциальности, можно запросить таблицу сопоставления для конкретных случаев использования. Любая из сторон может в любой момент удалить таблицу.

Модели, созданные AWS Clean Rooms ML, хранятся в сервисе, могут быть зашифрованы с помощью управляемого клиентом ключа AWS KMS и удалены клиентом в любой момент.

Правила анализа и шифрования AWS Clean Rooms позволяют тщательно контролировать типы информации, которыми вы хотите делиться. Участники совместной работы с данными должны выполнять оценку рисков каждой такой работы, включая риск повторной идентификации, и проявлять должную осмотрительность для обеспечения соответствия применимым законам о конфиденциальности данных. Если данные, которыми вы делитесь, конфиденциальные или регламентируемые, мы рекомендуем вам заключать соответствующие юридические договора и применять механизмы аудита, чтобы минимизировать риски для конфиденциальности.

Да. Условия обслуживания AWS предусматривают запрет на определенные варианты использования для совместной работы в AWS Clean Rooms.

Да, программа AWS для соответствия требованиям HIPAA включает в себя сервис AWS Clean Rooms как соответствующий требованиям HIPAA. Если вы заключили с AWS договор делового партнерства (BAA), можно использовать AWS Clean Rooms для совместной работы в соответствии с требованиями HIPAA. Если у вас нет договора BAA или остались другие вопросы об использовании AWS для приложений, совместимых с HIPAA, свяжитесь с нами для получения дополнительной информации.

Ресурсы с подробной информацией см. ниже.

Страница «Соответствие требованиям HIPAA на AWS»

Страница «Облачные вычисления в здравоохранении на AWS»

SQL-анализ

Вы можете использовать аналитический движок Spark для выполнения запросов на диалекте Spark SQL для совместной работы в AWS Clean Rooms. AWS Clean Rooms Spark SQL предлагает настраиваемые размеры вычислительных ресурсов, что позволяет лучше контролировать соотношение цены и производительности при выполнении рабочих нагрузок SQL. Чтобы применить для совместной работы сервис «Дифференциальная конфиденциальность AWS Clean Rooms» или правила агрегирования или анализа списка, вы должны использовать SQL в качестве аналитического движка.

AWS Clean Rooms Spark SQL по умолчанию использует тип инстанса CR.1X, который предоставляет 4 виртуальных процессора, 30 ГБ памяти и 100 ГБ хранилища. Вы можете выделить больше ресурсов для рабочих нагрузок Spark SQL, выбрав более крупный тип инстанса CR.4X, который предлагает 16 виртуальных ЦП, 120 ГБ памяти и 400 ГБ хранилища. Инстансы большего размера будут полезны для рабочих нагрузок SQL, которые обрабатывают большие объемы данных или выполняют сложную аналитику. Так вы сможете предоставлять для рабочих нагрузок больше ресурсов. Дополнительные сведения о параметрах виртуальных ЦП, памяти и хранилища для каждой конфигурации вы найдете здесь.

В правилах анализа SQL вы настраиваете элементы управления на уровне столбцов. Эти элементы помогают определять, как каждый столбец можно будет использовать в запросах. Например, можно указать, какие столбцы можно использовать для расчета объединенной статистики [например, SUM (цена)], а какие – для объединения вашей таблицы с таблицами других участников совместной работы. С помощью правила объединения также можно устанавливать минимальный порог объединения, которому должна будет соответствовать каждая строка выходных данных. Сервис AWS Clean Rooms автоматически отфильтровывает строки, не соответствующие минимальному порогу.

Да. Вы сможете настроить сервис AWS Clean Rooms так, чтобы он публиковал журналы запросов в журналах Amazon CloudWatch. С помощью правила настройки вы также можете просматривать запросы (сохраненные в шаблонах анализа) до их совместного запуска. 

Дифференциальная конфиденциальность AWS Clean Rooms

Дифференциальная конфиденциальность – это математически доказанная основа защиты конфиденциальности данных. Основное преимущество дифференциальной конфиденциальности заключается в защите данных на индивидуальном уровне за счет добавления контролируемого количества случайности (шума), чтобы скрыть присутствие или отсутствие какой-либо отдельной сущности в анализируемом наборе данных.

Дифференциальная конфиденциальность AWS Clean Rooms помогает защитить конфиденциальность пользователей с помощью удобных средств управления на основе математических алгоритмов. AWS Clean Rooms – это полностью управляемый сервис, поэтому не требуется предварительный опыт с дифференциальной конфиденциальностью, чтобы предотвратить повторную идентификацию пользователей. Дифференциальная конфиденциальность AWS Clean Rooms скрывает роль данных любого человека в формировании совокупной аналитической информации в ходе совместной работы, что позволяет выполнять широкий спектр SQL-запросов для получения данных о рекламных кампаниях, инвестиционных решениях, клинических исследованиях и многом другом.

Вы можете начать использовать дифференциальную конфиденциальность AWS Clean Rooms всего за несколько шагов после начала совместной работы в AWS Clean Rooms или присоединения к ней в качестве участника, способного предоставлять данные. После создания настроенной таблицы, которая ссылается на таблицу в каталоге данных AWS Glue, вам останется лишь включить дифференциальную конфиденциальность, когда будете добавлять в настроенную таблицу собственное правило анализа с помощью аналитического движка SQL. Затем вы связываете настроенную таблицу с вашей совместной работой в AWS Clean Rooms и настраиваете дифференциальную политику конфиденциальности в рамках совместной работы, чтобы сделать таблицу доступной для запросов. Можно использовать политику по умолчанию, чтобы быстро завершить настройку или настроить ее в соответствии с конкретными требованиями. Чтобы применить для совместной работы сервис «Дифференциальная конфиденциальность AWS Clean Rooms», вы должны использовать SQL в качестве аналитического движка.

После настройки дифференциальной конфиденциальности AWS Clean Rooms ваш партнер по совместной работе сможет выполнять запросы в контексте вашей таблицы даже без опыта работы с дифференциальными концепциями конфиденциальности или дополнительной настройки партнеров. Благодаря дифференциальной конфиденциальности AWS Clean Rooms исполнители запросов могут выполнять настраиваемый и гибкий анализ, включая сложные шаблоны запросов с общими табличными выражениями (CTE) и часто используемые функции для агрегирования, такие как COUNT и SUM.

Криптографические вычисления

Криптографические вычисления – это метод защиты и шифрования конфиденциальных данных во время использования. Данные можно шифровать в процессе их хранения, в динамике во время их передачи, а также при их использовании. Шифрование означает преобразование текстовых данных в закодированные данные, которые невозможно расшифровать без определенного «ключа». Пересечение частных множеств (PSI) – это тип криптографических вычислений, который позволяет двум или более сторонам, владеющим наборами данных, сравнивать их зашифрованные версии для выполнения вычислений. Шифрование осуществляется локально с помощью общего секретного ключа участников совместной работы. C3R доступен для аналитических движков Spark SQL и SQL.

Сервис AWS Clean Rooms включает криптографические вычисления для Clean Rooms (C3R), позволяющие предварительно шифровать данные с помощью инструмента шифрования на стороне клиента (SDK или интерфейса командной строки), который использует секретный ключ, общий для других участников совместной работы в AWS Clean Rooms. Это позволяет шифровать данные во время выполнения запросов.