Измененные наборы данных могут по-прежнему обеспечивать статистическую целостность

Согласно статистике Penn State, синтетические сети могут повысить доступность некоторых данных, сохраняя при этом индивидуальную или институциональную конфиденциальность.

«Мой ключевой интерес заключается в разработке методологии, которая позволила бы более широкий обмен конфиденциальными данными таким образом, который может помочь в научных открытиях», — сказала Александра Славкович, профессор статистики и заместитель декана по последипломному образованию, Eberly College of Science, Penn State.

«Возможность делиться конфиденциальными данными с минимальным измеримым риском для обнаружения конфиденциальной информации и при этом обеспечивать статистическую точность и целостность, является целью».

Славкович нашел решение этой проблемы конфиденциальности данных благодаря междисциплинарному сотрудничеству, особенно с компьютерными и социологами. Ее исследования сосредоточены на различных данных, включая сетевые данные, которые собирают информацию о взаимоотношениях между субъектами, такими как отдельные лица или учреждения.

Она сообщила о своих подходах к созданию синтетических сетей, которые удовлетворяют понятию дифференциальной конфиденциальности сегодня (16 февраля) во время ежегодного собрания Американской ассоциации содействия развитию науки в Вашингтоне, округ Колумбия, в 2019 году.

Дифференциальная конфиденциальность обеспечивает математически доказуемую гарантию уровня потери конфиденциальности частным лицам.

Ученые хотят получить доступ к данным, собранным другими для своих исследований, но такой доступ может также поставить под угрозу личную конфиденциальность даже после удаления так называемых данных, позволяющих установить личность.

«Обилие вспомогательных данных является основным виновником», — сказал Славкович. «Благодаря методологическим и технологическим достижениям в области сбора данных и связи между записями, более легкому доступу к разнообразным источникам данных, которые могут быть связаны с набором данных в руках, и требованиям финансовых агентств к обмену данными, риски для конфиденциальности данных возрастают. Но, находя хорошие Решения для управления потерей конфиденциальности имеют важное значение для обеспечения надежного научного открытия".

Например, в общедоступной информации, полученной в ходе испытания препарата на ВИЧ, указывалось, кто находился в группе лечения, а кто — в контрольной группе. В группу лечения будут входить только люди с диагнозом ВИЧ, и хотя владельцы данных скрывают личные данные из этого набора данных, некоторая идентифицирующая информация останется. Поскольку сегодня в Интернете доступно много информации в социальных сетях и других наборах данных, можно связать точки и идентифицировать людей, потенциально раскрывая их ВИЧ-статус.

«Методы, связывающие два набора данных, например, записи избирателей и данные медицинского страхования, значительно улучшились», — сказал Славкович. «В одном из самых ранних исследований Латаня Швини (в настоящее время в Гарварде) показала, что, связывая эти типы данных, вы можете идентифицировать 87 процентов людей в переписи населения США 1990 года на основе их даты рождения, пола и 5-значного числа. Почтовый индекс. Позже исследователи использовали твиты и соответствующие метаданные Twitter, чтобы показать, что они могут идентифицировать пользователей с точностью до 96,7%».

Славкович отмечает, что не только люди или учреждения, чьи данные содержатся в базах данных, но и люди, находящиеся за пределами базы данных, также могут пострадать от вторжения в личную жизнь, напрямую или по ассоциации. Связи между информацией в наборе данных и информацией в социальных сетях могут привести к серьезному нарушению конфиденциальности — что-то вроде ВИЧ-статуса или сексуальной ориентации может иметь серьезные последствия в случае выявления.

Хотя конфиденциальность важна, собранные наборы данных являются важным источником информации для исследователей. В настоящее время в некоторых случаях, когда данные являются исключительно конфиденциальными, исследователи должны физически посещать хранилища данных для проведения своих исследований, что делает исследование более трудным и дорогим.

Славкович интересуется сетевыми данными. Информация, которая показывает взаимосвязь людей или учреждений — узлов — и связей между узлами. Ее подход заключается в создании слегка измененных зеркальных сетевых наборов данных с несколькими перемещенными узлами, смещенными соединениями или измененными краями.

«Цель состоит в том, чтобы создать новые сети, которые удовлетворяют строгим дифференциальным требованиям конфиденциальности и в то же время получают большинство статистических функций из исходной сети», — сказал Славкович.

Эти синтетические наборы данных могут быть достаточными для некоторых исследователей, чтобы удовлетворить свои потребности в исследованиях. Для других было бы достаточно проверить их подходы и гипотезы, прежде чем идти на сайт хранения данных. Исследователи могут тестировать код, проводить предварительные исследования и, возможно, базовый анализ, ожидая разрешения на использование исходных данных на своем сайте хранилища.

«Мы не можем удовлетворить требования для всего статистического анализа с помощью одного и того же типа измененных данных», — сказал Славкович. «Некоторые люди будут нуждаться в исходных данных, но другие могут иметь большое значение с синтетическими данными, такими как синтетические сети».