Змінені набори даних все ще можуть забезпечити статистичну цілісність

Згідно зі статистикою Penn State, синтетичні мережі можуть підвищити доступність деяких даних, зберігаючи при цьому індивідуальну чи інституційну конфіденційність.

«Мій ключовий інтерес полягає у розробці методології, яка б дозволила ширший обмін конфіденційними даними таким чином, який може допомогти у наукових відкриттях», - сказала Олександра Славкович, професор статистики та заступник декана з післядипломної освіти, Eberly College of Science, Penn State.

"Можливість ділитися конфіденційними даними з мінімальним вимірним ризиком для виявлення конфіденційної інформації і при цьому забезпечувати статистичну точність і цілісність є метою".

Славкович знайшов вирішення цієї проблеми конфіденційності даних завдяки міждисциплінарній співпраці, особливо з комп'ютерними та соціологами. Її дослідження зосереджені на різних даних, включаючи мережеві дані, які збирають інформацію про взаємини між суб'єктами, такими як окремі особи чи установи.

Вона повідомила про свої підходи до створення синтетичних мереж, які задовольняють поняття диференціальної конфіденційності сьогодні (16 лютого) під час щорічних зборів Американської асоціації сприяння розвитку науки у Вашингтоні, округ Колумбія, у 2019 році.

Диференційна конфіденційність забезпечує математично доведену гарантію рівня втрати конфіденційності приватним особам.

Вчені хочуть отримати доступ до даних, зібраних іншими для своїх досліджень, але такий доступ може також поставити під загрозу особисту конфіденційність навіть після вилучення так званих даних, що дозволяють встановити особу.

«Множина допоміжних даних є основним винуватцем», - сказав Славкович. «Завдяки методологічним та технологічним досягненням у галузі збору даних та зв'язку між записами, легшому доступу до різноманітних джерел даних, які можуть бути пов'язані з набором даних у руках, та вимогам фінансових агентств до обміну даними, ризики для конфіденційності даних зростають. Але, знаходячи хороші рішення для управління втратою конфіденційності мають важливе значення для забезпечення надійного наукового відкриття.

Наприклад, у загальнодоступній інформації, отриманій під час випробування препарату на ВІЛ, вказувалося, хто перебував у групі лікування, а хто – у контрольній групі. До групи лікування входитимуть лише люди з діагнозом ВІЛ, і хоча власники даних приховують особисті дані з цього набору даних, деяка інформація залишиться. Оскільки сьогодні в Інтернеті є багато інформації в соціальних мережах та інших наборах даних, можна зв'язати точки та ідентифікувати людей, потенційно розкриваючи їх ВІЛ-статус.

«Методи, які пов'язують два набори даних, наприклад записи виборців та дані медичного страхування, значно покращилися», - сказав Славкович. «В одному з ранніх досліджень Латаня Швіні (нині в Гарварді) показала, що, пов'язуючи ці типи даних, ви можете ідентифікувати 87 відсотків людей у переписі населення США 1990 року на основі їх дати народження, статі та 5-значного числа. Поштовий індекс. Пізніше дослідники використовували твіти та відповідні метадані Twitter, щоб показати, що вони можуть ідентифікувати користувачів з точністю до 96,7%.

Славкович зазначає, що не лише люди або установи, чиї дані містяться в базах даних, а й люди, які перебувають за межами бази даних, також можуть постраждати від вторгнення в особисте життя, безпосередньо або через асоціацію. Зв'язки між інформацією в наборі даних та інформацією соціальних мереж можуть призвести до серйозного порушення конфіденційності - щось на зразок ВІЛ-статусу або сексуальної орієнтації може мати серйозні наслідки у разі виявлення.

Хоча конфіденційність є важливою, зібрані набори даних є важливим джерелом інформації для дослідників. В даний час в деяких випадках, коли дані є виключно конфіденційними, дослідники повинні фізично відвідувати сховища даних для проведення своїх досліджень, що робить дослідження більш важким та дорогим.

Славковіч цікавиться мережевими даними. Інформація, яка показує взаємозв'язок людей або установ - вузлів - та зв'язків між вузлами. Її підхід полягає у створенні дещо змінених дзеркальних мережевих наборів даних з кількома переміщеними вузлами, зміщеними з'єднаннями або зміненими краями.

«Мета полягає в тому, щоб створити нові мережі, які задовольняють суворим диференціальним вимогам конфіденційності і водночас набувають більшість статистичних функцій з вихідної мережі», - сказав Славкович.