Новое исследование показывает, что анонимности личных данных недостаточно для защиты

Согласно новым исследованиям, современные методы анонимизации данных подвергают людей риску быть повторно идентифицированными.

С первыми крупными штрафами за нарушение правил Общего регламента защиты данных (GDPR) ЕС и правительством Великобритании, собирающимся пересмотреть руководящие принципы GDPR, исследователи показали, как даже анонимные наборы данных могут быть прослежены до людей, использующих машинное обучение.

Исследователи говорят, что их статья, опубликованная сегодня в Nature Communications, демонстрирует, что для использования данных — например, для обучения алгоритмов ИИ — при сохранении конфиденциальности людей, требуется гораздо больше, чем просто добавление шума, выборка наборов данных и другие методы идентификации.

Они также опубликовали демонстрационный инструмент, который позволяет людям понять, насколько вероятно, что они будут отслежены, даже если набор данных, в котором они находятся, является анонимным, и только небольшая часть его разделяется.

Они говорят, что их выводы должны стать тревожным сигналом для политиков о необходимости ужесточения правил, касающихся подлинно анонимных данных.

Компании и правительства регулярно собирают и используют наши персональные данные. Наши данные и способы их использования защищены соответствующими законами, такими как GDPR или закон США о защите прав потребителей Калифорнии (CCPA).

Данные «отбираются» и анонимизируются, что включает в себя извлечение данных для идентификации характеристик, таких как имена и адреса электронной почты, чтобы теоретически невозможно было идентифицировать отдельных лиц. После этого процесса на данные больше не распространяются правила защиты данных, поэтому они могут свободно использоваться и продаваться третьим сторонам, таким как рекламные компании и брокеры данных.

Новое исследование показывает, что однажды купленные данные часто могут быть подвергнуты обратному анализу с использованием машинного обучения для повторной идентификации людей, несмотря на методы анонимизации.

Это может раскрыть конфиденциальную информацию о лицах, идентифицированных лично, и позволить покупателям создавать все более полные личные профили лиц.

Исследование впервые демонстрирует, как легко и точно это можно сделать — даже с неполными наборами данных.

В ходе исследования 99,98 процента американцев были правильно повторно идентифицированы в любом доступном «анонимизированном» наборе данных, используя только 15 характеристик, включая возраст, пол и семейное положение.

Первый автор доктор Люк Роше из UCLouvain сказал: «Хотя в Нью-Йорке может быть много людей тридцатилетнего возраста, живущих в Нью-Йорке, гораздо меньше из них родились 5 января и ездят на красной спортивной машине. и жить с двумя детьми (обеими девочками) и одной собакой."

Чтобы продемонстрировать это, исследователи разработали модель машинного обучения, чтобы оценить вероятность того, что характеристики индивидуума будут достаточно точными, чтобы описать только одного человека из миллиардов людей.

Они также разработали онлайн-инструмент, который не сохраняет данные и предназначен только для демонстрационных целей, чтобы помочь людям увидеть, какие характеристики делают их уникальными в наборах данных.

Сначала инструмент попросит вас ввести первую часть их почтового (UK) или почтового (US) кода, пола и даты рождения, прежде чем дать им вероятность того, что их профиль может быть повторно идентифицирован в любом анонимном наборе данных.

Затем он запрашивает ваше семейное положение, количество транспортных средств, статус владения домом и статус занятости, прежде чем пересчитывать. При добавлении дополнительных характеристик вероятность совпадения значительно возрастает.

Старший автор, доктор Ив-Александр де Монтжуи из Департамента вычислительной техники и науки о данных компании Imperial, сказал: «Это довольно стандартная информация, которую компании должны запрашивать. Несмотря на то, что они связаны рекомендациями GDPR, они могут свободно продавать данные. каждому, кто его анонимный. Наше исследование показывает, насколько легко и точно можно отследить людей, когда это произойдет.

Он добавил: «Компании и правительства приуменьшают риск повторной идентификации, утверждая, что продаваемые ими наборы данных всегда неполны.

«Наши результаты противоречат этому и демонстрируют, что злоумышленник может легко и точно оценить вероятность того, что найденная запись принадлежит тому человеку, которого он ищет».

Повторная идентификация анонимных данных — это то, как журналисты разоблачили налоговые декларации Дональда Трампа 1985-94 годов в мае 2019 года.

Соавтор д-р Джулиен Хендрикс из UCLouvain сказал: «Мы часто уверены, что анонимность сохранит нашу личную информацию в безопасности. Наша статья показывает, что де-идентификация далеко не достаточна для защиты конфиденциальности данных людей».

Исследователи говорят, что политики должны сделать больше, чтобы защитить людей от таких атак, которые могут иметь серьезные последствия для карьеры, а также личной и финансовой жизни.

Доктор Хендрикс добавил: «Важно, чтобы стандарты анонимизации были надежными и учитывали новые угрозы, подобные тем, которые продемонстрированы в этой статье».

Д-р де Монжуа сказал: «Цель анонимизации заключается в том, чтобы мы могли использовать данные для пользы общества. Это чрезвычайно важно, но не должно и не должно происходить за счет конфиденциальности людей».