Anonimizacja danych – czynność polegająca na przekształceniu danych osobowych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do określonej lub możliwej do zidentyfikowania osoby fizycznej albo, jeżeli przyporządkowanie takie wymagałoby niewspółmiernych kosztów, czasu lub działań (art. 3 pkt 1 ustawy z dnia 16 września 2011 r. o wymianie informacji z organami ścigania państw członkowskich Unii Europejskiej, państw trzecich, agencjami Unii Europejskiej oraz organizacjami międzynarodowymi (Dz.U. z 2023 r. poz. 783).
Anonimizacja pozwala na trwałe usunięcie powiązań między danymi osobowymi, a osobą, której dotyczą. W ten sposób informacje, które przed anonimizacją były danymi osobowymi, przestają nimi być.
Metody anonimizacji danych[1]
Każda z metod anonimizacji w inny sposób modyfikuje dane. Odmienne charakterystyki metod powodują, że wybór techniki uzależniony jest od uwarunkowań danej sytuacji. Niektóre z technik dają możliwość użycia ich w kombinacji (np. supresja rejestrów po generalizacji). Metody anonimizacji danych to:
- Randomizacja – losowy rozdział danych w celu wyeliminowania ścisłego związku między danymi a konkretną osobą fizyczną. Zmiana układu danych w zestawie tak, aby poszczególne wartości zmiennych nadal były reprezentowane w zbiorze danych, generalnie nie odpowiadając oryginalnemu rejestrowi. Dodatkowe techniki stosowane w randomizacji to:
- Dodanie zakłóceń, czyli modyfikacja atrybutów osób fizycznych, która utrudnia identyfikację np. zmiana miejsca zamieszkania, modyfikacja wieku o +/− 5 lat.
- Permutacja, czyli tasowanie wartości atrybutów w tabelach przez podstawianie wartości z jednego zapisu do innego zapisu.
- Generalizacja (uogólnienie) – celowe obniżenie precyzji danych (np. zmiana dokładnego wieku osoby na przedział wiekowy).
- Supresja atrybutów – odnosi się do usunięcia całej partii danych (w arkuszach i bazach danych nazywanej również “kolumną”) w zestawie danych.
- Supresja rejestrów – dotyczy usunięcia całego rejestru w zestawie danych. W odróżnieniu od innych technik, ta metoda wpływa na wiele zmiennych jednocześnie.
- Maskowanie znaków – zmiana znaków wartości danych np. przez użycie stałego symbolu (np. „*” lub „x”). Maskowanie dotyczy tylko części znaków danej zmiennej.
- Pseudonimizacja (kodowanie) – zamiana wartości zmiennej z rzeczywistych na fikcyjne. Odwracalna pseudonimizacja występuje, gdy rzeczywiste wartości zmiennej są bezpiecznie przechowywane i w razie potrzeby mogą zostać odzyskane i połączone z pseudonimem. Gdy pierwotne wartości zostaną odpowiednio usunięte, pseudonimizacja jest nieodwracalna.
- Perturbacja danych – za dane rzeczywiste podstawiane są wartości, które w niedużym stopniu odbiegają od oryginalnych wartości zmiennej.
- Dane syntetyczne – technika używana głównie do bezpośredniego generowania syntetycznych zestawów danych, bez związku ze zbiorem danych rzeczywistych.
- Agregacja danych – konwersja listy wartości danych w zagregowane wielkości.
Korzyści związane z wykorzystaniem anonimizacji danych[2]
- Spełnienie zgodności z przepisami ochrony danych osobowych.
- Zapewnienie bezpieczeństwa danych w środowisku nieprodukcyjnym.
- Brak konieczności uzyskania zgody na przetwarzanie danych.
- Możliwość wykorzystania danych zanonimizowanych do innych celów niż wstępnie założone.
- Dane mogą być przechowywane przez nieograniczony czas.
- Istnieje możliwość międzynarodowego eksportowania danych.
Zagrożenia towarzyszące anonimizacji danych[2]
- Ryzyko wyodrębnienia – możliwość wyizolowania niektórych lub wszystkich wartości identyfikujących daną osobę w zbiorze danych.
- Ryzyko powiązania – możliwość powiązania co najmniej dwóch wartości dotyczących tego samego podmiotu danych lub grupy podmiotów (zarówno w jednej, jak i dwóch różnych bazach danych).
- Ryzyko konkluzji – możliwość dedukcji wartości zmiennej ze zbioru wartości innych zmiennych.
Narzędzia do anonimizacji danych[3]
- Microsoft Azure[4], Microsoft
- Oracle Advanced Security[5], Oracle
- IBM Security Guardium[6], IBM
- Dynamic Data Masking[7], Informatica[8]
- Micro Focus Data Express™[9], Micro Focus
- Mage Dynamic Data Masking[10]
- CA Data Manager[11], CA Technologies
- Compuware[12]
- IRI Field Shield[13], IRI
- Data Base Protector[14], Protegrity
- Thales eSecurity[15], Thales
- Soflab GALL[16], Soflab Technology
Przypisy