Trenowanie modeli AI jako szczególna forma przetwarzania danych osobowych - Collegium Da Vinci Poznań
Treść Menu ogólne Menu studiów Stopka
16 czerwca 2025
Paulina Grzywacz - Wykładowca

Trenowanie modeli AI jako szczególna forma przetwarzania danych osobowych

Trenowanie modeli AI na danych osobowych stanowi szczególną formę przetwarzania wymagającą spełnienia wymogów RODO, w tym odpowiedniego uzasadnienia prawnego, minimalizacji danych oraz zastosowania środków technicznych i organizacyjnych zapewniających ochronę prywatności i bezpieczeństwo informacji.

O efektywności modelu AI decyduje w dużej mierze jakość danych, na których jest on trenowany. Zbiór danych treningowych może obejmować różnego rodzaju dane — nieosobowe, jak i osobowe. Gromadzenie i analiza tych drugich powinna być objęta szczególnym nadzorem z uwagi konieczność przestrzegania standardów i wymogów związanych z przetwarzaniem tych danych w sposób zgodny z prawem.

Wnioski:

  1. coraz częściej wskazuje się na możliwość zastosowania przesłanki prawnie uzasadnionego interesu administratora jako podstawy przetwarzania danych osobowych w trakcie trenowania modelu AI;
  2. skorzystanie z tej podstawy wymaga jednak przeprowadzenia, chociażby testu równowagi;
  3. pożądanym jest stosowanie metod pozwalających na minimalizację ryzyka podczas przetwarzania danych przy jednoczesnym osiągnięciu wysokiego poziomu ochrony danych i prywatności jak uczenie federacyjne modelu czy szyfrowanie homomorficzne.

Przetwarzanie danych osobowych

Nie wchodząc w szczegóły, terminem „przetwarzanie danych osobowych” obejmujemy cały katalog operacji wykonywanych na danych osobowych – niezależnie od formy i narzędzi, takich jak ich gromadzenie, przechowywanie, organizowanie, udostępnianie, a nawet usuwanie i niszczenie. [1] W kontekście trenowania modeli AI szczególną rolę odgrywają te działania, które wiążą się z gromadzeniem, analizowaniem, organizacją oraz wykorzystywaniem danych osobowych, ponieważ wszystkie te działania muszą być wykonane, aby dane osobowe mogły zostać wykorzystane do trenowania modeli AI.

Jaką rolę odgrywają dane osobowe w procesie trenowania modeli AI? Etap trenowania to proces, w którym algorytm uczy się na podstawie zbioru danych treningowych, aby móc później wykonywać określone zadania, np. rozpoznawać obrazy, tłumaczyć teksty czy prowadzić rozmowę. Mówiąc prościej — „trening” polega na pokazaniu modelowi bardzo dużej ilości przykładów i pozwoleniu mu na odkrywanie wzorców w tych danych.

W określonych przypadkach modele AI mogą być też trenowane na danych osobowych np. gdy tworzymy asystentów AI w celu obsługi klientów. Możemy stwierdzić, że trenowanie modeli stanowi szczególną formę przetwarzania, a więc operacji wykonywanej na danych osobowych. A ponieważ mamy do czynienia z przetwarzaniem w rozumieniu definicji zawartej w RODO, podczas etapu trenowania modelu konieczne jest przestrzeganie obowiązujących przepisów prawa, z czym związana jest przede wszystkim konieczność wdrożenia odpowiednich środków technicznych i organizacyjnych, a także zastosowanie metod minimalizujących ryzyko naruszenia danych.

[1] art. 4 pkt. 2 RODO

Podstawa przetwarzania danych osobowych

Wiedząc już, że proces trenowania modelu AI z udziałem danych osobowych mieści się w definicji formy przetwarzania tych danych koniecznym jest ustalenie, na jakiej podstawie możliwe jest takie przetwarzanie. Jak wskazuje RODO przetwarzanie danych powinno opierać się na jednej z podstaw prawnych określonych w art. 6 RODO. To do administratora danych należy określenie, na jakiej podstawie ma on prawo przetwarzać dane. Choć praktyka w tym zakresie wciąż się kształtuje, to jednak coraz częściej wskazuje się na możliwość zastosowania przesłanki prawnie uzasadnionego interesu administratora (art. 6 ust. 1 lit. f RODO).

Skorzystanie z tej podstawy wymaga jednak przeprowadzenia szeregu czynności – m.in. wykonania testu równowagi, który pozwala ocenić czy interes administratora danych nie przeważa nad prawami i wolnościami osób, których dane dotyczą. Warto zwrócić uwagę, że trenowanie modelu na danych osobowych powinno być ostatecznością. Jeżeli jest możliwość, żeby ten sam cel osiągnąć trenując model np. na danych poddanych procesowi anonimizacji lub danych syntetycznych to w pierwszej kolejności powinniśmy rozważyć właśnie taką możliwość.

Do obowiązków administratorów należy wykazanie stosowności skorzystania z podstawy uzasadnionego interesu jako podstawy przetwarzania danych w trakcie opracowywania i trenowania modelu. W jaki sposób mogą oni jej dokonać? Przede wszystkim przy powoływaniu się na uzasadniony interes konieczne jest przeprowadzenie trójstopniowego testu.

Trójstopniowy test

Pierwszą czynnością jaką należy wykonać przy przeprowadzaniu takiego testu jest identyfikacja prawnie uzasadnionego interesu realizowanego przez administratora lub osobę trzecią. Następnie należy przeprowadzić analizę konieczności przetwarzania do celów wynikających z prawnie uzasadnionego interesu – necessity test. Ostatnim krokiem jest ocenienie (zważenie) czy zidentyfikowany przez nas prawnie uzasadniony interes nie jest nadrzędny wobec interesów lub podstawowych praw i wolności osób, których te dane osobowe dotyczą – tzw. balancing test.

Jeżeli w trakcie przeprowadzonych czynności okaże się, że zidentyfikowany interes jest zgodny z prawem, jest jasno i precyzyjnie sformułowany, jest rzeczywisty i aktualny możemy uznać, że interes ten jest uzasadniony. Przykładami takiego uzasadnionego interesu prawnego w kontekście modeli AI jest rozwój usługi agenta konwersacyjnego w celu pomocy użytkownikom czy poprawa wykrywania zagrożeń w systemie informatycznym.

Przetwarzanie danych na podstawie uzasadnionego interesu

Ponieważ podstawa ta jest podstawą szczególną, która wymaga przeprowadzenia szczegółowej analizy należy przyłożyć szczególną uwagę, aby przetwarzanie danych osobowych na jej podstawie było zgodne z przepisami i standardami związanymi z danymi osobowymi w trakcie całego procesu przetwarzania, jakim jest trenowanie modelu AI. Przede wszystkim należy zwrócić uwagę na bezpieczeństwo danych, które może zostać zapewnione m.in. poprzez wdrożenie odpowiednich środków technicznych i organizacyjnych, mającymi na celu ochronę danych przed nieautoryzowanym dostępem do nich, modyfikacją lub utratą. Kolejną kwestią jest konieczność przestrzegania zasady minimalizacji określonej w RODO, tak aby w przypadku przetwarzania danych osobowych starać się ograniczać ich zakres do niezbędnego minimum.

Przestrzeganie tej zasady jest szczególnie trudne do realizacji w kontekście modeli AI, ponieważ modele te zazwyczaj wymagają dużych zbiorów danych, aby osiągnąć jak największą efektywność i jakość. Przestrzeganie zasady minimalizacji w tym zakresie możną osiągnąć poprzez weryfikację innego sposobu osiągnięcia tego samego celu (np. stosowanie danych nieosobowych, syntetycznych lub danych poddanych procesowi anonimizacji), a korzystanie z danych osobowych ograniczyć jedynie do niezbędnego minimum. Ważne jest także, aby osoby, których dane osobowe są wykorzystywane do trenowania modeli były w sposób prawidłowy poinformowane o celu i zakresie przetwarzania.

Minimalizacja ryzyka

Praktyka zdążyła wypracować już wiele metod pozwalających na minimalizację ryzyka podczas przetwarzania danych przy jednoczesnym osiągnięciu wysokiego poziomu ochrony danych i prywatności. Do metod najczęściej stosowanych należy np. skorzystanie z tzw. uczenia federacyjnego, czyli techniki polegającej na trenowaniu modelu na danych, które przechowywane są na wielu urządzeniach lub serwerach, unikając konieczności przesyłania danych do centralnego systemu tworzącego dużą bazę danych, która może być bardziej podatna na różnego rodzaju ataki. Inną metodą jest tzw. szyfrowanie homomorficzne, polegające na przetwarzaniu zaszyfrowanych danych bez ich odszyfrowywania, co może zapewnić ochronę prywatności przez cały etap trenowania modelu AI.

Kolejną metodą jaką mogą zastosować administratorzy danych chcący zminimalizować ryzyko jest zastosowanie bezpiecznych obliczeń wielostronnych, które pozwala na współpracę wielu stron nad wspólnym modelem AI bez konieczności ujawniania sobie nawzajem danych. Minimalizując ilość czynności przetwarzania danych minimalizujemy jednocześnie ilość sytuacji, w których dane mogą być narażone na ataki.

Trenowanie modeli AI na danych osobowych to nie tylko kwestia technologii, ale też odpowiedzialności. Ponieważ mamy tu do czynienia z przetwarzaniem danych, ważne jest, aby robić to świadomie i zgodnie z przepisami. Warto pamiętać o zasadzie minimalizacji, dobrze dobrać podstawę prawną i zadbać o bezpieczeństwo danych.