OpenAI dla organów ochrony danych osobowych to duże wyzwanie

Data dodania: 14.09.2023 | 05:35

14.09.2023 | 05:35

W ostatnich tygodniach pojawiła się informacja o wniesieniu powództwa przeciwko spółkom zrzeszonym wokół projektu OpenAI, w tym spółce Microsoft. Postępowanie jest prowadzone przed sądem w USA. Sprawa została zainicjowana przez rzekomo poszkodowanych działaniem narzędzi udostępnionych przez OpenAI, jak ChatGPT. Powództwo dotyczy zarzutu pozyskiwania i wykorzystywania danych osobowych i własności intelektualnej - piszą Artur Piechocki oraz Katarzyna Gorzkowska z kancelarii APLAW.

Kwestia niezgodności przetwarzania danych osobowych z obowiązującymi przepisami budzi zainteresowanie nie tylko ze względu na sprawę prowadzoną w USA, lecz również z powodu coraz częstszych reakcji organów nadzorujących ochronę danych osobowych w państwach Unii Europejskiej.

Czytaj też: Sztuczna inteligencja rozwija się tak szybko, że nawet najnowsze prawo może za nią nie nadążyć

Europa również ma problem z ChatGPT

Pod koniec marca Garante per la protezione dei dati personali, czyli włoski organ ochrony danych (w skrócie: „włoski DPA”) zablokował działalność ChatGPT we Włoszech. W uzasadnieniu decyzji wskazano, że działanie chatbot’a opartego na tzw. sztucznej inteligencji narusza przepisy Unii Europejskiej dotyczące prywatności, w tym nie są stosowane mechanizmy weryfikujące, czy narzędzie wchodzi w interakcję z dziećmi.

Włoski DPA uzasadniając swoją decyzję wskazał na wątpliwości dotyczące istnienia podstawy prawnej dla masowego gromadzenia i przetwarzania danych osobowych w celu „szkolenia" algorytmów, na których opiera się narzędzie. Ponadto powołał się na to, że ChatGPT nie dokonuje żadnej weryfikacji wieku użytkowników, mimo że jest przeznaczony dla osób w wieku powyżej 13 lat. W efekcie włoski DPA stwierdził naruszenie artykułów 5, 6, 8, 13 i 25 rozporządzenia Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r. w sprawie ochrony osób fizycznych w związku z przetwarzaniem danych osobowych i w sprawie swobodnego przepływu takich danych (w skrócie: „RODO”).

Problem nadmiernego zbierania danych osobowych

Przepisy RODO nakazują, aby przetwarzanie danych osobowych odbywało się zgodnie z prawem, rzetelnie i w sposób przejrzysty dla osoby, której dane dotyczą (art. 5 ust. 1 lit a RODO). Ponadto dane powinny być zbierane w konkretnych i uzasadnionych celach (art. 5 ust. 1 lit b RODO), jak również ich zakres powinien być ograniczony do niezbędnego minimum (art. 5 ust. 1 lit c RODO).

Niestety sposób działania tzw. generatywnej sztucznej inteligencji nie do końca jest przejrzysty, co stawia liczne pytania o jego zgodność z zasadami określonymi w RODO. Przede wszystkim dużą niewiadomą stanowi źródło pozyskiwania danych osobowych. Duże modele językowe w celu „wytrenowania" sztucznej inteligencji wymagają ogromnych ilości danych. Dla tego procesu cenne są wszelkiego rodzaju dane osobowe.

Czytaj też w LEX: RODO w IT: sztuczna inteligencja a dane osobowe - czy RODO definiuje AI oraz ML? >>

Obecnie wiadomo, że narzędzie OpenAi stosuje tzw. „scraping”, polegający na wykorzystaniu „botów' i innych programów komputerowych do przeszukiwania sieci Internet i kopiowania informacji ze stron internetowych. Takie dane są następnie indeksowane i przechowywane. W przypadku ChatGPT przeszukiwany, a właściwie „śledzony” jest cały Internet. Zbierane dane mogą obejmować między innymi wpisy z czatów online, innych form osobistej komunikacji jak interakcje z obsługą klienta online i rozmowy w mediach społecznościowych; ponadto grafiki pobrane z Internetu.

W konsekwencji OpenAi może dysponować informacjami o zainteresowaniach, przekonaniach religijnych, poglądach politycznych, orientacji seksualnej i tożsamości płciowej, informacjami o pracy i historii, szczegółami (w tym zdjęciami) dotyczącymi rodzin i dzieci, zachowaniach zakupowych, upodobaniach i niechęciach, sposobach w jaki mówimy i piszemy, lokalizacji, miejscu zamieszkania, informacjami o zdrowiu (w tym stanie psychiki), informacjami o stronach internetowych, które odwiedzamy. Katalog posiadanych danych może być jednak znacznie szerszy. Taki zakres danych może umożliwiać identyfikację poszczególnych osób, jak również zagrozić prywatności, w tym zostać wykorzystane do kradzieży tożsamości, oszustw finansowych, czy kierowania reklam.

Kwestionowanie charakteru działalności OpenAi

W przypadku OpenAi wątpliwości budzi przede wszystkim podstawa prawna uzasadniająca gromadzenie i masowe przechowywanie danych osobowych, w celu „wyszkolenia" algorytmów, na których działaniu opiera się ChatGPT. Dotychczas OpenAi powoływała się na prowadzenie działalności badawczej, co jest jednak kwestionowane.

W uzasadnieniu wspomnianego powyżej pozwu wskazano, że OpenAI powstało w 2015 roku jako laboratorium badawcze o charakterze non-profit (tzn. niezarobkowym). Wówczas jego misją było rozwijanie sztucznej inteligencji w sposób, który przyniesie korzyści całemu społeczeństwu. Sytuacja uległa zmianie w 2019 r., gdy OpenAI przekierowała swoją działalność na generowanie zysków, skupiając się na komercjalizacji narzędzi sztucznej inteligencji, nad którymi pracowała. Stworzenie najpotężniejszej i najbardziej dochodowej sztucznej inteligencji wymaga znacznych ilości danych, dzięki którym OpenAI będzie w stanie „wytrenować" modele językowe, na których opierają się jej produkty. Proceder ma być realizowany przy użyciu superkomputera zbudowanego we współpracy z Microsoft. Powodowie wskazują, że postępowanie OpenAi stanowi strategię potajemnego pozyskiwania danych osobowych milionów osób z Internetu. W oparciu o te dane miały następnie zostać udostępnione produkty nie posiadające odpowiednich zabezpieczeń, zwłaszcza, że sam producent nie jest w stanie przewidzieć kierunku ewolucji działania algorytmów.

Zobacz też: Prawne aspekty sztucznej inteligencji >>

Brak właściwej podstawy prawnej

OpenAi w udostępnionej polityce prywatności wskazała, że przetwarza dane osobowe min. w celu ulepszania swoich usług i prowadzenia badań, jak również w celu opracowywania nowych programów i usług. Wymienione podstawy zostały jednak zakwestionowane przez włoski DPA. Brak prawidłowej podstawy dla zbierania, przechowywania i wykorzystywania danych osobowych stanowi również jeden z zarzutów w sprawie prowadzonej w USA. Aktualnie przeważa pogląd, że dane osobowe we wspomnianych celach, zwłaszcza ze względu na ich zakres, powinny być przetwarzane na podstawie zgody podmiotów danych (tj. art. 6 ust. 1 lit a RODO).

Należy zauważyć, że w uzasadnieniu wspomnianego powództwa zarzucono OpenAi zbieranie również danych dotyczących np. zdrowia, czy orientacji seksualnej. Co również istotne, takie i inne informacje o szczególnie wrażliwym charakterze mogą zostać dostarczone narzędziom przez samego użytkownika, w trakcie interakcji np. z ChatGPT. Z kolei, jak wynika z art. 9 ust. 1 RODO przetwarzanie tego typu danych jest co do zasady zabronione. Zgodnie z RODO przetwarzanie tzw. danych szczególnych jest dopuszczalne wyłącznie w przypadku spełnienia jednego z warunków określonych w art. 9 ust 2 RODO.

Czytaj w LEX: Pojęcie danych osobowych szczególnych kategorii, przetwarzania i profilowania >

Co prawda jedno z kryteriów stanowi prowadzenie badań naukowych, jednakże przetwarzanie powinno być niezbędne do osiągnięcia takiego celu i nie może naruszać istoty prawa do ochrony danych, jak również musi odbywać się z zastosowaniem odpowiednich zabezpieczeń (art. 9 ust. 2 lit j RODO). Zabezpieczenia powinny obejmować środki techniczne i organizacyjne zapewniające minimalizację danych, obejmować pseudonimizację lub anonimizację danych, o ile pozwala ona realizować założone cele (art. 89 ust. 1 RODO). W żadnym z przypadków RODO nie przewiduje bezpośredniego zezwolenia na przetwarzanie tzw. danych szczególnych w celu rozwijania usług, czy tworzenia nowych usług. Takie działanie byłoby jednak dopuszczalne na podstawie wyraźnej zgody (art. 9 ust. 2 lit a RODO).

Czytaj też w LEX: Prawo do usunięcia danych osobowych >

Brak należytego informowania o zakresie przetwarzanych danych osobowych

Jeden z zarzutów stwierdzonych przez włoski DPA dotyczy nieprawidłowej realizacji obowiązków wymienionych w art. 13 RODO. Polega on na niewystarczającym informowaniu użytkowników i wszystkich zainteresowanych stron, o tym jakie dane są gromadzone przez OpenAI. Należy zauważyć, że przepisy RODO nakazują przekazanie podmiotom danych określonych informacji, w przypadku gdy ich dane osobowe będą zbierane i przetwarzane, jak również dodatkowych informacji, w przypadku gdy dane osobowe pozyskiwane są z źródła innego niż bezpośrednio od podmiotów danych (art. 14 RODO).

Niewątpliwie osoby publikujące w Internecie, w tym w mediach społecznościowych, nie mogą przewidzieć, ani nie mają świadomości, że ich posty mogą zostać wykorzystane do trenowania modelu sztucznej inteligencji. Taka osoba nie została poinformowana o planowanym wykorzystaniu jej danych, jak również nigdy nie wyraziła zgody na takie działanie. Taka osoba nie będzie świadoma, że jej prywatność i prawa do danych osobowych zostały naruszone.

Zobacz nagranie szkolenia w LEX: Prawne aspekty sztucznej inteligencji >

Inne problemy generatywnej sztucznej inteligencji

Doświadczenie korzystania z ChatGPT pokazuje, że program nie zawsze generuje poprawne odpowiedzi. Pojawiające się błędy dotyczą także informacji o różnych osobach. Dostarczone przez ChatGPT wyniki nie zawsze odpowiadają rzeczywistym danym, co świadczy o problemie z realizacją zasady określonej w art. 5 ust. 1 lit d RODO, tj. nieprawidłowym przetwarzaniu danych osobowych. W przypadku, gdy model sztucznej inteligencji jest szkolony na danych osobowych wyjętych z kontekstu, może to naruszyć kontekstową integralność danych poszczególnych osób, co z kolei przeczy zasadzie określonej w art. 5 ust. 1 lit f RODO.

Kolejne zagadnienie stanowi brak pewności, czy inne generatywne modele sztucznej inteligencji (w tym ChatGPT) umożliwiają realizację prawa do „bycia zapomnianym” określonego w art. 17 RODO. Zgodnie z przepisami osoba, której dane dotyczą, w pewnych sytuacjach przysługuje prawo żądania niezwłocznego usunięcia dotyczących jej danych osobowych (art. 17 ust. 1 RODO). Tymczasem dane tworzone przez systemy generatywnej sztucznej inteligencji zazwyczaj mają trwały charakter. Odpowiedzi są tworzone na podstawie zebranych danych, co skutkuje praktycznie brakiem możliwości usunięcia wszystkich śladów danych osobowych danej osoby.

Czytaj też w LEX:

Agencja Unii Europejskiej ds. Cyberbezpieczeństwa, Dobre praktyki cyberbezpieczeństwa dla sztucznej inteligencji >

Model systemowego przeciwdziałania dyskryminacji algorytmicznej - uwagi na tle projektu aktu w sprawie sztucznej inteligencji >

Artur Piechocki – radca prawny, założyciel kancelarii APLAW

Artur Piechocki

Katarzyna Gorzkowska – prawnik w kancelarii APLAW

----------------------------------------------------------------------------------------------------------------------------------------------

Linki w tekście artykułu mogą odsyłać bezpośrednio do odpowiednich dokumentów w programie LEX. Aby móc przeglądać te dokumenty, konieczne jest zalogowanie się do programu. Dostęp do treści dokumentów LEX jest zależny od posiadanych licencji.

Autorzy:

Artur Piechocki

Katarzyna Gorzkowska