Sąd doszedł do powyższych wniosków poprzez stwierdzenie, że rozpatrywane przypadki „zapamiętywania” przez model (tzw. memoryzacji) świadczą o tym, że model sam w sobie musi stanowić kopię utworów, na których był trenowany. Taka interpretacja nie tylko znacząco rozszerza rozumienie prawa do zwielokrotniania utworów, lecz także podważa istotę wyjątków dotyczących eksploracji tekstów i danych (TDM) w prawie Unii Europejskiej.
TDM pozwala na trenowanie AI
Pierwszym pytaniem, na które trzeba odpowiedzieć, jest to, czy wyjątki dotyczące TDM pozwalają na trenowanie AI. Przez długi czas stanowiska sprzeciwiające się takiemu zastosowaniu oparte były na założeniu, że w trakcie przyjmowania tych przepisów legislatorzy unijni nie zdawali sobie sprawy z takiego sposobu ich wykorzystania. Wydaje się jednak, że po serii ostatnich rozstrzygnięć sprawa ta przestaje budzić wątpliwości. Sąd w sprawie GEMA zwrócił zwłaszcza uwagę na komunikat Komisji Europejskiej „Sztuczna inteligencja dla Europy” z 25 kwietnia 2018 r., w którym wyraźnie przywołano takie wyjątki jako potwierdzenie modernizacji unijnych przepisów w tym zakresie. Inną sprawą pozostaje ustalenie, który z dwóch rodzajów wyjątku TDM znajduje zastosowanie (art. 26[2] czy art. 26[3] prawa autorskiego), a także czy ewentualne zastrzeżenie (opt-out) jest prawnie skuteczne. Kwestia ta zasługuje jednak na odrębne omówienie.
Czasem pojawiają się natomiast głosy, że takie zastosowanie wyjątków TDM narusza tzw. test trójstopniowy. Stanowi on ograniczenie dopuszczalności dozwolonego użytku w przypadku, gdy wyjątek zostałby skonstruowany w taki sposób, że godziłby w nieuzasadniony sposób w słuszne interesy uprawnionych. Dla uznania zasadności tego rodzaju argumentów konieczne jest jednak dokonanie ekonomicznej analizy wpływu dozwolonych czynności na utratę znaczących zysków przez podmioty uprawnione. Takiej analizy nie zastąpi nawet najlepsza opinia prawna. Przekonali się o tym zwłaszcza powodowie w amerykańskiej sprawie Kadrey v. Meta Platforms, w której argumentowano, że prace generowane przez AI szkodą autorom zalewając rynek podobnymi treściami, jednak zdaniem sądu powodowie nie zdołali udowodnić takiego wpływu.
A może zainteresuje Cię w LEX: Odpowiedzialność cywilna za szkody wyrządzone klientom w wyniku wykorzystywania przez radców prawnych systemów sztucznej inteligencji >
Cena promocyjna: 143.1 zł
|Cena regularna: 159 zł
|Najniższa cena w ostatnich 30 dniach: 119.25 zł
Czy kopia utworu może wynikać wyłącznie ze statystycznych relacji
Trzeba przy tym mieć na uwadze, że celem modeli uczenia maszynowego jest przede wszystkim generalizacja wiedzy zawartej w danych treningowych, a nie kopiowanie ich formy wyrażenia. Modele uczenia maszynowego takie jak LLM-y (Large Language Models, czyli duże modele językowe) przechowują relacje statystyczne, a nie wierne kopie danych wykorzystanych do ich stworzenia. Stanowisko to podzielił także sąd angielski w sprawie Getty Images v. Stability powołując się na opinie biegłych należących do światowej klasy ekspertów w dziedzinie uczenia maszynowego (więcej o tej sprawie w serwisie Prawo.pl: Granice ochrony własności intelektualnej w erze AI: wnioski z głośnego wyroku).
Prawdą jest, że modele uczenia maszynowego mogą zapamiętywać niektóre dane treningowe. Główną przyczyną są zazwyczaj powielone materiały w takim zbiorze treningowym, co może wynikać np. z pobrania takich samych zdjęć tytułowych z różnych serwisów informacyjnych. Badania empiryczne dotyczące memoryzacji dowodzą przy tym, że zjawisko to nie wynika z określonych wag lub mechanizmów modelu. Takie sytuacje są raczej wynikiem pewnych ogólnych możliwości generatywnych modeli, dlatego bardzo trudno będzie je wyizolować i wyeliminować bez pogorszenia jakości modelu (Huang et al. 2024).
Czytaj też w LEX: Obowiązki dokumentacyjne przy wdrażaniu rozwiązań AI w przedsiębiorstwie – ocena ryzyka, zarządzanie jakością, procedury i informacje >
Bazując na aktualnym stanie wiedzy trudno byłoby uznać, że memoryzacja to pożądany stan rzeczy. Głos w tej sprawie zabrał nawet sam Nicholas Carlini, autor słynnych artykułów, na które prawnicy zaczęli się powoływać w sprawach prawnoautorskich. Jak wyraźnie podkreśla, jego badania nie skupiały się na kwestiach prawa autorskiego. Memoryzacja to rzadki błąd, który w większości przypadków ma miejsce wtedy, gdy model otrzyma specjalnie spreparowane zapytanie obejmujące długie fragmenty bardzo podobne do danych treningowych. Błąd, którego nikt tworzący modele uczenia maszynowego nie chce.
Jednocześnie jak pokazują najnowsze badania, szacuje się, że modele LLM są w stanie przechowywać tylko ok. 3,6 bitów danych na parametr (Morris et al. 2025). W przypadku modelu z miliardem parametrów odpowiada to ok. 450 MB potencjalnie zapamiętanych danych, czyli znacznie mniej niż setki gigabajtów (a nawet terabajtów) wykorzystanych do trenowania modelu. Sugeruje to, że takie przypadki mają raczej charakter incydentalny i niezamierzony.
Czytaj też w LEX: Memoryzacja utworów przez modele AI w świetle unijnego prawa autorskiego >
Niezamierzone włączenie utworu stanowi równie istotny wyjątek dla rozwoju AI
Większość dotychczasowych dyskusji co do legalności korzystania z utworów na potrzeby rozwoju AI dotyczyła wyjątków TDM. Warto jednak zwrócić uwagę, że to nie jedyny dozwolony użytek, który może znaleźć w takim przypadku zastosowanie. Zgodnie z art. 5 ust. 3 lit. i dyrektywy 2001/29/WE (InfoSoc) państwa członkowskie mogą przewidzieć wyjątek w przypadku niezamierzonego włączenia utworu lub przedmiotu prawa pokrewnego do innego materiału. Taki dozwolony użytek przewiduje m.in. prawo niemieckie i prawo polskie (art. 29[2] prawa autorskiego). Sąd w sprawie GEMA uznał jednak, że przepisy te nie mogą znaleźć zastosowanie, ponieważ zgodnie z implementacją krajową włączenie musi nastąpić w stosunku do innego większego utworu. Tymczasem wytrenowany model raczej nie cechuje się oryginalnością w rozumieniu prawa autorskiego.
Niemniej sama dyrektywa jest jednoznaczna i wyraźnie przewiduje w różnych wersjach językowych włączenie „do innego nośnika”, „dans un autre produit” (fr.) czy „in anderes Material” (niem.). Kwestia ta instynktownie nasuwa na myśl sprawę Deckmyn (C-201/13), w której TSUE już w 2014 r. potwierdził, że zawarte w innym wyjątku pojęcie parodii stanowi autonomiczne pojęcie prawa UE i nie wymaga, aby parodia sama w sobie była utworem.
Jednocześnie należy przypomnieć, że TSUE wielokrotnie podkreślał, że przepisy dyrektywy stanowią w tym zakresie środki harmonizacji pełnej. Jeżeli państwa zdecydują się na wprowadzenie jednego z wyjątków, to musi on być stosowany w sposób spójny (zob. wyrok TSUE w sprawie C-435/12).
W rezultacie należy uznać, że takie przepisy nie mogą uzależniać zastosowania wyjątku od włączenia przedmiotu objętego ochroną do innego utworu, skoro dyrektywa nie przewiduje takiego rozróżnienia. Mając na uwadze przeznaczenie tytułowej technologii, wszelkie kopie (jeśli jakiekolwiek istnieją) włączone do modeli będą najprawdopodobniej niezamierzone. Oznacza to, że w przypadku błędów, takich jak memoryzacja, overfitting czy inna „regurgitacja” w wynikach działania modelu, dostawcy będą mogli powołać się na dozwolony użytek w zakresie niezamierzonego włączenia utworu lub przedmiotu prawa pokrewnego do modelu.
Wydaje się, że powyższy wyjątek może znaleźć potencjalne zastosowanie także z perspektywy użytkownika, który nieświadomie generuje treści obejmujące fragmenty cudzych utworów lub przedmiotów praw pokrewnych. Niekoniecznie więc użytkownik będzie musiał nawiązać jakikolwiek „dialog” lub „konfrontację intelektualną” z takim fragmentem poprzez cytowanie, pastisz czy parodię.
Czytaj też w LEX: Wybrane aspekty prawa patentowego a unijna polityka i regulacje w obszarze sztucznej inteligencji >
Autor: Jakub Wyczik, doktor nauk prawnych specjalizujący się w prawnych aspektach nowoczesnych technologii, ze szczególnym uwzględnieniem zagadnień na styku prawa autorskiego i sztucznej inteligencji
-------------------------------------------------------------------------------------------------------------------
Linki w tekście artykułu mogą odsyłać bezpośrednio do odpowiednich dokumentów w programie LEX. Aby móc przeglądać te dokumenty, konieczne jest zalogowanie się do programu. Dostęp do treści dokumentów w programie LEX jest zależny od posiadanych licencji.












![AI dla prawników. Sztuczna inteligencja w praktyce zawodów prawniczych [PRZEDSPRZEDAŻ]](/gfx/prawopl/_thumbs/produkty_foto/83262/978-83-8438-070-3_,mn6D62SdolTgn7bKqdfXjIVm.jpg)
