Czym jest mechanizm TDM opt-out?
Rozwój gospodarki cyfrowej, a co za tym idzie modeli GenAI wymaga ogromnych zasobów danych. Nierzadko są one chronione prawem autorskim, co rodzi konkretne ograniczenia w ich wykorzystaniu (np. konieczność zawierania umowy z każdym z twórców osobno).
Aby wspomóc postęp technologiczny i wyeliminować bariery prawne, unijny ustawodawca wprowadził obowiązkowe ograniczenie praw autorskich. Mowa oczywiście o dozwolonym użytku:
1) badawczym TDM (art. 3 Dyrektywy 2019/790) oraz
2) komercyjnym TDM (art. 4 Dyrektywy 2019/790)
w zakresie eksploracji tekstów i danych.
Sam TDM (Text and Data Mining – eksploracja tekstów i danych) jest zautomatyzowaną techniką analityczną. Służy do analizowania tekstów i danych w formie cyfrowej, aby wygenerować z nich informacje, takie jak wzorce, tendencje i korelacje (art. 2 pkt 2 Dyrektywy 2019/790). Dzięki TDM możliwe jest gromadzenie, analiza oraz wykorzystywanie treści do trenowania i rozwoju modeli GenAI.
Jednocześnie właściciele praw autorskich mogą skorzystać z TDM opt-out, który ogranicza dozwolony użytek komercyjny TDM. Jest to prawo, które pozwala im wyraźnie zastrzec, że nie zgadzają się na wykorzystywanie ich utworów do celów eksploracji tekstów i danych.
Co to oznacza w praktyce?
Firmy i inne podmioty mogą legalnie przeprowadzać TDM na ogólnodostępnych treściach, ale tylko wtedy, gdy właściciel praw autorskich nie wyraził sprzeciwu.
Nie ma jednego standardowego mechanizmu opt-out. Zamiast tego stosuje się kombinację środków prawnych i technicznych. Przykłady takich narzędzi zostały wymienione w raporcie EUIPO i omówione w dalszej części artykułu.
Mechanizmy prawne – jak UE chroni twórców?
Sposób wyrażenia sprzeciwu (TDM opt-out) zależy od formy, w jakiej treści są udostępnianie:
1) jeżeli są to treści umieszczone online (np. na stronie internetowej) wówczas zastrzeżenie musi być dokonane „środkami czytelnymi maszynowo”.
Oprócz środków technicznych, o który więcej poniżej może to być np. sekcja w regulaminie serwisu, gdzie zostanie umieszczone klarowne oświadczenie o zakazie scrapingu strony albo bardziej szczegółowe o zakazie TDM lub trenowania modelu AI na treściach, które się w serwisie znajdują.
Choć taki zapis w regulaminie nie jest „maszynowo czytelny” w sensie technicznym, to pojawiają się sygnały, że mimo wszystko może on spełniać warunki ważnego zastrzeżenia.
Przykładem jest spór sądowy z września 2024 r. (Kneschke przeciwko LAION), który toczył się przed Sądem w Hamburgu. W wyroku (w obiter dictum – niewiążącej części wyroku), sąd stwierdził, że odpowiednio sformułowane zastrzeżenia w języku naturalnym mogą spełniać warunki ważnej rezygnacji. Jednak mimo to, kwestia ta nadal budzi wątpliwości.
2) jeżeli są to treści niedostępne online, wówczas zastrzeżenie TDM opt-out może zostać umieszczone w:
- umowie np. licencyjnej,
- jednostronnym oświadczeniu.
Uzupełnieniem tej regulacji jest art. 53 ust. 1 pkt c AI Act, który wprost zobowiązuje dostawców modeli AI ogólnego przeznaczenia do wdrożenia polityki poszanowania prawa autorskiego. Muszą oni aktywnie identyfikować i respektować zastrzeżenia TDM opt-out wyrażone przez twórców, wykorzystując do tego najnowsze dostępne technologie. Co więcej, AI Act nakłada na nich obowiązek publikowania szczegółowych podsumowań dot. danych użytych do treningu, co ma zwiększyć przejrzystość całego procesu.
Niezależnie od ww. regulacji, coraz popularniejsze stają się bezpośrednie umowy licencyjne. Giganci technologiczni, tacy jak Open AI, zawierają umowy z największymi wydawcami (np. Financial Times, Axel Springer, Le Monde), aby legalnie pozyskiwać dane do trenowania swoich modeli. Wsparciem w tym ekosystemie są instytucje takie jak EUIPO, które promują standardy i dobre praktyki.
Środki techniczne – od protokołów po „zatruwanie” danych
Mechanizmy prawne kontrolujące wykorzystanie treści do trenowania modeli AI w Unii Europejskiej są uzupełnione przez szereg środków technicznych, których celem jest ochrona praw autorskich twórców i zwiększenie przejrzystości.
Te środki można podzielić na kilka kategorii:
1) techniczne mechanizmy zastrzegania praw (opt-out) – opierają się na protokołach internetowych (HTML, HTTP, ODRL, RightsML) oraz instrumentach technicznych (blockchain, scentralizowane rejestry). Przykłady:
- TDM Reservation Protocol (TDMRep),
- Open Rights Data Exchange (ORDE),
- C2PA TDM Assertion.
2) perturbacje ochronne – polegają na transformowaniu danych, w celu zaciemnienia ich charakterystycznych cech. Skutkuje to tym, że są one niewykrywalne podczas procesów eksploracji danych lub uczenia maszynowego. Przykłady:
- DataDust.ai,
- Glaze,
- NightShade.
3) rozwiązania w zakresie przejrzystości – ich celem jest zwiększenie transparentności w zakresie pochodzenia i wykorzystania danych. Przykłady:
- cyfrowe odciski palca (digital fingerprinting) – umożliwiają identyfikację treści, nawet po ich modyfikacjach np. YouTube Content ID,
- znaki wodne osadzane w treściach np. Google Synth-ID,
- JPEG Trust,
- Trace4EU.
Poniżej bardziej szczegółowe omówienie przykładowych środków technicznych oraz ich ograniczeń.
Robots Exclusion Protocol (REP) / robots.txt
Jest to protokół, który służy do zarządzania ruchem botów na stronie internetowej.
Plik robots.txt umieszczony na serwerze zawiera instrukcje dla user-agentów (botów). Jest standardem dla zarządzania scrapingiem.
REP ma jednak swoje ograniczenia. Bywa trudny w egzekwowaniu, ponieważ stanowi pewnego rodzaju „umowę dżentelmeńską”, którą niektórzy deweloperzy AI mogą ignorować. Ponadto może blokować boty indeksujące treści dla wyszukiwarek, co wpływa na widoczność treści w sieci.
Aby zwiększyć jego skuteczność proponowane jest np. dodanie dyrektywy DisallowAITraining, która nakazuje crawlerowi nieużywanie danych do trenowania modeli AI. Reguły te można również zaimplementować za pomocą meta tagu HTML (<meta name=”examplebot” content=”AllowAITraining”>).
TDM Reservation Protocol (TDMRep)
Jest to protokół opracowany przez EDRLab dla Federacji Wydawców Europejskich. Pozwala wydawcom sygnalizować, czy zezwalają na TDM ich treści, używając prostej flagi boole’owskiej (tdm-reservation) oraz opcjonalnego URL-a (tdm-policy) wskazującego na szczegółową politykę TDM.
Oferuje ochronę zarówno bazującą na lokalizacji (np. nagłówki HTTP, metadane w stronach HTML), jak i na zasobie (metadane w plikach EPUB). Podobnie jak REP nie pozwala selektywnie egzekwować zastrzeżenia TDM, co oznacza, że licencjonowanie nadal wymaga dodatkowych rozwiązań.
Rozwiązanie to zostało dominująco przyjęte w Europie zwłaszcza w sektorach operujących na treściach tekstowych (wydawnictwa, prasa i gazety).
Open Rights Data Exchange (ORDE) Valunode
Inicjatywa Valunode i EBSI (European Blockchain Services Infrastructure), której celem jest stworzenie otwartej infrastruktury do ochrony praw autorskich i monetyzacji treści, która obejmuje również wyrażanie zastrzeżeń TDM opt-ou.
Wykorzystuje technologię blockchain. Umożliwia twórcom uzyskanie „ID twórcy” (weryfikowanego przez ORDE), a następnie tokenu rejestracyjnego, wskazującego na weryfikowalne informacje o danych uwierzytelniających.
C2PA TDM Assertions (Content Authenticity Initiative)
Są to standardy pozwalające na osadzanie szczegółowych metadanych o pochodzeniu w treściach cyfrowych. Od wersji 2.0, C2PA zawiera składnię dla „Zastrzeżeń TDM Treningu i Eksploracji Danych” (Training and Data Mining Assertions), które mogą określać, czy użycie do trenowania AI jest „dozwolone”, „niedozwolone” czy „ograniczone”.
W celu zapewnienia autentyczności treści wiodący producenci aparatów fotograficznych wdrażają C2PA, co ma zastosowanie również w kontekście TDM.
Glaze
Pozwala artystom na dodawanie perturbacji do obrazów, aby uniemożliwić modelom dyfuzyjnym naśladowanie ich stylu. W konsekwencji model AI uczy się błędnego stylu artystycznego.
NightShade
Jest to atak, który polega na zatruwaniu danych. Wprowadza małe, niemal niewidoczne perturbacje do obrazów. Wskutek czego zakłóca trenowanie i działanie modeli tekst-na-obraz (np. zapytanie o „psa” może generować „koty”). Może destabilizować modele przy minimalnej liczbie zatrutych próbek.
Blokery crawlerów
Systemy do zarządzania ruchem botów, które wykorzystują AI do rozróżniania ruchu ludzkiego od botów i blokowania niechcianego skrobana. Przykłady to Bot Manager i Content Protector firmy Akamai, które codziennie przetwarzają miliardy zapytań botów.
JPEG Trust
Standard ISO/IEC 21617-1:2025, który ma na celu ocenę wiarygodności zasobów multimedialnych poprzez obliczanie „wskaźników zaufania” opartych na treści, metadanych i informacjach o pochodzeniu.
Trace4EU
Inicjatywa Komisji Europejskiej, której celem jest zwiększenie przejrzystości i identyfikowalności towarów oraz przepływów danych. Wykorzystuje weryfikowalne poświadczenia i blockchain.
Do Not Train Registry (DNTR)
To centralny rejestr zastrzeżeń TDM, do którego podmioty praw autorskich mogą zgłaszać swoje domeny lub konkretne dzieła. Zastrzeżenia te są czytelne maszynowo i zgodne z art. 4 Dyrektywy 2019/790. W rejestrze została zarejestrowana np. domena Shutterstock.
Jakie działania podejmują dostawcy modeli AI, aby ograniczyć naruszenia praw autorskich?
Raport EUIPO wymienia również czwartą kategorię środków technicznych, których celem jest zapobiegnięcie naruszeniom praw autorskich. Są to techniczne środki łagodzenia naruszeń, które mogą zastosować dostawcy systemów AI.
W zakresie usuwania maszynowego określonych danych z pamięci modelu w dokumencie znajdziemy:
1) dokładne usuwanie maszynowe (Exact Machine Unlearning) – to ukierunkowane usuwanie danych poprzez przyspieszony proces ponownego trenowania. Przykład: trening SISA (Sharded, Isolated, Sliced, and Aggregated), który dzieli zbiory danych, aby selektywnie ponownie trenować tylko konkretne segmenty,
2) stabilne usuwanie sekwencyjne (SSU) – polega na usunięciu danych chronionych prawem autorskim bez uszczerbku dla ogólnej wiedzy i zdolności rozumowania modelu,
3) przybliżone usuwanie poprzez zastąpienie idiomatycznych wyrażeń (Approximate Unlearning with Idiosyncratic Expressions Replacement) – zostało zaprojektowane do usuwania konkretnych dzieł literackich (np. książek o Harrym Potterze) poprzez zastąpienie charakterystycznych wyrażeń ogólnymi odpowiednikami i w oparciu o takie alternatywy dostrojenie modelu.
Możliwa jest również edycja danych modeli AI w celu reagowania na zmiany lub korygowania nadmiernego albo niedostatecznego dopasowania np.:
1) MEND (dostrajanie parametrów modelu),
2) SERAC (wprowadza ukierunkowane modyfikacje bez zmiany samego modelu).
Podsumowanie
Podstawowym problemem w implementacji mechanizmów TDM opt-out jest brak pełnej skuteczności jakiejkolwiek metody, co łącznie z brakiem standaryzacji skutkuje koniecznością łączenia metod prawnych z technicznymi. Jednak mimo wszystko wyrażenie sprzeciwu jest ważne, ponieważ buduje praktykę, pomaga zwiększyć przejrzystość oraz może stanowić podstawę dla roszczeń o naruszenia praw autorskich.