Tulad ng halos lahat ng iba pang kumpanya ng teknolohiya, malaki ang naging pagtutok ng Adobe sa AI nitong mga nakaraang taon. Naglunsad ang software firm ng iba't ibang AI services simula 2023, kabilang ang Firefly—ang AI-powered media-generation suite nito. Ngayon, gayunpaman, ang ganap na pagtanggap ng kumpanya sa teknolohiyang ito ay maaaring nagdulot ng problema, dahil isang bagong demanda ang nagsasabing gumamit ito ng mga pirated na libro upang sanayin ang isa sa mga AI model nito.
Isang iminungkahing class-action lawsuit na isinampa sa ngalan ni Elizabeth Lyon, isang may-akda mula Oregon, ang nagsasabing gumamit ang Adobe ng mga pirated na bersyon ng maraming libro—kabilang ang kanya mismo—upang sanayin ang SlimLM program ng kumpanya.
Inilarawan ng Adobe ang SlimLM bilang isang maliit na serye ng language model na maaaring “i-optimize para sa mga gawain ng tulong sa dokumento sa mga mobile device.” Sinasabi nito na ang SlimLM ay pre-trained sa SlimPajama-627B, isang “deduplicated, multi-corpora, open-source dataset” na inilabas ng Cerebras noong Hunyo 2023. Si Lyon, na sumulat ng ilang guidebook para sa non-fiction writing, ay nagsasabing ilan sa kanyang mga gawa ay isinama sa pretraining dataset na ginamit ng Adobe.
Ayon sa demanda ni Lyon, na unang iniulat ng Reuters, ang kanyang mga isinulat ay isinama sa isang processed subset ng isang manipulated dataset na naging batayan ng programa ng Adobe: “Ang SlimPajama dataset ay nilikha sa pamamagitan ng pagkopya at pagmamanipula ng RedPajama dataset (kabilang ang pagkopya ng Books3),” ayon sa demanda. “Kaya, dahil ito ay isang derivative copy ng RedPajama dataset, naglalaman ang SlimPajama ng Books3 dataset, kabilang ang mga copyrighted na gawa ng Plaintiff at ng mga miyembro ng Class.”
Ang “Books3”—isang napakalaking koleksyon ng 191,000 libro na ginamit upang sanayin ang mga genAI system—ay naging patuloy na pinagmumulan ng legal na problema para sa tech community. Ang RedPajama ay nabanggit din sa ilang mga kaso ng litigation. Noong Setyembre, isang demanda laban sa Apple ang nagsabing gumamit ang kumpanya ng copyrighted na materyal upang sanayin ang Apple Intelligence model nito. Binanggit ng litigation ang dataset at inakusahan ang tech company ng pagkopya ng mga protektadong gawa “nang walang pahintulot at walang kredito o kabayaran.” Noong Oktubre, isang katulad na demanda laban sa Salesforce ay nagsabi ring ginamit ng kumpanya ang RedPajama para sa layunin ng training.
Sa kasamaang palad para sa industriya ng teknolohiya, ang ganitong mga demanda ay naging karaniwan na. Ang mga AI algorithm ay sinasanay sa napakalalaking dataset at, sa ilang mga kaso, sinasabing kabilang dito ang mga pirated na materyal. Noong Setyembre, pumayag ang Anthropic na magbayad ng $1.5 billion sa ilang mga may-akda na nagsampa ng kaso at inakusahan itong gumamit ng pirated na bersyon ng kanilang mga gawa upang sanayin ang chatbot nitong Claude. Ang kasong ito ay itinuturing na isang potensyal na turning point sa nagpapatuloy na legal na labanan tungkol sa copyrighted na materyal sa AI training data, na marami na ngayon.

