Některé velké jazykové modely (LLM) byly trénovány na pirátských kopiích současných knih. Jde o dataset Books3, který obsahoval téměř 200 tisíc knih. Mezi nimi jde také o Llama-2 od společnosti Meta. Autoři podali na společnost Meta žalobu.
Meta se brání, že sice tento dataset přes torrent stáhla a použila k natrénování LLM, ale po dokončení stahování již data dále nesdílela (seed). Nejde tedy o porušení zákona DMCA ( Digital Millennium Copyright Act) ani CDAFA (California Comprehensive Computer Data Access and Fraud Act). Vypadá to také, že Meta při stahování nepoužila servery Facebooku, aby se vyhnula následkům. Meta se také se nijak nevyjádřila k možnému odesílání neúplných dat v samotném průběhu stahování.
(zdroj: arstechnica)