Já bych si tu s dovolením trochu postěžoval. Narazil jsem na Lupě na diskuzi o tom, jak AI vykrádá internet a výsledek monetizuje, což se nelíbí autorům vykradeného obsahu. Drtivá většina diskutujících odsoudila jakákoli autorská práva a duševní vlastnictví, a že je to dobře, pokrok.
Pohled z jiné strany. Spoluprovozuju takový webík s unikátním obsahem. Nebudem rozebírat, co tím obsahem je, důležité je, že nejbližší podobný zdroj je z předminulého století a nejbližší aktuální zdroj je tištěná kniha, která je shodou okolností naším dítětem. Jinak to téma, coby zcela okrajové, zajímá jen pár desítek lidí tady a pár jednotek v zahraničí. Nicméně za ta léta má svoji hodnotu, dalo by se říci i akademickou hodnotu, a funguje i jako vzor pro jiné podobné projekty podobných nadšenců.
V současné době si musí naši práci čtenář projít sám, je nucen se o to aktivně zajímat, o kontext a dobu, a je do jisté míry nucen přijmout na základě faktografie nějaký závěr sám. Často nám i dá vědět své poznatky, dodá rozšíření, mnohdy se prostě jen poděkuje, zmíní dalším atp.
Dost jsme se na tom nadřeli, poskládat mozaiku, posbírat (výhradně papírové) zdroje všude po archivech a celé to složit. A rozhodně to neděláme pro peníze, byť nás samozřejmě potěší, když nám na web chodí lidi a točí kolečkem návštěv, podrbají za ouškem a pochválí.
A teď přijde AI, nasaje celou naši práci, a protože je svého druhu unikátní, bude mít ve své paměti téměř výhradně naše poznatky. A přijde pán X, zaplatí za AI Googlu pár peněz, a ten mu na to téma napíše nějakou práci. Třeba bakalářku. Je jasné, že to bude v podstatě oprásknutá naše práce, ale to těžko někdo pozná, protože slovosled bude změněn a rozsah bude odpovídat zadání. Pán bude mít titul, případně výsledek třeba i nějak zmonetizuje, a my nezískáme vůbec nic, ani blbou zmínku, zpětný odkaz, zpětnou vazbu či jen podrbání za ouškem.
Otázka zní - má vůbec smysl to dělat takhle dál?
Nejvtipnější bude, že ten chlápek, co mu napíše bakalářku AI projde snadno sítem odhalování plagiátů na odevzdej.cz, zatímco jiný student, který řádně nastuduje odborné texty a ozdrojuje je třeba neprojde, protože bude psát práci na nějaké profláklé téma a i když závěr napíše vlastními slovy, odevzdej.cz tuto část textu vyhodnotí jako plagiát, protože čeština (ani žádný světový jazyk) nemá neomezenou zásobu slov zvláště těch odborných a sestavit větu tak, aby byla co nejvíce unikátní dokáže právě asi jen to AI.
Doba se meni .. bude zajimave sledovat jak se bude vyvijet praxe okolo AutZ.
Ja osobne bych nebyl proti, kdyby nekdo nascanoval vsechny mozne archivy a nasypal je do nejake AI, aby se dalo rict "najdi mi vsechno z 18. stoleti co se tyka cinnosti X v lokalite Y" ... pak by klesla cena nejakeho zkoumani na takovou uroven, ze by se ta pridana hodnota dala tvorit jinde.
(aktualne se prokousavam desitkami kartonu jednoho nezpracovaneho fondu, mate moji empatii ;-). Mne by teda stacilo, kdyby vzniklo neco jako "badatele sobe", kde by byly dostupne neOCRkovane inventare fondu, a lide by tam mohli prihravat svoje poznatky, jako treba fotky, poznamky, atd.)
My jsme to lepili taky z různých archivních fondů, zpracovaných i nezpracovaných. Inventáře by fakt potěšily. Docela se v tomto postoupilo, ale těch "perel" ještě mnoho zbývá objevit.
Zase by to ale nebyla taková zábava, kdybyste prostě jen vznesl dotaz a dostal odpověď z celého světového archivu. Chybí tam ta samotná badatelská činnost, práce s teoriema, vzrušení i zklamání...:-)
Pokrok clovek nezastavi a tady bych to videl zrovna jako velmi uzitecne. Ano, ma to svoje kouzlo, zase na druhou stranu by to neskutecne zrychlilo badani, clovek by svoji kreativitu mohl vyuzit nejak jinak nez listovanim nejakymi stoletymi zaprasenymi papiry, ktere jsou casto v pruklepu a nejdou ani nafotit :).
Ono by bohate stacilo mit u tech nezpracovanych fondu kde jsou tisice kartonu mit nejake nahledy toho co uz nekdo nekdy prosel, staci par fotek - aby clovek zjistil zda ma cenu si o karton zadat, nebo ne.
Vadí mi, že aspoň na konci nenapíše, ze kterých pramenů ten kompilát vytvořil (jak je dobrým zvykem u prací určité úrovně), čímž se původní autor z textu naprosto vypaří a nikdo se nedozví, kdo si dal tu práci a tyto informace na světlo boží internetové zpracoval.
Řešením pak bude buď zcela zablokovat přístup robotům jakéhokoli druhu (nutnost přihlášení uživatelů k obsahu, tedy paywall zdarma), nebo respekt k tomu, že dílo má nějakou licenci (typu "uveďte autora a odkaz na www zdroje"), kterou je nutné při transformování obsahu do žádané formy respektovat.
Zajímavé je, že se to lidi naučili respektovat, a musím říct, že prostě potěší, když chce někdo použít část obsahu k nějaké navazující práci a doptá se na souhlas s použitím dílčích textů, i když kolikrát ani nemusí. Klidně těm lidem i pomůžeme a jejich článek zrevidujeme.
To není lepší vyhledavač. Vyhledavač vám najde zdroje a vy se v nich musíte ručně přehrabat a pomocí mozku to nějak vytěžit. ChatGPT naservíruje "mulitivitamínový výcuc" u kterého není jasné kde a jak k tomu přišla a pokud nebudete pátrat, vůbec se ani přibližně nedozvíte odkud to je a jakou to má relevanci, kvalitu, podloženost.
Máte zkreslenou představu, jak takováhle AI funguje. Žádné vaše poznatky do paměti nenasaje, protože je to jazykový model, ne znalostní. Stejně tak je spíš pravděpodobné, že použije váš slovosled s tím, že zamění slova za podobná, takže co z ní vypadne bude nesmysl, než že by vzala váš poznatek a zpřeházela slovosled.
Problem je v tom, ze z pohledu AutZ se to tak trosku tvari jako dilo odvozene, ale nejspis tomu tak neni (asi to nesplnuje uplne pozadavky na dilo odvozene...nepremyslel jsem o tom tak daleko).
ChatGPT jde primet k tomu, aby "vytahla" text treba i z jedne konkretni stranky, kde je nejaky specificky termin. Jenze uz nerekne jaky je zdroj. A tady je myslim nejvetsi problem.
A rekl bych, ze nebude trvat dlouho, nez se rozreseni teto otazky dockame, verim tomu, ze ve spouste firem uz pravni oddeleni brousi tuzky :)
No chápu to tak, že postupným cílem bude místo zadání "ornamenty secese" do Googlu a prohledávání různých stránek na toto téma s cílem najít stěžejní prvky ornamentálního vyjadřování v době secese prosté poptání AI, ať mi udělá rešerši na 500 slov na téma "Základní ornamenty v secesi". Přeskočí se ten celý jeden krok s vlastním dobýváním informací, jejich analýzou a tvorbou nějakého univerzálního závěru. Jinými slovy, prostě se na to zeptáš někoho, kdo to určitě ví.
Postupným cílem to je, ale zároveň hlavní překážkou už řadu let. Problém s jazykovými modely totiž z princippu je, že neví nic a není to umělá inteligence, nemyslí, takže míra možné chyby je prakticky nekonečná. Zrovna v pondělí jsem se v ChatGPT zeptal na nějaký technický termín, na který jsem narazil a to, co mi o něm začal vykládat bylo kompletně vymyšlené, bylo to fascinující. V podstatě podobným způsobem, jako když panu Čermákovi kompletně vytvořil neexistující paragraf zákona.
Takže ano, stávající technologie to či ono určitě ví. Jenomže ví i to, co neví...
ChatGPT je zjevne nejak naucen nektere veci nad ramec jazykoveho modelu, rekl bych.
Potreboval jsem udelat sortovaci algoritmus nad nejakou strukturou - zkusil jsem pozadat chatGPT aby mi to vysvihnul. Nemusel jsem to ani upravovat, jen jsem si fci prejmenoval :-). Ze zvedavosti jsem zkusil "again please in Fortran" ... "in Ada" ... "in Forth" ... " in ARM thumb assembly" ... "optimize previous ARM thumb code" ... "in risc-v assembly" ... "in PDP/11 assembly" ... " in TriCore assembly" ... "in Intel 8061 assembly" (to je obskurni procesor pouzivany snad jen v ridicich jednotkach Ford z 90. let !!!). U kazdeho vysvihnul nejaky +/- funkcni kod, ktery pak i okomentoval a nadherne indentoval.
Jakoze zatim to je asi nanic na cokoliv slozitejsiho, ale ten rozsah mne dostal. Ale neprijde mi to jen jako "jazykovy model", tam museli jeste neco dodelat aby to umelo ty programky vysvihnout.
Ono by to fungovalo, ale není to řešení. Že (konečně) snad dojde podstatné reformulaci autorského práva považuji na jednu stranu za moc dobře, ale na stranu druhou požadavek, aby se AI, jazykové modely apod. chovaly dle zvyků slušnosti bych bral jako základ.
Tedy - pokud se na nějakém veřejně dostupném zdroji trénují, asi bych neměl nejmenších námitek, ostatně když se student učí na příkladech na semetralky.cz, tak těžko po něm chtít platit licenční poplatky nebo potom desátek z jeho výplaty v zaměstnání. Ale když už někomu třeba na základě předchozího studia odpovídám něčím, co má charakter citace, tak beru za automatické uvést zdroj. A od stroje bych očekával to samé.
Tak pokud si z divadla mlhavě pamatujete nějakou melodii (a je pořád ještě chráněná) a pak jí někde jinde zakomponujete jako vlastní, tak také budete mít docela problém, zvlášť když tu melodii někomu prodáte za peníze (zatímco když je to komplilát desítek, to bude nejspíš kosher, protože v tom znaky původních děl prostě nebudou)...
Nepotesim vas svym nazorem, ale je to stejne jako kdyz mlada holka natoci porno pro internet a pak ocekava ze bude dostupne jenom nekde a jeji pritel a rodice se o tom nedovi. Cokoliv na internetu je z meho pohledu nutne povazovat za verejne dostupne. Spolehat se na to, ze nekdo bude respektovat robots.txt nebo nejakou licenci kterou mate uvedenou na strankach je naivni. Mate moznost se domahat svych prav soudni cestou a treba budete uspesny, realita je ale takova ze kdyz vas vykradou 100x za den tak se na to proste vykaslete protoze nic s tim neudelate at uz z casovych nebo financnich duvodu.
Kdybych byl na vasem miste a jednalo by se o opravdu unikatni zalezitost, nechal bych dostupnou cast dat a cast dat bych schoval za paywall/registraci.
Tady je ale úplně jiný use case. Když Vám vykradou auto 10X za měsíc, obvykle je to nějaká noname fetka, zkrátka neznámý pachatel, kterého je velmi obtížné najít a pokud ho najdete, stejně z něj nevymůžete náhradu.
Zatímco nerespektování vůle autora (třeba vyjádřené prostřednictvím robots.txt) v našem konkrétním případě se dopouštějí velice snadno identifikovaní, pořád stejní pachatelé v počtu jednotek, kteří z toho navíc mají přímý či nepřímý finanční prospěch, takže zcela evidentně pokud by byla vůle, tak právo jednoznačně vymahatelné je.
Opět - nevidím důvod, proč by se měl svět přizpůsobovat gigantům, kteří se rozhodli porušovat licence. Ten, kdo by měl nést náklady (ať už ve formě analýzy textu za účelem vyhodnocení, pod jakou licencí je, nebo normalizováním třeba robots.txt nebo nějaká meta jak se dá vyjádřit licence - a tím se následně řídit), než náklady jejich businessu rozdělit na všechny ostatní. Proč bych sakra měl dělat já nějakou registraci na svůj web který je při respektování pravidel (uvést source) free pro každého, a prudit s tím i svoje uživatele?
To je jako říct muzikantovi, aby pokud nechce, aby ho někdo vykrádal, tak aby hrál jen v soukromí.
4. 3. 2023, 15:29 editováno autorem komentáře
Na tohle bych si dovolil zareagovat s drzostí sobě vlastní přirovnáním sporu Svěráka a Bauhausu. Bauhaus použil do své reklamy slogan „upeč … třeba zeď“ a Svěrák za to vysoudil nějaký prachy. Podle mě mu nepatřej.
Zdůvodním:
Z mýho pohledu Bauhaus (dejme tomu) zmonetizoval část jiného (zde Svěrákova) díla způsobem, jakým by ho Svěrák sám nikdy nevyužil nebo nezmonetizoval (to, že ho nakonec zmonetizoval tím, že na to zneužil existenci autorského zákona, je věc jiná, která obchází přírodní zákony). Ergo mu tedy nepřísluší za tento způsob monetizace žádná odměna. To není jeho nápad vzít profláklý (třeba i svůj) text a využít jeho části do reklamy na obchod se zbožím pro stavbu a domácnost. On by ho tak ani nikdy nevyužil - neprovozuje obchod se stavebninami (jestli se nepletu) a tak by ho takový slogan nikdy nenapadl, přestože je v něm použito jeho dílo. Nikdy za tento způsob užití byť jeho díla neměl dostat nic. Pokud by chtěl, aby z jeho díla využitého tímto způsobem měl plynout zisk, měl jej sám využít tímto způsobem. To ale neudělal, udělal to někdo jiný.
S AI je to to samé. Pokud si někdo zjedná AI na to, aby nějakým způsobem pracovala s jeho vlastním dílem a výsledky bude monetizovat, nechť tak učiní. Pokud to ale udělá někdo jiný, plody takové práce připadnou jemu.
Já chápu, že ani v jednom případě by druhý nemohl využít dílo prvního, pokud by první to dílo nevytvořil. Ale tak už to prostě je, to je vývoj, to jsou přírodní zákony. Celý posun lidstva vpřed spočívá v tom, že později narození využívají děl dříve narozených a sami nevynalézají znovu kolo.
Takže pokud si myslíte, že to takhle nemá smysl dělat dál, tak to prostě nedělejte. Až tak jednoduché to je. Já chápu, že tak jednoduché to není, protože autorský zákon, ale já nikdy neřekl, že autorský zákon ve své stávající podobě uznávám. V mém světě by autorský zákon byl o tom, že smíte být něčeho autorem a pokud toho autorem skutečně právoplatně jste, tak vám to autorství nemůže nikdo upřít. Jo, takhle jednoduchý a krátký by byl.
U těhle příkladů kolem je problém paralel. Vždyť já přece nebráním jiným lidem k tomu moje dílo číst, studovat, inspirovat se, dokonce i ve vší slušnosti (uvedení zdroje například) odvozovat a monetizovat (třeba dělat přednášky). Bráním se akorát tomu, aby byl plagiát považován za nové/jiné dílo a ztratil stopu původního autorství. Stejně tak se autor kola jistě bránil tomu, aby mu jeho červené kolo někdo ukradl z dílny, natřel na žluto a vydával za své.
Řešení s "tak to prostě nedělejte" je bohužel to, co může způsobil odliv informací a nějaké kvality z veřejného prostoru, internetu, a to rozhodně není pozitivní pro nikoho.
Tiez prispejem trosku do mlynka...
Cely patentovy system a system autorskych prav, ako je postaveny teraz je len velka brzda vo vyvoji. Aj kedysi sa umelci ucili kopirovanim diel svojho majstra. A iba ty najlesi sa to dotiahli najdalej. A teraz sa s toho robi velke halo, ked sa nieco skopiruje. Navyse, kde mate zaruku, ze na danu vec prisiel prave iba jeden clovek na svete. Kludne sa mohlo stat, ze danu myslienku mali viaceri, ale narok na profit ma iba ten stastnejsi, ktory si to stihol patentovat...
Podla mojho skromneho nazoru, by sa mala skratit doba na ochranu patentov a autorskych diel na 5 maximalne 10 rokov. Po tomto casovom obdobi by boli diela dostupne pre vsetkych bez obmedzeni... Tymto by sme sa posunuli omnoho dalej ako, ked sa hadzu klacky pod kolena...
Aj taka AI je dobry pomocnik a otvara dvere pre mnohych, ktory sa mozu realizovat v oblastiach, v ktorych az tak nadani nie su..