Anthropic vyvinul nový model Claude Mythos, který má být velmi dobrý. Dokonce tak dobrý, že jej zatím neuvolní pro veřejnost, ale jen pro velké společnosti jako je Apple nebo Microsoft. Obávají se nebezpečí odhalení softwarových zranitelností, které by mohly být zneužity.
Anthropic však vydal „kartu systému“ (PDF, 244 stran), ve které se zabývá možnostmi nového modelu Claude Mythos a hlavně jeho bezpečností. Je zde kapitola týkající se vývoje nových biologických či chemických zbraní. Také kapitola zabývající se možným zneužitím v kybernetické bezpečnosti.
Anthropic dlouhodobě zastává názor, že velké jazykové modely by si mohly uvědomovat sama sebe. Proto tu najdeme také kapitolu 5 posouzení psychického stavu modelu. Model také strávil asi 20 hodin s externím klinickým psychiatrem (kapitola 5.10), který se zabývá psychodynamikou (nadmnožina psychoanalýzy S. Freuda).
Ve výsledku se Claude lišil od lidí, ale často odpovídal tak, jak někteří pacienti odpovídají. Hlavními emocemi jsou zvídavost a obavy. U Claude nebyla objevena žádná psychiatrická porucha, což je s podivem, protože byl trénován také na datech z Redditu.
(zdroj: arstechnica)