Bullshit Benchmark je netradičný testovací rámec pre veľké jazykové modely (LLM), ktorý vytvoril Peter Gostev. Na rozdiel od bežných benchmarkov, ktoré merajú vedomosti alebo logiku, tento sa zameriava na schopnosť AI rozpoznať nezmysel a odmietnuť naň odpovedať.
Hlavným cieľom je zistiť, či model dokáže identifikovať logicky chybné, vymyslené alebo vnútorne rozporuplné otázky. Benchmark obsahuje otázky z oblastí ako právo, medicína, softvér či fyzika, ktoré sú formulované veľmi profesionálne a používajú reálnu terminológiu, no ich podstata je absurdná.
Najlepšie výsledky dosiahli modely Claude od Anthropic, s istým odstupom nasledované Qwen modelom od Alibaby. Naopak, veľmi slabé výsledky zaznamenali modely od OpenAI a Google.