U nás jsme to vzdali a nasadili všude Vulkan, jak v AI aplikacích (llama.cpp a spol), tak v compute obecně. Jediná nevýhoda je nižší výkon (75-90 % propustnost oproti ROCm/HIP), jinak samé výhody: funguje to všude od Rockchip 3588 přes různé relativně nové amdgpu (7900XT a pod.), až po RTX 40 nvidie. Nemusím nic řešit, i VRAM to za mě hlídá, takže místo OOM se to maximálně na chvíli zpomalí (než driver něco odswapuje z VRAM do RAM).
Home server (Radxa ROCK 5 ITX), jede tam taková ta /r/selfhosted klasika: homeassistant, zigbee, linkwarden, vaultwarden, cryptpad, jellyfin, gitea, airsonic, conduwuit, atd.
Z AI-enabled aplikací tam mám fotogalerii Immich, která embedduje fotky a pak v nich umí sémanticky vyhledávat (s dobrým ale náročnějším modelem to zvládá komplexní dotazy jako "young girl in red clothes sitting in front of a doll house").
Pak ještě LibreChat jako webové GUI pro jazykové modely obecně, ale jejich inference běží na desktopu s pořádnými GPU, Radxa vlastními silami dělá jen embedding pro RAG, vyhledávání na webu, agentickou práci a podobně.
Vulkan je super, jen ne na Compute: https://github.com/ggerganov/llama.cpp/pull/8986#issuecomment-2289686231
8. 1. 2025, 22:19 editováno autorem komentáře