ACE-Step v1.5 je otvorený hudobný generatívny model, ktorý prináša kvalitu porovnateľnú s komerčnými systémami. Dokážeme ho rozbehať aj lokálne na bežnom hardvéri.
Využíva hybridnú architektúru: jazykový model slúži ako „plánovač“ skladby a vytvára detailné hudobné koncepty, zatiaľ čo Diffusion Transformer generuje samotný zvuk. Model je rýchly, podporuje presné štýlové riadenie, úpravy hudby a funguje vo viac ako 50 jazykoch.
Na portáli Hugging Face je k dispozícii demo aplikácia, kde si môžeme vyskúšať vygenerovať vlastnú pieseň. Máme k dispozícii aj jednoduchý mód, ktorý nám vygeneruje text a hudbu bez nutnosti zadávať konkrétne parametre. Práve tento jednoduchý mód som si vyskúšal a aplikácia mi vygenerovala 4 minútovú pieseň v češtine.
Bol použitý tento prompt:
The track begins with a contemplative and atmospheric piano melody, accompanied by ethereal, wordless female vocalizations floating in a spacious reverb. A clear, narrative male vocal enters, setting a storytelling tone over the gentle piano and a subtle bassline. The arrangement gradually builds, introducing a steady drum beat and more forceful piano chords, leading into an explosive, anthemic rock chorus. Here, powerful male vocals, layered harmonies, and driving drums create a sense of grand scale. The song then transitions into a quieter, more introspective section featuring a delicate piano arpeggio and a softer vocal delivery, before swelling again into a passionate, emotionally charged climax with soaring vocals and a full band arrangement. The track concludes by returning to the initial atmospheric piano and vocal theme, fading out peacefully.
Pre predstavu čo model dokáže, vytvorenú pieseň ozvena-vecnost.mp3 si môžete stiahnuť z tohto Github repozitára. Rovnomenný JSON súbor obsahuje použité parametre.