Stability AI, firma që qëndron pas modelit të sintezës së imazhit Stable Diffusion, ka publikuar sipërmarrjen e saj të re: Stable Audio, një AI që mund të prodhojë muzikë stereo 44.1 kHz dhe efekte zanore nga kërkesat e thjeshta nëpërmjet tekstit. Thjesht duke futur përshkrime si “muzikë dramatike”, përdoruesit mund të marrin rezultate tingulli të personalizuara.
Më parë, Stability AI hyri në tregun e sintezës së imazhit, duke publikuar Stable Diffusion në gusht 2022. Të etur për të eksploruar audion, ata bashkëpunuan me Harmonai, duke rezultuar në gjeneratorin e muzikës Dance Diffusion të publikuar në shtator.
Stable Audio tregon aftësitë e tij me rezultatet e ofruara në faqen e tij promovuese. Përdoruesit mund të gjenerojnë rezultate të ndryshme audio nga kërkesat si “muzikë epike traileri”, ose tinguj ambienti që imitojnë një ambient të zhurmshëm restoranti.
Për të zhvilluar Stable Audio, Stability AI bashkëpunoi me AudioSparx, duke licencuar mbi 800,000 skedarë audio me meta të dhëna. Duke e ekspozuar modelin ndaj 19,500 orësh audio dhe duke i shoqëruar tingujt me përshkrimet e tekstit, Stable Audio mund të riprodhojë tinguj të shumtë bazuar në komandat e shkruara.
Teknologjia është e avancuar dhe efikase: modeli zvogëlon skedarët audio, duke ruajtur veçoritë thelbësore ndërkohë që eliminon zhurmën e tepërt. Rezultati? Mësimi më i shpejtë dhe gjenerimi i audios.
Për më tepër, duke përpunuar një paraqitje të thjeshtuar audio, Stable Audio mund të prodhojë deri në 95 sekonda audio stereo 16-bit me shpejtësi 44,1 kHz në më pak se një sekondë, duke përdorur GPU-në A100 të Nvidia.
Ndërsa kjo cilësi pasqyron standardet e CD-së, cilësia aktuale muzikore ndryshon, pasi sistemi përdor një paraqitje të ngjeshur të të dhënave.
Domeni i gjenerimit të muzikës AI nuk është i ri, me modele të tjera si Riffusion, MusicLM të Google dhe AudioCraft të Meta-s tashmë në treg. Megjithatë, Stable Audio duket se ka një avantazh të rëndësishëm me audion e tij stereo 44,1 kHz.
Stable Audio ofron një abonim falas, me përdoruesit në gjendje të prodhojnë 20 këngë në muaj, të kufizuara në 20 sekonda secila. Një plan mujor Pro prej 12 dollarësh ofron më shumë fleksibilitet—500 këngë të prodhuara, dhe këngë me kohëzgjatje deri në 90 sekonda.
Ndërsa muzika e gjeneruar nga AI i afrohet cilësisë së prodhimit, lindin shqetësime: a mund t’i zëvendësojë AI së shpejti muzikantët? Ndërsa arti njerëzor aktualisht mbetet i pakrahasueshëm, mjetet audio të AI së shpejti mund të gjejnë vendin e tyre në mjediset profesionale të prodhimit audio.




