main-post-cover

    Microsoft mətni 90 dəqiqəlik podkasta çevirən açıq mənbəli süni intellekti təqdim edib (VİDEO)

    Süni İntellekt
    27.08.2025
    Emil Nəcəfov
         Microsoft süni intellekt sahəsində açıq mənbəli VibeVoice layihəsini təqdim edib - bu, mətndən ingilis və ya çin dilində 90 dəqiqəyə qədər audio-podkastlar yarada bilən yeni nitq sintezi sistemidir. Texnologiya artıq istənilən şəxs üçün onlayn və ya istifadəçinin lokal cihazına quraşdırmaqla test üçün əlçatandır. Tərtibatçılar VibeVoice-u birbaşa mətndən uzunmüddətli audio-kontent və bir neçə iştirakçı ilə generasiya üçün yaradılmış innovasiyalı framework kimi xarakterizə ediblər. Sistem ənənəvi nitq sintezatorlarının (TTS) əsas problemlərini - miqyaslana bilmə, səs xüsusiyyətlərinin sabitliyi və dialoqda replikanın təbii ardıcıllığını həll edir. Model 90 dəqiqəyə qədər audio sintez edə bilir və burada 4 unikal səs iştirak edə bilər ki, bu da bir çox əvvəlki süni intellekt modellərinə xas olan 1-2 spiker məhdudiyyətini aşır.
         Hazırda test üçün modelin iki versiyası əlçatandır: 1.5 və 7 milyard parametrli. Birinci versiya 64 000 token kontekst uzunluğu ilə 90 dəqiqəyə qədər audio yarada bilir, daha böyük ölçüsünə görə keyfiyyətcə üstün olduğu güman edilən ikinci versiya isə 45 dəqiqəlik audio və 32 000 tokenlik pəncərə ilə məhdudlaşır. Bundan əlavə, real vaxt rejimində işləmək üçün nəzərdə tutulmuş 0.5 milyard parametrli yüngülləşdirilmiş versiyanın da buraxılması gözlənilir. Lokal istifadə üçün kiçik model təxminən 7 GB VRAM tələb edir, daha böyük model isə 18 GB-a qədər VRAM tələb edə bilər. Hazırda VibeVoice süni intellekt modeli yalnız ingilis və çin dillərində, o cümlədən mandarin variantında (şimali çin dili) təlim keçirilib.
         Lakin Microsoft bildirir ki, gələcək versiyalarda digər dillərin dəstəklənməsi planlaşdırılır. Sistem emosiyaları ötürməyə, iştirakçılar arasında replikaların dəyişməsini idarə etməyə və təbii dialoqlar yaratmağa qadirdir, baxmayaraq ki, musiqi ifa etmək cəhdləri hələ uğursuz qalır. Səslər kifayət qədər realistik səslənsə də, onların süni mənşəyi nəzərə çarpır. Gələcəkdə tərtibatçılar səs klonlama funksiyasının inteqrasiyasını da nəzərdən keçirirlər. Onların sözlərinə görə, axın rejimində audio generasiya istifadəyə verildikdə, VibeVoice xarici serverlərə ehtiyac olmadan çat-assistentlərə inteqrasiya oluna bilər. Əlavə məlumatlar, quraşdırma və sazlama üzrə təlimatlar GitHub-dakı VibeVoice repozitoriyasında və Hugging Face platformasında əlçatandır.
    Linki kopyala

    Bənzər xəbərlər

    Oxşar xəbərlər
    OpenAI Microsoft ilə danışıqlar səbəbilə milyardlarla dollar investisiyalardan məhrum ola bilər
    openai-microsoft-ile-danisiqlar-sebebile-milyardlarla-dollar-investisiyalardan-mehrum-ola-biler
    ChatGPT 16 yaşlı yeniyetmənin intiharında günahlandırılır
    chatgpt-16-yasli-yeniyetmenin-intiharinda-gunahlandirilir
    Meta-nın süni intellekt şöbəsi artıq mütəxəssislərini itirməyə başlayıb
    meta-nin-suni-intellekt-sobesi-artiq-mutexessislerini-itirmeye-baslayib
    Hakerlər süni intellekt üçün şəkillərə zərərli sorğuları yerləşdirməyi öyrəniblər
    hakerler-suni-intellekt-ucun-sekillere-zererli-sorgulari-yerlesdirmeyi-oyrenibler
    Süni intellekt İT sahədə karyera startını çətinləşdirib
    suni-intellekt-it-sahede-karyera-startini-cetinlesdirib