main-post-cover

    DeepSeek R1-in distillə üsulu ilə yaradılmış daha kiçik versiyası təqdim edilib

    Süni İntellekt
    30.05.2025
    Emil Nəcəfov
         Çin startapı DeepSeek, 685 milyard parametrə əsaslanan məntiq yürütmə qabiliyyətinə malik təkmilləşdirilmiş R1 modelinin yenilənmiş versiyasına əlavə olaraq, distillə üsulu ilə yaradılmış daha kiçik bir versiyanı - DeepSeek-R1-0528-Qwen3-8B modelini də təqdim edib. Tərtibatçıların sözlərinə görə, bu yeni versiya öz ölçüsünə yaxın olan digər modelləri bir sıra testlərdə geridə qoyur. Bildirilir ki, DeepSeek-R1-0528-Qwen3-8B modeli Alibaba şirkətinin bu ay ərzində təqdim etdiyi Qwen3-8B modeli əsasında distillə üsulu ilə yaradılıb və Google-un Gemini 2.5 Flash modelini AIME 2025 riyazi sınağında geridə qoyub.
         Bundan əlavə, bu model Microsoft tərəfindən təqdim olunmuş yeni Phi 4 Plus modeli ilə HMMT adlı digər riyazi bacarıq testində demək olar ki, bərabər səviyyədə nəticə göstərib. Distillə üsulu ilə əldə olunan modellər adətən tamölçülü analoqları ilə müqayisədə daha az effektiv olsalar da, onlar hesablama resurslarına əhəmiyyətli dərəcədə az tələbat göstərirlər. NodeShift adlı bulud platformasının məlumatına görə, Qwen3-8B modelinin işləməsi üçün 40-80 GB RAM-a sahib GPU tələb olunur (məsələn, NVIDIA H100). Müqayisə üçün qeyd edək ki, tamölçülü, yenilənmiş R1 modelinin işləməsi üçün hər biri 80 GB RAM-a malik təxminən 12 ədəd GPU lazımdır.
         DeepSeek-R1-0528-Qwen3-8B modelinin öyrədilməsi zamanı startap yenilənmiş R1 modelinin yaratdığı mətnlərdən istifadə edərək Qwen3-8B modelini incə tənzimləmədən (fine-tuning) keçirmişdir. Hugging Face süni zəka inkişaf platformasında verilən açıqlamada startap qeyd edib ki, bu məntiqi düşünmə modeli həm akademik tədqiqatlar, həm də kiçikmiqyaslı modellərə yönəlmiş sənaye layihələri üçün istifadə oluna bilər. DeepSeek-R1-0528-Qwen3-8B modeli MIT lisenziyası əsasında paylanır, bu da onun kommersiya məqsədləri üçün məhdudiyyətsiz şəkildə istifadəsinə imkan verir. LM Studio da daxil olmaqla bir neçə tətbiq artıq bu modeli API vasitəsilə təqdim edir.
    Mənbə: Techcrunch
    Linki kopyala

    Bənzər xəbərlər

    Oxşar xəbərlər
    DeepSeek R1 süni zəka modelinin yenilənmiş versiyasını təqdim edib
    deepseek-r1-suni-zeka-modelinin-yenilenmis-versiyasini-teqdim-edib
    Natasha AI adı altında yüzlərlə hindu proqramçı fəaliyyət göstərib
    natasha-ai-adi-altinda-yuzlerle-hindu-proqramci-fealiyyet-gosterib
    Anthropic-in süni zəka əsaslı Claude çat-botunda səsli rejim istifadəyə verilib
    anthropic-in-suni-zeka-esasli-claude-cat-botunda-sesli-rejim-istifadeye-verilib
    Süni zəka əsaslı çat-botlar cinayətkarların alətlərinə çevrilirlər
    suni-zeka-esasli-cat-botlar-cinayetkarlarin-aletlerine-cevrilirler
    OpenAI-nin o3 modeli insanın əmrinə baxmayaraq deaktiv olmaqdan imtina edir
    openai-nin-o3-modeli-insanin-emrine-baxmayaraq-deaktiv-olmaqdan-imtina-edir