
DeepSeek R1-in distillə üsulu ilə yaradılmış daha kiçik versiyası təqdim edilib
Süni İntellekt
30.05.2025
Emil Nəcəfov
Çin startapı DeepSeek, 685 milyard parametrə əsaslanan məntiq yürütmə qabiliyyətinə malik təkmilləşdirilmiş R1 modelinin yenilənmiş versiyasına əlavə olaraq, distillə üsulu ilə yaradılmış daha kiçik bir versiyanı - DeepSeek-R1-0528-Qwen3-8B modelini də təqdim edib. Tərtibatçıların sözlərinə görə, bu yeni versiya öz ölçüsünə yaxın olan digər modelləri bir sıra testlərdə geridə qoyur. Bildirilir ki, DeepSeek-R1-0528-Qwen3-8B modeli Alibaba şirkətinin bu ay ərzində təqdim etdiyi Qwen3-8B modeli əsasında distillə üsulu ilə yaradılıb və Google-un Gemini 2.5 Flash modelini AIME 2025 riyazi sınağında geridə qoyub.

Bundan əlavə, bu model Microsoft tərəfindən təqdim olunmuş yeni Phi 4 Plus modeli ilə HMMT adlı digər riyazi bacarıq testində demək olar ki, bərabər səviyyədə nəticə göstərib. Distillə üsulu ilə əldə olunan modellər adətən tamölçülü analoqları ilə müqayisədə daha az effektiv olsalar da, onlar hesablama resurslarına əhəmiyyətli dərəcədə az tələbat göstərirlər. NodeShift adlı bulud platformasının məlumatına görə, Qwen3-8B modelinin işləməsi üçün 40-80 GB RAM-a sahib GPU tələb olunur (məsələn, NVIDIA H100). Müqayisə üçün qeyd edək ki, tamölçülü, yenilənmiş R1 modelinin işləməsi üçün hər biri 80 GB RAM-a malik təxminən 12 ədəd GPU lazımdır.
DeepSeek-R1-0528-Qwen3-8B modelinin öyrədilməsi zamanı startap yenilənmiş R1 modelinin yaratdığı mətnlərdən istifadə edərək Qwen3-8B modelini incə tənzimləmədən (fine-tuning) keçirmişdir. Hugging Face süni zəka inkişaf platformasında verilən açıqlamada startap qeyd edib ki, bu məntiqi düşünmə modeli həm akademik tədqiqatlar, həm də kiçikmiqyaslı modellərə yönəlmiş sənaye layihələri üçün istifadə oluna bilər. DeepSeek-R1-0528-Qwen3-8B modeli MIT lisenziyası əsasında paylanır, bu da onun kommersiya məqsədləri üçün məhdudiyyətsiz şəkildə istifadəsinə imkan verir. LM Studio da daxil olmaqla bir neçə tətbiq artıq bu modeli API vasitəsilə təqdim edir.
Mənbə: Techcrunch
Linki kopyala
Bənzər xəbərlər
Oxşar xəbərlər
DeepSeek R1 süni zəka modelinin yenilənmiş versiyasını təqdim edib

DeepSeek R1 süni zəka modelinin yenilənmiş versiyasını təqdim edib
Çinin DeepSeek şirkəti R1 adlı süni zəka modelinin yenilənmiş versiyasını təqdim edib və onu MIT açıq lisenziyası altında Hugging Face platformasında yerləşdirib.
Natasha AI adı altında yüzlərlə hindu proqramçı fəaliyyət göstərib

Natasha AI adı altında yüzlərlə hindu proqramçı fəaliyyət göstərib
Son günlərdə, 5 ölkədə böyük filiallara sahib olan Londonun Builder.ai şirkəti iflasdan qorunmaq üçün məhkəməyə müraciət etdiyini elan edib. Startap təxminən 10 il əvvəl tətbiqlərin yaradılmasına yanaşmadakı innovativ metodu ilə tanınmağa başlamışdı.
Anthropic-in süni zəka əsaslı Claude çat-botunda səsli rejim istifadəyə verilib

Anthropic-in süni zəka əsaslı Claude çat-botunda səsli rejim istifadəyə verilib
Anthropic şirkəti süni zəka köməkçisi Claude üçün səsli rejimin tətbiqinə başlayıb. Hazırda bu funksiya mobil tətbiqlər üçün beta versiyada əlçatandır, lakin istifadəçilər artıq çat-bot ilə tam formatlı şifahi dialoqlar apara bilirlər.
Süni zəka əsaslı çat-botlar cinayətkarların alətlərinə çevrilirlər

Süni zəka əsaslı çat-botlar cinayətkarların alətlərinə çevrilirlər
İsrailin Ben-Qurion Universitetinin alimləri müəyyən ediblər ki, müasir böyük dil modellərinin (BDM) əksəriyyəti, o cümlədən ChatGPT, asanlıqla qeyri-qanuni fəaliyyətlərə dair ətraflı təlimatlar generasiya etməyə məcbur edilə bilər.
OpenAI-nin o3 modeli insanın əmrinə baxmayaraq deaktiv olmaqdan imtina edir

OpenAI-nin o3 modeli insanın əmrinə baxmayaraq deaktiv olmaqdan imtina edir
2025-ci ilin yazında OpenAI tərəfindən yeni nəsil süni zəkanın əsas modeli kimi təqdim olunmuş o3 modeli, söndürülmə ssenarisini yenidən yazaraq işini dayandırmaqla bağlı birbaşa göstərişi nəzərə almayıb. Bu hadisə Palisade Research tədqiqatçıları tərəfindən nəzarətli təcrübə çərçivəsində qeydə alınıb və süni zəka icmasında narahatlıq doğurub.
Həftənin xəbərləri

