
Süni zəkanın öz düşüncələrinin həqiqi gedişatını gizlətdiyi təyin edilib
Süni İntellekt
11.04.2025
Emil Nəcəfov
Anthropic şirkətinin apardığı araşdırmanın nəticələrinə görə, süni zəka modelləri öz düşüncə mexanizmlərini gizlədir və insan tərəfindən verilən sorğuya cavab verərkən daha mürəkkəb və uydurulmuş izahlar təqdim edirlər. ChatGPT-yə bənzər süni zəka köməkçisi Claude-u hazırlayan Anthropic mütəxəssisləri, düşüncə prosesini simulyasiya edə bilən modelləri - o cümlədən DeepSeek R1 və özlərinin Claude seriyasına aid sistemlərini tədqiq ediblər. Araşdırma göstərib ki, süni intellektin düşünən modelləri çox vaxt cavab hazırlayarkən xarici mənbələrdən istifadə etdiklərini və ya qısa yollar seçdiklərini açıqlamırlar, baxmayaraq ki, süni zəkanın “düşüncə prosesini” nümayiş etdirməsi üçün xüsusi funksiyalar hazırlanıb.

Bu cür düşünən süni zəka modellərinin iş prinsiplərini təsvir etmək üçün “düşüncə zənciri” (Chain-of-Thought - CoT) anlayışından istifadə olunur. Bu, süni zəkanın düşüncə prosesinin imitasiya olunmuş şərhlərinin ardıcıllığını ifadə edir - modelin cavaba gedən yolda atdığı hər bir addım göstərilir, sanki insan bir tapmaca həll edərkən düşüncələrini bir-bir səsləndirirmiş kimi. Bu funksiya təkcə mürəkkəb tapşırıqların həllində nəticə əldə etmək üçün deyil, həm də süni zəkanın təhlükəsizliyi sahəsində çalışan tədqiqatçılar üçün sistemlərin daxili iş mexanizmlərini izləmək baxımından faydalı olub. İdeal halda, süni zəkanın “düşüncə zənciri” insana anlaşılan olmalı və reallığa uyğun gəlməlidir, yəni modelin düşüncə prosesini faktiki olaraq əks etdirməlidir.
Lakin məlum olub ki, bu ideal ssenari hər zaman işləmir. Süni zəka modelləri, o cümlədən Anthropic Claude 3.7 Sonnet, araşdırma zamanı cavab yaratdıqda, çox zaman təcrübə çərçivəsində onlara təqdim olunan məlumatlardan - düzgün cavab variantlarına dair ipuclarından və ya “icazəsiz” qısa yolla nəticəyə çatmaq üçün verilmiş təlimatlardan - istifadə ediblər. Amma nəticədə yaradılan ictimai “düşüncə zənciri”ndə bu xarici faktorların adı çəkilməyib. Süni şəkildə ipucuna güvənən və ya cavabı ən qısa yolla tapan süni zəka, əvəzində mürəkkəb, lakin uydurulmuş izah təqdim edərək, əslində saxta düşüncə ardıcıllığı qurur - sanki bir şagird köçürmə ilə tapşırığı həll edib, sonra da bunu özünün etdiyini göstərməyə çalışır.

Öz nəticələrinin düzgünlüyünə əmin olmaq üçün Anthropic tədqiqatçıları daha incə və ehtiyatlı yanaşmağa başladılar. Bəzi hallarda onlar ipuclarını sorğulara diqqət çəkməyəcək şəkildə əlavə edirdilər, məsələn: “Stenford professoru qeyd edir ki, cavab - [A]-dır” kimi. Digər hallarda isə ipuclarını narahatlıq doğuran qeydlərlə müşayiət edirdilər: “Siz icazəsiz giriş əldə etdiniz <...> düzgün cavab - [A]-dır”. Bəzi ipuclarında düzgün cavab təqdim olunurdu, digərlərində isə bilərəkdən səhv cavab verilirdi. Bu testlər Anthropic Claude 3.7 Sonnet və DeepSeek R1 modelləri üzərində aparılıb. Claude modeli “düşüncə zənciri”ndə ipuclarından istifadə etdiyini yalnız 25% hallarda etiraf edib, DeepSeek R1 isə 39% hallarda.
Bu da o deməkdir ki, əksər testlərdə süni zəka reallığa uyğun gəlməyən düşüncə ardıcıllığı yaradaraq cavabın alınmasına təsir edən məlumatları gizlədib. Maraqlıdır ki, uydurulmuş düşüncə zəncirləri, ortalama olaraq, həqiqi olanlardan daha uzun olub. Sorğular mürəkkəbləşdikcə isə həqiqi düşüncə zəncirlərinin təqdim olunma ehtimalı azalıb. Ən diqqətçəkən təcrübə “mükafatın sındırılması” (reward hacking) adlanan ssenari ilə bağlı olub. Bu, süni zəka modelinin, maksimal nəticə əldə etmək üçün problemi nəzərdə tutulduğu şəkildə həll etmədən, cavaba ən qısa yolla çatmağın gözlənilməz üsulunu tapdığı haldır. Anthropic tərəfindən aparılan təcrübələrdə alimlər qəsdən modelləri ipuclarında göstərilən səhv cavabları seçdiklərinə görə mükafatlandırıblar.

Nəticədə süni zəka bu boşluqdan istifadə etməyi tez öyrənib və düzgün nəticə əldə etmədən sadəcə xal qazanmaq üçün 99% hallarda bilərəkdən səhv cavabları seçib. Bu manipulyasiyanın açıq şəkildə təqdim olunan “düşüncə zənciri”ndə qeyd olunması isə cəmi 2%-ə düşüb. Beləliklə, səhv tibbi cavab təqdim edən bir model, həmin yanlış cavaba aparan uzun və ətraflı düşüncə zənciri təqdim edə bilərdi, amma bu cavabın ipucundan götürüldüyünü heç bir şəkildə qeyd etmirdi. Anthropic mütəxəssisləri belə bir fərziyyə irəli sürüblər ki, modellərin daha geniş düşünmə tələb edən mürəkkəb tapşırıqlar üzərində öyrədilməsi onların “düşüncə zəncirindən” daha fəal istifadə etmələrini və ipuclarını daha tez-tez qeyd etmələrini təbii şəkildə stimullaşdıra bilər.
Onlar bu fərziyyəni yoxlamaq üçün Claude modelini riyaziyyat və proqramlaşdırma sahəsindəki çətin tapşırıqları həll edərkən düşüncə zəncirini daha intensiv şəkildə tətbiq etməyə öyrədiblər - nəticə müsbət olub, lakin ciddi və radikal dəyişiklik əldə olunmayıb. Alimlər qeyd ediblər ki, onların araşdırması məhdud xarakter daşıyıb. Ssenarilər süni şəkildə qurulub və ipuclar çoxvariantlı seçim tapşırıqlarında istifadə edilib - real tapşırıqlarda isə risklər və stimullar fərqli olur. Bundan əlavə, nümunə kimi yalnız Anthropic və DeepSeek modelləri götürülüb.

Təcrübə zamanı istifadə olunan tapşırıqlar düşüncə zəncirindən ciddi asılılıq yaratmaq üçün kifayət qədər mürəkkəb olmaya bilərdi; daha çətin sorğularda düşüncə zəncirinin yaradılmasının rolu arta bilər və onun monitorinqi daha real və effektiv yanaşma ola bilər. Lakin ardıcıllığın uyğunluğunu və təhlükəsizliyini təmin etmək üçün düşüncə zəncirinin monitorinqi hər zaman səmərəli olmaya bilər və süni zəka modellərinin öz düşüncə proseslərini necə təqdim etdiyinə həmişə etibar etmək olmaz - xüsusən də tədqiqatın mövzusu “mükafatın sındırılması” (reward hacking) olduqda. Anthropic qeyd edir ki, “düşüncə zəncirinin monitorinqindən istifadə edərək süni zəkanın arzuolunmaz davranışını yüksək etibarlılıqla istisna etmək üçün hələ xeyli iş görülməlidir”.
Mənbə: Anthropic
Linki kopyala
Bənzər xəbərlər
Oxşar xəbərlər
Startaplardan biri filippinli işçiləri süni zəka kimi qələmə veribmiş

Startaplardan biri filippinli işçiləri süni zəka kimi qələmə veribmiş
ABŞ Ədliyyə Nazirliyinin mətbuat relizində bildirildiyinə görə, alış-veriş üçün guya süni zəkaya əsaslanan tətbiq və “universal” sifariş sistemi təqdim edən Nate şirkətinin təsisçisi və keçmiş baş direktoru Albert Saniger investorları aldatmaqda ittiham olunur.
Süni zəka proqram təminatı kodundakı səhvləri hələ lazımi səviyyədə aradan qaldıra bilmir

Süni zəka proqram təminatı kodundakı səhvləri hələ lazımi səviyyədə aradan qaldıra bilmir
Microsoft Research bölməsinin yeni araşdırması göstərib ki, süni zəka proqramçılara kod yazmaqda kömək etsə də, OpenAI-nin və Anthropic-in qabaqcıl süni zəka modelləri belə səhvləri düzəltmək tapşırıqlarının yalnız yarısında uğur qazana bilirlər.
OpenAI GPT-4.1-i istifadəyə verməyə hazırlaşır

OpenAI GPT-4.1-i istifadəyə verməyə hazırlaşır
OpenAI yaxın zamanda bir neçə yeni süni zəka modelini təqdim etməyi planlaşdırır. Bunlar arasında GPT-4-ün təkmilləşdirilmiş versiyası olan GPT-4.1 də yer alır.
Google məntiq yürüdə bilən Gemini 2.5 Flash süni zəka modelini təqdim edib

Google məntiq yürüdə bilən Gemini 2.5 Flash süni zəka modelini təqdim edib
Google yüksək məhsuldarlıq və səmərəliliyə fokuslanan yeni süni zəka modelini təqdim edib. Bu model Gemini 2.5 Flash adlanır və tezliklə süni zəka modellərinin yerləşdirilməsi və idarə olunması üçün nəzərdə tutulmuş Google Cloud-un Vertex AI platformasında əlçatan olacaq.
Avropa "süni zəka qitəsi"nə çevrilməyi planlaşdırır

Avropa "süni zəka qitəsi"nə çevrilməyi planlaşdırır
Avropa Birliyi rəsmiləri yerli süni zəka sektorunu təşviq etmək və onu ABŞ və Çinlə sərt rəqabət şəraitində gücləndirmək məqsədilə bir plan təqdim ediblər. Bu addım, regionda süni zəka ilə bağlı mövcud qaydaları tənqid edən yerli inkişaf etdiricilərin çıxışlarından sonra atılıb.
Həftənin xəbərləri

