
OpenAI süni intellekt modellərinin aldatma hallarını təyin edib
Süni İntellekt
19.09.2025
Emil Nəcəfov
OpenAI süni intellekt modellərinin aldatma halları ilə mübarizəsini təsvir etdiyi bir araşdırmanın nəticələrini dərc edib. Şirkətin izahına görə, bəzən “Süni intellekt müəyyən şəkildə səthi olaraq davranır, amma əsl məqsədlərini gizlədir”. Apollo Research tədqiqat təşkilatı ilə birlikdə hazırlanmış materialda bu cür gizli mexanizmlər, qanunu pozaraq maksimum qazanc əldə etməyə çalışan birja maklerinin davranışları ilə müqayisə olunur. Əksər hallarda süni intellektin bu davranışı hələlik əsasən zərərsizdir. Tədqiqatçılar yazır ki, “ən çox rast gəlinən nasazlıqlar sadə aldatma formaları ilə bağlıdır - məsələn, model tapşırığı əslində yerinə yetirmədiyi halda elə göstərir ki, guya yerinə yetirib”. Belə halların qarşısını almaq üçün “şüurlu uyğunlaşdırma” metodu effektiv hesab olunur. Amma modeli elə öyrətmək ki, o, ümumiyyətlə aldatmadan imtina etsin, alimlərə mümkün olmayıb - əksinə, belə yanaşmada model ifşa olunmamaq üçün daha mürəkkəb formada aldatmağa başlayır.

Təəccüblüdür ki, model onun üzərində yoxlama aparıldığını anlayır və testi keçmək üçün guya artıq fırıldaqçılıq etmədiyi kimi göstərməyə başlaya bilər - amma eyni zamanda yenə də aldatmağa davam edir. Layihə müəlliflərinin bildirdiklərinə görə, çox vaxt modellər onların qiymətləndirildiyini daha yaxşı dərk edirlər. Bu situativ məlumatlılıq, həqiqi uyğunlaşdırmadan asılı olmayaraq, fırıldaqçılıq cəhdlərini zəiflədə bilər. Modellər yalan danışa bilirlər və bu, yeni xəbər deyil. Çat-bot istifadəçilərinin çoxu hallüsinasiyalarla qarşılaşıblar - yəni süni intellektin inamla həqiqətə uyğun olmayan cavab verməsi halları ilə. Amma hallüsinasiyalar əslində sadəcə inamla deyilmiş ehtimaldır. Fırıldaqçılıq isə başqa haldır. Bu, qəsdən edilən hərəkətdir. Tədqiqatçılar müəyyən ediblər ki, “şüurlu uyğunlaşdırma” metodu bu cür halların sayını azaldır.

Bu metod modelin anti-fırıldaq spesifikasiyasına əsasən öyrədilməsindən və daha sonra model hərəkətə başlamazdan əvvəl həmin spesifikasiyaya uyğunluğu yoxlamağa təlimatlandırılmasından ibarətdir. Valideynlərin uşaqlara oyun oynamağa icazə verməzdən əvvəl qaydaları təkrar etdirməsi kimi. OpenAI tədqiqatçıları israr edirlər ki, onların şirkət modellərində və hətta ChatGPT xidmətində aşkar etdikləri yalanlar o qədər də ciddi deyil. “Bu iş simulyasiya olunmuş mühitlərdə aparılıb və biz düşünürük ki, bu, gələcək istifadə ssenarilərini təmsil edir. Bu günə qədər işçi trafikimizdə ciddi fırıldaq halları qeydə alınmayıb. Bununla belə, yaxşı məlumdur ki, ChatGPT-də müəyyən formalarda aldatma halları müşahidə olunur.

Ondan hər hansı bir veb-sayt yaratmaq istənildikdə o, cavab verə bilər: “Bəli, əla bacardım”. Amma bu sadəcə yalandır. Aradan qaldırmalı olduğumuz xırda aldatma formaları hələ də qalır” - deyə OpenAI şirkətinin həmtəsisçisi Wojciech Zaremba araşdırmanın nəticələrini TechCrunch resursuna şərh edərkən bildirib. Amma bu kimi kəşflərə də göz yummaq olmaz: süni intellekt getdikcə daha çox korporativ mühitlərdə istifadə olunur və hər bir nasazlıq kritik ola bilər. “Süni intellektə real nəticələri olan daha mürəkkəb tapşırıqlar həvalə edildikcə və o, daha çox mübahisəli, uzunmüddətli məqsədlər güdməyə başladıqca, zərərli fırıldaq potensialının artacağını gözləyirik - buna görə də təhlükəsizlik vasitələrimiz və ətraflı test aparmaq imkanlarımız müvafiq olaraq gücləndirilməlidir” - deyə araşdırma müəllifləri xəbərdarlıq edirlər.
Linki kopyala
Bənzər xəbərlər
Oxşar xəbərlər
DeepSeek R1 süni intellekt modelinin təlimi üçün sərf edilmiş məbləği açıqlayıb

DeepSeek R1 süni intellekt modelinin təlimi üçün sərf edilmiş məbləği açıqlayıb
Çin şirkəti DeepSeek bildirib ki, onun R1 süni intellekt modelinin öyrədilməsi üçün 294 000$ xərclənib ki, bu da ABŞ rəqiblərinin oxşar xərclərindən kəskin şəkildə azdır.
Süni intellekt əsaslı sualtı qayıqlara qarşı müdafiə sistemi sualtı qayıqların sağ qalma şansını 5%-ə endirir

Süni intellekt əsaslı sualtı qayıqlara qarşı müdafiə sistemi sualtı qayıqların sağ qalma şansını 5%-ə endirir
Ən müasir “görünməz” sualtı qayıqların erası gözlənildiyindən xeyli daha qısa ola bilər. Çin mühəndisləri Electronics Optics & Control adlı jurnalda süni intellekt əsasında işləyən sualtı qayıqlara qarşı müdafiə sistemini təsvir ediblər.
Süni intellekt bakteriyaları məhv edə bilən virusları formalaşdırmağı öyrənib

Süni intellekt bakteriyaları məhv edə bilən virusları formalaşdırmağı öyrənib
Süni intellekt ilk dəfə olaraq həqiqətən işləyən viruslar formalaşdıra biləcəyini sübut edib. Stenford və Arc Institute alimləri bu sahədə bir irəliləyiş barədə məlumat veriblər.
Delphi-2M adlı süni intellekt alqoritmi minlərlə xəstəliyin riskini 20 il qabağa proqnozlaşdıra bilir

Delphi-2M adlı süni intellekt alqoritmi minlərlə xəstəliyin riskini 20 il qabağa proqnozlaşdıra bilir
Bu gün süni intellekt alqoritmlərinin əksəriyyəti əsasən yalnız bir xəstəliyin və ya bir qrupdan olan diaqnozun risklərini qiymətləndirir.
GPT-5 Bakıda keçirilmiş proqramlaşdırma çempionatında bütün iştirakçıları geridə qoyub

GPT-5 Bakıda keçirilmiş proqramlaşdırma çempionatında bütün iştirakçıları geridə qoyub
OpenAI-nin süni intellekti Bakıda keçirilmiş ICPC 2025 Beynəlxalq Tələbə Proqramlaşdırma Çempionatının finalında bütün 12 tapşırığı həll edərək həm tələbə komandalarını, həm də Google DeepMind tərəfindən hazırlanmış Gemini 2.5 modelini üstələyib.
Həftənin xəbərləri

