Cu cât inteligenţa artificială (AI) devine mai avansată, cu atât „halucinează” mai frecvent şi oferă informaţii incorecte şi inexacte, conform unui material publicat luni de Live Science.
Cercetări realizate de OpenAI au ajuns la concluzia că cele mai noi şi mai puternice modele AI, o3 şi o4-mini, au halucinat în 33% şi respectiv 48% din timpul în are au fost testate cu instrumentul de benchmark PersonQA al OpenAI. Adică de peste două ori mai mult decât rata de halucinare observată la modelul mai vechi o1. Chiar dacă modelul o3 oferă informaţii mai exacte decât predecesorul său, se pare că acest progres este însoţit de costul unor halucinaţii mai frecvente.
Acest lucru ridică semne de întrebare cu privire la exactitatea şi fiabilitatea modelelor mari de limbaj (LLM) aşa cum sunt chatboţii AI, conform lui Eleanor Watson, cercetătoare în cadrul Institute of Electrical and Electronics Engineers (IEEE) şi inginer specializat în etica sistemelor AI la Singularity University.
„Atunci când un sistem produce informaţii fabricate – cum ar fi fapte, citări sau evenimente inventate – cu aceeaşi fluenţă şi coerenţă de care dă dovadă pentru conţinutul exact pe care-l generează, riscă să-i inducă în eroare pe utilizatori în mod subtil şi consecvent”, a declarat Eleanor Watson pentru Live Science.
Chestiunea halucinaţiilor scoate în evidenţă nevoia de a evalua cu atenţie şi de a supraveghea conţinutul produs de sistemele AI atunci când sunt folosite sisteme LLM şi modele de raţionare, conform experţilor.
Esenţa unui model de raţionament este că poate gestiona sarcini complexe prin fragmentarea lor până la nivelul componentelor individuale şi identificarea de soluţii pentru fiecare în parte. În loc de a încerca să ofere răspunsuri bazate pe probabilităţi statistice, modelele de raţionament vin cu strategii pentru rezolvarea unei probleme, asemănător modului în care funcţionează mintea oamenilor.
Pentru a dezvolta soluţii creative şi potenţial noi la diverse probleme, AI-ul are nevoie să halucineze, altfel fiind limitat de datele rigide acumulate de LLM-ul său.
„Este important de subliniat că halucinaţiile sunt o caracteristică şi nu un defect al AI-ului”, a declarat Sohrob Kazerounian, cercetător la Vectra AI, pentru Live Science. „Pentru a-l parafraza pe un coleg, ‘tot ce produce un sistem LLM este o halucinaţie, doar că unele dintre aceste halucinaţii sunt adevărate’. Dacă un sistem AI ar genera doar rezultatele exacte pe care le-a acumulat în timpul antrenamentului, întregul AI s-ar reduce la o problemă masivă de căutare”.
„Ar putea genera doar limbaj de programare ce a fost scris înainte, să descopere proteine şi molecule ale căror proprietăţi au fost deja studiate şi descrise şi să răspundă la întrebări cu privire la teme care au mai fost adresate înainte. Pe de altă parte, nu ai putea să-i ceri unui sistem LLM să scrie versuri pentru un album concept pe tema singularităţii AI, în care se amestece stilul versurilor lui Snoop Dogg cu cel al lui Bob Dylan.”
De fapt, susţin experţii, modelele mari de limbaj (LLM) şi sistemele AI pe care le alimentează au nevoie să halucineze pentru a putea crea şi a nu se rezuma la oferirea pur şi simplu a unei informaţii existente. Este un fenomen similar, din punct de vedere conceptual, modului în care oamenii visează sau îşi imaginează scenarii şi noi idei.
Însă, halucinaţiile modelelor AI prezintă o problemă atunci când trebuie să ofere informaţii corecte şi exacte, în special dacă utilizatorii iau de bună informaţiile primite şi nu le verifică.
„Acest lucru este în mod special problematic în domeniile în care deciziile depind de precizie factuală, aşa cum sunt medicina, justiţia sau finanţele. Dacă modelele mai avansate pot reduce frecvenţa erorilor factuale evidente, problema persistă în forme mai subtile. De-a lungul timpului, aceste erori pot eroda percepţia cu privire la sistemele AI ca instrumente de încredere şi pot produce pagube materiale sau de altă natură atunci când se acţionează conform informaţiilor primite şi neverificate”, a explicat Eleanor Watson.
Această problemă pare să fie exacerbată pe măsură ce sistemele AI avansează. „Pe măsură ce capacităţile modelelor se îmbunătăţesc, erorile devin deseori mai puţin evidente şi mai greu de descoperit. Conţinutul fabricat este din ce în ce mai bine integrat în narative plauzibile şi în lanţuri de raţionament coerente. Astfel apare un anumit risc: utilizatorii ar putea să nu fie conştienţi că erorile sunt prezente şi ar putea trata rezultatele furnizate de AI drept definitive când de fapt nu sunt. Problema se mută de la filtrarea erorilor evidente la identificarea distorsiunilor subtile, care pot apărea doar după verificări minuţioase”, mai susţine Watson.
Sohrob Kazerounian susţine acest punct de vedere. „În pofida credinţei generale că problema halucinaţiilor sistemelor AI se va ameliora în timp, iată că cea mai recentă generaţie de modele avansate de raţionament par să halucineze mai mult decât sistemele mai simple dinaintea lor – şi nu avem încă explicaţii coerente cu privire la motivul pentru care se întâmplă acest lucru”, a subliniat el.
Situaţia este complicată şi mai mult de faptul că este foarte dificil de stabilit modul în care modelele LLM ajung la răspunsurile pe care le oferă – o paralelă cu faptul că nu se ştie cu adevărat nici cum funcţionează creierul uman.
Într-un eseu recent, Dario Amodei, CEO al companiei dezvoltatoare de AI Anthropic, a evidenţiat faptul că nu înţelegem modul în care AI-ul ajunge la răspunsurile şi la informaţiile pe care le dă. „Atunci când un sistem AI generativ face ceva, cum ar fi un rezumat al unui document financiar, nu ştim la un nivel specific sau exact de ce face alegerile pe care le face – de ce alege anumite cuvinte în locul altora sau de ce mai face uneori greşeli deşi în general este exact”, scrie el.
Problemele provocate de sistemele AI care halucinează şi oferă informaţii inexacte sunt foarte reale, notează şi Kazerounian. „Nu există niciun mod universal, verificabil, de a face un model LLM să răspundă în mod corect întrebărilor pe care le primeşte cu privire la un anumit corpus de date la care are acces. Exemplele unor referinţe non-existente, halucinate, chatboţi care inventează politici inexistente ale companiilor pe care le reprezintă în discuţii cu clienţii şi aşa mai departe, sunt acum chestiuni mult prea comune”, a subliniat el.
Ţinând cont de faptul că ar putea fi aproape imposibil de eliminat fenomenul halucinaţiilor AI, în special în modelele cele mai avansate, Kazerounian a concluzionat că informaţiile produse de sistemele LLM vor trebui tratate „cu acelaşi scepticism ca informaţiile provenite de la alţi oameni”, scrie Agerpres