Inteligența artificială greșește masiv. Ce se întâmplă când consultăm chatboți AI în loc de medici
Chatboți precum ChatGPT şi Gemini vor da un diagnostic greşit şi vor duce pacienții pe o pistă greşită în cel puțin 40% dintre cazuri. Rata de greșeală crește la peste 80% din cazuri atunci când informațiile sunt incomplete, iar experții au testat 21 de modele lingvistice, inclusiv cele dezvoltate de OpenAI, Anthropic, Google, xAI şi DeepSeek.
Medici vs. chatboți AI
Studiul realizat de Mass General Brigham din Massachusetts şi publicat în JAMA Network Open a oferit chatboților din inteligența artificială pas cu pas informaţii medicale legate de o boală, inclusiv constatări ale consultaţiilor şi rezultate ale analizelor de laborator. Au fost astfel testate 21 de modele lingvistice, inclusiv cele dezvoltate de OpenAI, Anthropic, Google, xAI şi DeepSeek.
Evaluarea a inclus și scenarii în care modelele primeau informaţii complete şi scenarii cu informaţii incomplete.
Specialiştii au descoperit că toate modelele dau diagnostice greşite în peste 80% dintre cazurile în care nu au acces la informaţiile complete ale pacienţilor, iar nici când au avut toate informaţiile chatboţii nu s-au descurcat grozav, având şi în aceste cazuri o rată a erorilor de peste 40%.
Concluzia experţilor este că performanţa chatboţilor AI pe partea medicală depinde de volumul informaţiilor, dar chiar şi când le sunt oferite informaţii complete, aceştia pot induce utilizatorii în eroare.
Chatboții AI au halucinații
Explicația limitărilor identificate este legată de fenomenul numit „halucinaţii”. Toate modelele lingvistice actuale suferă de aşa-numitele halucinaţii, adică inventează informaţii atunci când trebuie să dea un răspuns fără aibă o soluţie clară.
Potrivit autorilor studiului, aceste halucinaţii și dependența de volumul de date explică atât rata de cel puțin 40% de erori cu informații complete, cât și creșterea ratelor la peste 80% în scenariile cu informații incomplete.