Cât de corecte sunt răspunsurile inteligenței artificiale despre sănătate?
Platformele bazate pe inteligență artificială răspund corect la aproximativ trei din patru întrebări medicale. Deși procentul pare încurajator, cercetătorii avertizează că rata erorilor rămâne suficient de mare pentru a pune în pericol sănătatea.
Înainte ca oamenii să meargă la medic, mulți aleg să își verifice simptomele online. Dacă în trecut primul pas era o căutare pe Google, astăzi tot mai multe persoane se adresează direct unor sisteme de inteligență artificială precum ChatGPT, Gemini sau Llama pentru a afla ce problemă de sănătate ar putea avea.
Un nou studiu realizat de cercetători de la Universitatea Penn State a analizat cât de precise sunt aceste răspunsuri atunci când întrebările provin de la utilizatori obișnuiți, nu de la medici sau specialiști. Rezultatele arată că IA oferă informații medicale corecte în 76,2% dintre cazuri, însă aproximativ unul din patru răspunsuri conține erori sau informații potențial problematice.
„Am vrut să înțelegem dacă, atunci când oamenii folosesc modele precum ChatGPT pentru verificarea simptomelor, acestea oferă răspunsuri suficient de precise și cât de dăunătoare ar putea fi eventualele greșeli”, a explicat Amulya Yadav, profesor asociat la Facultatea de Științe și Tehnologie Informațională din cadrul Penn State, conform Medical Xpress.
Experimentul care a pus la încercare inteligența artificială
Pentru a reproduce cât mai fidel situațiile din viața reală, cercetătorii au organizat un concurs denumit „Diagnose-a-thon”.
La studiu au participat 34 de persoane, inclusiv cadre universitare, angajați și studenți, care au formulat 212 întrebări despre probleme de sănătate reale sau ipotetice. Participanții au avut libertatea de a utiliza modelul de inteligență artificială preferat dintre:
- ChatGPT-4o;
- ChatGPT-3.5;
- Gemini 1.5 Pro;
- Llama 3-8b.
Întrebările au fost formulate atât din perspectiva pacientului, cât și a medicului, pentru a simula cât mai multe scenarii posibile.
Ulterior, nouă medici certificați au evaluat răspunsurile generate de IA, analizând atât corectitudinea informațiilor, cât și riscul ca acestea să producă efecte negative asupra pacienților.
Specialitățile medicale unde IA se descurcă cel mai bine
Rezultatele au arătat diferențe importante între diverse domenii medicale.
Cele mai bune performanțe au fost înregistrate în:
- obstetrică și ginecologie;
- otorinolaringologie (ORL).
În aceste specialități, răspunsurile au fost considerate mai valide și au prezentat un risc redus de a provoca daune.
În schimb, cele mai multe probleme au apărut în:
- medicina internă;
- neurologie;
- dermatologie.
În aceste domenii, sistemele de inteligență artificială au generat mai frecvent informații incomplete, eronate sau susceptibile să inducă utilizatorii în eroare.
Cercetătorii au observat și un detaliu interesant: întrebările formulate clar și concis, cu o lungime între 60 și 250 de caractere, au generat cele mai precise răspunsuri.
Mai multe informații medicale nu înseamnă automat răspunsuri mai bune
Într-o a doua etapă a studiului, cercetătorii au încercat să îmbunătățească performanțele modelelor de inteligență artificială prin antrenarea acestora cu manuale medicale, ghiduri clinice și articole științifice utilizate în facultățile de medicină.
Surprinzător, rezultatele nu au fost întotdeauna mai bune.
Un grup format din medici, rezidenți și studenți la medicină a comparat răspunsurile modelelor standard cu cele ale versiunilor suplimentar antrenate. În cazul Gemini și Llama, evaluatorii au preferat de multe ori răspunsurile modelelor originale. Pentru ChatGPT nu s-a observat o diferență semnificativă.
Descoperirea sugerează că simpla adăugare a unor volume mari de informații medicale nu garantează automat răspunsuri mai utile sau mai adecvate clinic.
Rata de eroare rămâne de două ori mai mare decât la medicii umani
Deși procentul de acuratețe de 76% poate părea impresionant, autorii studiului atrag atenția asupra unei realități importante.
Erorile generate de IA depășesc în continuare 20%, aproximativ dublul ratei de eroare observate în cazul medicilor umani.
Potrivit cercetătorilor, aceste greșeli pot avea consecințe serioase atunci când utilizatorii iau decizii medicale fără a consulta un specialist.
„Nu cred că inteligența artificială va înlocui medicii umani, dar avem o oportunitate extraordinară de a îmbunătăți activitatea medicilor într-un mod fără precedent”, a declarat Jennifer Kraschnewski, profesor de medicină internă și director al Institutului de Științe Clinice și Translaționale de la Penn State.
Inteligența artificială, mai utilă pentru medici decât pentru pacienți?
Concluzia generală a cercetătorilor este că inteligența artificială ar putea avea un rol valoros în sistemul medical, însă mai degrabă ca instrument de sprijin pentru profesioniști decât ca înlocuitor al consultației medicale.
„Fie că ne place sau nu, oamenii vor continua să folosească inteligența artificială pentru a-și evalua simptomele și problemele de sănătate”, a afirmat cercetătorul S. Shyam Sundar.
Studiul evidențiază atât potențialul uriaș al acestor tehnologii, cât și limitele lor actuale. Pentru moment, experții recomandă ca răspunsurile oferite de chatbot-uri să fie privite ca informații orientative și nu ca un diagnostic medical, mai ales în cazul simptomelor complexe sau al afecțiunilor care necesită evaluare de specialitate.
