Un experiment cu funcția AI Overviews din motorul de căutare Google a arătat că inteligența artificială oferă răspunsuri corecte doar în 90% din cazuri. Totuși, o nuanță esențială constă în faptul că cel puțin 1 din 10 răspunsuri este fals. Având în vedere numărul de căutări, se poate vorbi de milioane de „răspunsuri false” pe oră, se menționează într-un studi realizat de The New York Times și startup-ul Oumi. AI Overviews este o funcție a motorului de căutare Google care utilizează inteligența artificială (Gemini) pentru a genera răspunsuri automate și concise la solicitările utilizatorilor. A fost lansată pentru prima dată în 2024, iar anul trecut, începând din luna mai, a cunoscut o largă răspândire. De la momentul implementării, Google AI Overviews a stârnit o mulțime de controverse și plângeri, dar, în timp și odată cu lansarea noilor modele Gemini, a devenit mai bună. Într-un nou experiment, The New York Times a încercat să evalueze acuratețea răspunsurilor AI în acest moment: s-a dovedit că acestea sunt corecte în 90% din cazuri, adică cel puțin 1 din 10 răspunsuri este eronat. Experimentul a fost realizat în colaborare cu startup-ul de IA Oumi, iar pentru verificarea răspunsurilor s-a folosit SimpleQA – un test standard pentru modele, cu 4.000 de întrebări, creat de OpenAI în 2024. Primele teste au fost efectuate de Oumi anul trecut, când era actuală modelul Gemini 2.5. – atunci precizia AI Overviews era de 85%. După actualizarea la Gemini 3, aceasta a crescut la 91%. În același timp, dacă extrapolăm nivelul de erori la toate căutările, se poate vorbi despre milioane de răspunsuri eronate pe oră și sute de mii pe minut. Așa cum era de așteptat, Google a criticat metodologia studiului. Purtătorul de cuvânt Ned Adrians a declarat că SimpleQA poate conține inexactități. În schimb, compania folosește propriul text SimpleQA Verified, care se bazează pe un eșantion mai mic, dar verificat mai atent. „Acest studiu are lacune serioase”, a declarat Adrians pentru NYT. „Nu reflectă ceea ce caută oamenii cu adevărat pe Google”. Evaluarea IA rămâne o sarcină dificilă. Fiecare companie are propria modalitate de a demonstra capacitățile, deși verificarea este complicată și de faptul că modelele pot oferi răspunsuri diferite la aceeași întrebare. O altă particularitate este că AI Overviews nu este singurul model. Google a anunțat într-un comentariu pentru Ars Technica că sistemul alege „cel mai relevant” răspuns pentru fiecare interogare. Cele mai precise răspunsuri ar putea fi furnizate de Gemini 3.1 Pro, dar acesta este lent și costisitor, așa că se utilizează mai des modelele Gemini Flash. În ciuda tuturor acestor aspecte, un indicator de acuratețe de 9 din 10 pentru IA reprezintă un rezultat destul de bun pentru industrie. Anterior, Google a publicat teste ale noilor modele cu o precizie de 60–80% fără acces la date externe. Utilizarea surselor de pe internet îmbunătățește rezultatul, dar creează în același timp o altă problemă: utilizatorii au încredere în IA și nu verifică informațiile la sursele originale. Deși Google susține că rezultatele experimentului NYT nu corespund realității compania continuă să menționeze la sfârșitul fiecărui răspuns: „IA poate greși, așa că verificați încă o dată”.
sursa digi 24










