Inteligjenca Artificiale (IA) po bëhet një pjesë integrale e jetës së përditshme, duke përfshirë llogaritjet e përditshme. Por sa mirë i trajtojnë këto sisteme në të vërtetë matematikën bazë? Dhe sa duhet t’u besojnë përdoruesit atyre?
Një studim i kohëve të fundit këshillon kujdes. Hulumtimi Omni mbi Llogaritjen në IA (ORCA) tregon se kur i kërkoni një chatboti të IA-së të kryejë matematikë të përditshme, ka afërsisht 40 përqind shanse që ai të japë përgjigjen e gabuar. Saktësia ndryshon ndjeshëm në të gjitha kompanitë e IA-së dhe në të gjitha llojet e ndryshme të detyrave matematikore.
Pra, cilat mjete të IA-së janë më të sakta dhe si performojnë ato në lloje të ndryshme llogaritjesh, të tilla si statistika, financa ose fizika?
Rezultatet bazohen në performancën në 500 pyetje të nxjerra nga probleme të llogaritshme të botës reale. Çdo model i IA-së u testua duke përdorur të njëjtin grup prej 500 pyetjesh. Pesë modelet e IA-së u testuan në tetor 2025.
Modelet e zgjedhura janë:
ChatGPT-5 (OpenAI)
Gemini 2.5 Flash (Google)
Claude 4.5 Sonnet (Anthropic)
DeepSeek V3.2 (DeepSeek AI)
Grok-4 (xAI).
Testi ORCA Benchmark zbuloi se asnjë model i IA-së nuk mori rezultate mbi 63 përqind në matematikën e përditshme. Kryesuesi, Gemini (63 përqind), ende zgjidh pothuajse 4 nga 10 probleme gabim. Grok ka pothuajse të njëjtin rezultat me 62.8 përqind. DeepSeek renditet i treti me 52 përqind. ChatGPT vjen pas me 49.4 përqind, dhe Claude vjen i fundit me 45.2 përqind.
Mesatarja e thjeshtë e pesë modeleve është 54.5 përqind. Këto rezultate pasqyrojnë performancën e përgjithshme të modeleve në të gjitha 500 pyetjet.
“Edhe pse renditja e saktë mund të ndryshojë nëse do ta përsërisnim pikën referuese sot, përfundimi më i gjerë ka të ngjarë të mbetet i njëjtë: besueshmëria numerike mbetet një pikë e dobët në të gjitha modelet aktuale të IA-së”, tha për Euronews Next Dawid Siuda, bashkautor i ORCA Benchmark.
Saktësia më e lartë në matematikë dhe konvertime, më e ulëta në fizikë
Performanca e tyre ndryshon në kategori të ndryshme. Në matematikë dhe konvertime (147 nga 500 pyetje), Gemini kryeson me 83 përqind, e ndjekur nga Grok me 76.9 përqind dhe DeepSeek me 74.1 përqind. ChatGPT shënon 66.7 përqind në këtë kategori.
Saktësia mesatare e thjeshtë në të pesë modelet është 72.1 përqind, më e larta midis shtatë kategorive.
Në të kundërt, fizika (128 pyetje) është kategoria më e dobët, me një saktësi mesatare prej vetëm 35.8 përqind. Grok performon më mirë me 43.8 përqind, pak përpara Gemini me 43 përqind, ndërsa Claude bie në 26.6 përqind.
Në shtatë kategoritë, Gemini dhe Grok renditen të parët në tre, dhe ndajnë vendin e parë në një.
Lexo edhe: ChatGPT, Gemini, Grok dhe të tjerë: Cilat vende përdorin më shumë mjete të IA-së gjeneruese në Europë?
Saktësia e DeepSeek është vetëm 11 përqind në biologji dhe kimi.
DeepSeek regjistroi saktësinë më të ulët në të gjitha kategoritë në biologji dhe kimi me 10.6 përqind. Kjo do të thotë që modeli nuk arriti të japë një përgjigje të saktë në afërsisht nëntë nga dhjetë pyetje.
Boshllëqet më të mëdha të performancës shfaqen në financë dhe ekonomi. Grok dhe Gemini arrijnë nivele saktësie prej 76.7 përqind, ndërsa tre modelet e tjera, të cilat janë ChatGPT, Claude dhe DeepSeek, bien nën 50 përqind.
Paralajmërim për përdoruesit: Gjithmonë kontrolloni dy herë me një makinë llogaritëse.
“Nëse detyra është kritike, përdorni kalkulatorë ose burime të provuara, ose të paktën kontrolloni dy herë me një tjetër IA,” tha Siuda.





1 Comment
Pingback: Një epokë e re e blerjeve me AI: Si po i zgjedhin algoritmet markat - Technews.al