Yapay Zekalarda Doğruluk Testi: En İyi Performans Gemini’den

Yapay zeka modellerinin doğruluk seviyeleri test edildiğinde, ChatGPT-5 (OpenAI), Gemini 2.5 Flash (Google), Claude 4.5 Sonnet (Anthropic), DeepSeek V3.2 (DeepSeek AI) ve Grok-4 (xAI) modelleri arasında farklılıklar ortaya çıktı. Her bir model benzer sorulara yanıt verirken, doğruluk oranları yüzde 45 ile 63 arasında değişiklik gösterdi.

En Yüksek Başarı Gemini’de

En yüksek doğruluk oranını yüzde 63 ile Gemini elde etti. Ancak, bu sonuç her 10 sorudan yaklaşık 4’ünün yanlış cevaplandığı anlamına geliyor. Grok modeli yüzde 62,8 ile ikinci sırayı aldı. DeepSeek yüzde 52 ile üçüncü sırada yer alırken, ChatGPT yüzde 49,4’lük doğruluk oranıyla dördüncü oldu. Claude ise yüzde 45,2 ile listenin sonunda yer aldı.

Araştırmada dikkat çeken bir başka bulgu da kategoriler arasındaki performans farkıydı. Özellikle matematik ve dönüşümler kategorisinde Gemini yüzde 83’lük doğrulukla öne çıktı. Grok yüzde 76,9 ve DeepSeek ise yüzde 74,1 ile bu kategorideki performanslarını sürdürdü. Ortalama doğruluk oranı ise bu kategoride yüzde 72,1 olarak belirlendi.

En Düşük Başarı Fizikte

Fizik alanı, en düşük doğruluk oranının görüldüğü kategori oldu. 128 sorunun sorulduğu bu alanda ortalama doğruluk oranı yalnızca yüzde 35,8 seviyesinde kaldı. Grok, yüzde 43,8 ile bu kategoride liderliği sürdürürken, Claude yalnızca yüzde 26,6 doğruluk oranına ulaşabildi.

DeepSeek’in biyoloji ve kimya gibi alanlardaki başarısı oldukça düşük kaldı. Bu alanlarda model yalnızca yüzde 10,6’lık bir doğruluk oranı elde edebildi. Finans ve ekonomi alanlarında ise Grok ve Gemini, yüzde 76,7 ile en yüksek doğruluk oranlarına sahip oldular.

‘Çapraz Kontrol Şart’

Araştırmanın yazarlarından Dawid Siuda, yapay zeka modellerinin doğruluğunun hala sınırlı olduğunu vurgulayarak, “Eğer görev kritikse, hesap makineleri veya başka bir yapay zeka modeliyle çapraz kontrol yapılmalı” uyarısında bulundu.

Araştırma, yapay zekaların yaptığı hataları dört başlık altında topladı: “özensiz matematik” (%68), “hatalı mantık” (%26), “talimatı yanlış anlama” (%5) ve “vazgeçme”. Doğru formül kullanılsa bile, hesaplama esnasında yapılan basit hatalar en yaygın hata türü olarak belirlendi. Özellikle çok adımlı işlemlerde yapılan yuvarlama hatalarının sonuçları ciddi şekilde etkilediği ortaya kondu.

Tüm bu veriler, yapay zekaların günlük hesaplamalarda yaygın olarak kullanılmasına rağmen, sonuçların kontrol edilmesi gerektiğini gösteriyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir