Google, yapay zekanın “halüsinasyon görme” sorununu SAFE ile çözecek

ABONE OL

News

2 Nisan 2024 11:45

BEĞENDİM

ABONE OL

News

Yapay zeka dayanaklı sohbet robotlarının en çok eleştirilen davranışlarından biri, bir soruyu ikna edici bir biçimde yanıtlarken size gerçekte yanlış bilgiler vermesi. Bu duruma halüsinasyon deniliyor.

Yani yapay zeka halüsinasyon görüyor lakin bu sanrısını karşısındaki beşere da çok gerçekçi halde anlatıp ikna ediyor. Basitçe söylemek gerekirse, yapay zeka kullanıcısını tatmin etmek için gerçekle teması olmayan bir şeyler uyduruyor.

Resim yahut görüntü oluşturmak için üretken yapay zeka kullanan araçlarda bu türlü bir sorun kelam konusu değil, en nihayetinde bunlar sanatsal sonuçlar ortaya koyuyorlar. Lakin sohbet robotları için bu çok büyük bir sorun ve hatta OpenAI’den kısa bir mühlet evvel ayrılan ünlü uzman Andrej Karpathy, halüsinasyon yeteneğinin, üretken yapay zekanın temel teknolojisi olan büyük lisan modellerinin (LLM’ler) en büyük özelliği olduğunu da itiraf etti. Yani yapay zeka bu işi talih yapıtı yapmıyor. Taammüden, sonuç üretmek için yapıyor. Doğruluğu da denetim etmiyor. Korkutucu olansa birden fazla kullanıcının bu halüsinasyonları fark etmesinin imkansız olması.

Yapay zekanın halüsinasyon görmesini engellemek teknolojik bir zorluk ve bu sorunu çözmek hiç de kolay değil. Lakin Google DeepMind ve Standford Üniversitesi bir cins süreksiz tahlil bulmuş üzere görünüyor. Araştırmacılar, yapay zeka sohbet robotları tarafından üretilen uzun formlu cevapları esasen denetim eden LLM tabanlı bir sistem – Search-Augmented Factuality Evaluator yahut SAFE – geliştirdiler.

SAFE nasıl işliyor?

Sistem karşılıkları dört adımda tahlil ediyor, işliyor ve kıymetlendirerek doğruluğunu teyit ediyor. Birinci olarak, SAFE yanıtı tek tek gerçeklere ayırıyor, bunları gözden geçiriyor ve Google Arama’dan gelen sonuçlarla karşılaştırıyor. Sistem ayrıyeten tek tek gerçeklerin yepyeni soruyla ilgisini de denetim ediyor.

SAFE’nin performansını pahalandırmak için araştırmacılar yaklaşık 16.000 bilgiden oluşan bir bilgi kümesi olan LongFact’i oluşturdular. Akabinde sistemi dört farklı aileden (Claude, Gemini, GPT, PaLM-2) 13 LLM üzerinde test ettiler.

Vakaların %72’sinde SAFE, insan notlandırıcılarla birebir sonuçları verdi. Uyuşmazlık durumlarında ise SAFE %76 oranında yanlışsız sonuç verdi. Bunun da ötesinde, araştırmacılar SAFE kullanımının insan kontrolcülerden 20 kat daha ucuz olduğunu ve böylelikle, yapay zekanın her an ürettiği milyarlarca yanıtı denetim etmenin mümkün olacağını vurguluyor.

Tabi SAFE’in, yapay zeka algoritmalarıyla entegre olabilmesi için, şirketlerin Google ile mutabakatlar yapması da gerekecek ve muhtemelen geliri paylaşmak zorunda olacaklar. Ya da kendi güvenlik sistemlerini geliştirmeye çalışacaklar. Fakat artık kimse yapay zekanın halüsinasyon görmediğine emin olmadan, aldığı karşılıklara inanmak istemiyor. Bakalım bu sorun efektif olarak ne vakit çözülecek?