SosyalKafa

1930’ların Zihniyetine Hapsolmuş Bir Yapay Zekâ: Talkie Bize Ne Söylüyor?

Son günlerde yapay zekâ ekosisteminde fütüristik gelişmelerden ziyade geçmişe yönelik oldukça radikal bir proje dikkat çekiyor. Araştırmacılar Alec Radford, Nick Levine ve David Duvenaud tarafından geliştirilen Talkie adlı bu model, 13 milyar parametreli bir büyük dil modeli (LLM). Ancak onu özel kılan muazzam işlem gücü değil, sınırları: Talkie, yalnızca 31 Aralık 1930 tarihinden önce yayımlanmış İngilizce metinlerle eğitilmiş bir zaman kapsülü niteliğinde.

İnterneti, İkinci Dünya Savaşı’nı, akıllı telefonları ya da dijital manipülasyonu hiç duymamış bir algoritmik yapı hayal edin. Boing Boing’deki habere göre, modele modern dünyadan bir şeyler sorduğunuzda tamamen 1930’ların görgü kuralları ve edebi üslubu üzerinden rafine cevaplar veriyor. Hatta Reddit’teki geliştirici topluluklarında kullanıcıların yaptığı testlere göre, model 1930’ların siyasi önyargılarını ve dönemin sosyolojik kısıtlamalarını filtresiz bir şekilde yansıtıyor. Peki ama modern teknoloji neden bu kadar geçmişe dönük bir model inşa etme ihtiyacı duydu?

Telif Hakları, “İnternet Çamuru” ve Temiz Veri Arayışı

Bu proje sadece nostaljik bir dijital antropoloji deneyi değil. Geliştiricilerin 1930 yılını sınır olarak seçmesinin çok rasyonel bir yasal sebebi var: ABD telif yasalarına göre bu tarihten önceki eserlerin yasal koruma süresi dolmuş ve tamamen “kamu malı” (public domain) statüsüne geçmiş durumda. MarkTechPost’ta yayımlanan analizin de altını çizdiği gibi, günümüz LLM projelerinin en büyük yasal risklerinden biri olan teknolojik mülkiyet davaları, Talkie’de tamamen aşılmış durumda. 260 milyar token’lık bu devasa eğitim verisi tamamen yasal kitaplar, gazeteler, bilimsel dergiler ve hukuki metinlerden oluşuyor.

Egemen Yapay Zekâ (Sovereign AI) tartışmalarında ve ulusal algoritmik gelecek stratejilerinde sıkça karşımıza çıkan “otonom veri setleri” kurma çabası için de bu harika bir vaka çalışması. Küresel şirketler kendi kapalı, telif sorunu olmayan veri ekosistemlerini yaratmaya çalışırken, Talkie ekibi çözümü geçmişte, izole edilmiş bir zaman diliminde bulmuş. Yapay zekâ okuryazarlığı ve modern internetin sentetik verilerinden (AI sludge) arındırılmış bir modelin nasıl davranacağını görmek, araştırmacılar için bulunmaz bir laboratuvar.

Zaman Sızıntısı (Temporal Leakage) ve Altyapısal Zafiyetler

Bununla birlikte, modelin tamamen steril bir geçmiş simülasyonu yaratabildiğini söylemek zor. SesameDisk’in teknik değerlendirmesinde açıklandığı gibi, araştırmacılar modelin bazen 1933-1936 arasına ait Roosevelt döneminin New Deal yasalarından bahsettiğini fark etmişler. Makine öğrenimi literatüründe bu donanımsal kazalara zaman sızıntısı (temporal leakage) adı veriliyor.

Bu durum, tarihi metinlerin dijitalleştirilmesi sırasında kullanılan optik karakter tanıma (OCR) hatalarından veya eski kitapların yeni baskılarına eklenen modern önsözlerin sisteme “yeni veri sızdırmasından” kaynaklanıyor. Kapalı bir ekosistem kurmaya çalışırken bile, dijitalleşme süreçlerindeki bu tür altyapısal zafiyetlerin (infrastructural capture) sistemin çıktısını nasıl anakronik bir hale getirebileceğini görmek oldukça çarpıcı.

Bilgisayarları Bilmeden Python Kodu Yazmak

Meselenin en büyüleyici boyutu ise modelin soyutlama kapasitesiyle ilgili. Gizmodo’nun haberinde ve Talkie’nin GitHub deposundaki notlarda paylaşıldığı üzere; hayatında “bilgisayar”, “internet” veya “yazılım” gibi kavramları hiç görmemiş bu modele standart Python kodlama testleri (HumanEval) uygulanmış. Bağlam içi öğrenme (in-context learning) yöntemiyle kendisine sadece birkaç basit kod dizilimi gösterildiğinde, Talkie şifreleme mantığını, döngüleri ve değişkenleri başarıyla algılayarak kod üretebilmiş.

1930’ların şiirleri, ansiklopedileri ve nezaket kuralları ile beslenen sentetik bir ağın, 21. yüzyıl programlama dillerindeki mantıksal mimariyi çözebilmesi, dil modellerinin sadece veriyi ezberlemediğinin en büyük kanıtı. Talkie örneği; algoritmik bir sistemin sadece kelimeleri değil, kelimelerin arkasındaki evrensel mantıksal örüntüleri kavrama konusunda geldiği aşamayı hepimize net bir şekilde gösteriyor.

Erkan Saka

Academic; Blogger; Metalhead; BJK Fan; @SosyalKafa Coordinator