Bu yeni ölçümler, AI modellerinin güvenilirliğini derecelendirmeye yardımcı olur

Ben Dickson

thenextweb.com

İster hastaları teşhis ediyor olsun ister araba kullanıyor olsun, bir kişiye hassas bir görev atamadan önce ona güvenip güvenemeyeceğimizi bilmek istiyoruz. İnsan dünyasında, güvenilirliği kurmak ve ölçmek için farklı yollarımız var. Yapay zekada güven kurmak hala gelişiyor.

Geçmiş yıllarda, derin öğrenmenin; bilgisayarla görme, doğal dil işleme ve daha önce bilgisayarlar için yasak olan diğer alanlarda zor görevlerde dikkate değer ölçüde iyi olduğu kanıtlanmıştır. Ancak yapay zekâ algoritmalarına körü körüne güvenmenin bir felaket reçetesi olduğuna dair bol miktarda kanıtımız da var: şerit ayırıcıları kaçıran kendi kendini süren arabalar, kötü huylu cilt desenleri yerine cetvel işaretleri arayan melanom dedektörleri ve kadınlara karşı ayrımcılık yapan işe alma algoritmaları sadece geçmiş yıllarda bildirilen birçok olaydan birkaçı.

Toronto merkezli bir AI şirketi olan Waterloo Üniversitesi ve Darwin AI’daki bilim adamları tarafından yapılan son çalışmalar, derin öğrenme sistemlerinin güvenilirliğini sezgisel ve yorumlanabilir bir şekilde ölçmek için yeni ölçütler sağlıyor. Güven genellikle öznel bir konudur, ancak iki makalede sunulan araştırmaları, yapay zekâ modellerine güvenilebilecek ve güvenilemeyecek durumların kapsamını değerlendirirken nelere bakılması gerektiğine dair net yönergeler sağlar.

[Read: How to build a search engine for criminal data]

Makine öğrenimine ne kadar güveniyorsunuz?

Makine öğrenimi araştırmacıları yıllarca modellerinin güvenilirliğini doğruluk, hassasiyet ve F1 puanı gibi ölçümlerle ölçtüler. Bu ölçümler, bir makine öğrenimi modeli tarafından çeşitli şekillerde yapılan doğru ve yanlış tahminlerin sayısını karşılaştırır. Bir modelin rastgele tahminler yapıp yapmadığı veya gerçekten bir şey öğrenip öğrenmediği gibi önemli soruları cevaplayabilirler. Ancak doğru tahminlerin sayısını saymak, size bir makine öğrenimi modelinin işini doğru bir şekilde yapıp yapmadığını söylemek zorunda değildir.

Karışıklık matrisleri, makine öğrenimi modelleri tarafından yapılan doğru ve yanlış tahminlerin oranını sunar.

Daha yakın zamanlarda bu alan, derin sinir ağları tarafından alınan kararları yorumlamaya çalışan bir dizi teknik olan açıklanabilirliğe artan bir ilgi gösterdi. Bazı teknikler, derin öğrenme modelinin çıktısına katkıda bulunan pikselleri vurgular. Örneğin, evrişimli sinir ağınız bir görüntüyü “koyun” olarak sınıflandırdıysa, açıklanabilirlik teknikleri, sinir ağının koyunları tespit etmeyi mi öğrendiğini yoksa çim alanlarını koyun olarak mı sınıflandırdığını anlamanıza yardımcı olabilir.

Açıklanabilirlik teknikleri, bir derin öğrenme modelinin nasıl çalıştığını anlamanıza yardımcı olabilir, ancak ne zaman ve nerede güvenilip güvenilemeyeceğini anlamaz.

RISE tarafından üretilen, belirginlik haritalarına örnekler;

“Size Gerçekten Ne Kadar Güvenebiliriz?” Başlıklı ilk makalelerinde. Darwin AI ve Waterloo Üniversitesi’ndeki yapay zeka araştırmacıları, “Derin Sinir Ağları için Basit, Yorumlanabilir Güven Ölçme Ölçütlerine Doğru”, “bir dizi soruyu yanıtlarken davranışlarına göre derin sinir ağlarının genel güvenilirliğini değerlendirmek” için dört yeni ölçüm sunuyor.

Güveni ölçmeye yönelik başka makaleler ve araştırma çalışmaları varken, bu dört ölçüm günlük kullanım için pratik olacak şekilde tasarlanmıştır. Bir yandan, yapay zeka sistemlerinin geliştiricileri ve kullanıcıları, derin öğrenme modellerine güvenilemeyen alanları sürekli izlemek için bu ölçümleri sürekli olarak hesaplayabilmeli ve kullanabilmelidir. Öte yandan, ölçütler basit ve yorumlanabilir olmalıdır.

“Güven Nerede Yıkılır?” Başlıklı ikinci makalede. Güven Matrisi ve Koşullu Güven Yoğunlukları aracılığıyla Derin Sinir Ağlarının Niceliksel Güven Analizi ”, araştırmacılar, farklı görevler arasında güven ölçümlerinin görsel bir temsili olan“ güven matrisi ”ni tanıtıyor.

Aşırı temkinli olacağına aşırı güveniyor musun?

Biri yanlış kararlarına fazlasıyla güvenen, diğeri doğru karar konusunda çok tereddütlü iki tür insanı ele alalım. Her ikisi de güvenilmez ortaklar olacaktır. Hepimiz dengeli davranışları olan insanlarla çalışmayı severiz: Doğru cevapları konusunda kendilerinden emin olmalılar ve ayrıca bir görevin yeteneklerinin ötesinde olduğunu bilmeliler.

Bu bakımdan makine öğrenimi sistemleri insanlardan çok da farklı değildir. Bir sinir ağı, bir dur işaretini yüzde 99 güven puanına sahip bir hız sınırı işareti olarak sınıflandırırsa, muhtemelen kendi kendine giden arabanıza takmamalısınız. Benzer şekilde, başka bir sinir ağı bir yolda durduğundan yalnızca yüzde 30 eminse, o zaman arabanızı sürmenize pek yardımcı olmaz.

Araştırmacılar tarafından tanıtılan ilk metrik olan “soru-cevap güveni”, bir AI modelinin doğru ve yanlış cevabına olan güvenini ölçer. Klasik ölçümler gibi, bir makine öğrenimi modelinin yaptığı doğru ve yanlış tahminlerin sayısını hesaba katar, ancak aynı zamanda aşırı güveni ve aşırı tedbirliliği cezalandırmak için güven puanlarını da hesaba katar.

Makine öğrenimi modelinizin dokuz fotoğrafı sınıflandırması ve hangilerinin kedi içerdiğini belirlemesi gerektiğini varsayalım. Soru-yanıt güven ölçüsü, her doğru sınıflandırmayı güven puanı faktörüne göre ödüllendirecektir. Açıkçası, daha yüksek güven puanları daha yüksek bir ödül alacak. Ancak metrik, yanlış yanıtları da güven puanının tersine göre ödüllendirecektir (yani,% 100 – güven puanı). Dolayısıyla, yanlış bir sınıflandırmada düşük bir güven puanı, doğru sınıflandırmada yüksek güven kadar ödül kazandırabilir.

Daha az ödül alan iki davranış, yanlış tahminlere yüksek güven ve doğru tahminlere düşük güven.

Bu metrikle ilgili ilginç olan şey, kesinlik ve doğruluk puanlarının aksine, makine öğrenimi modelinizin kaç tane doğru tahmin yaptığı ile ilgili olmamasıdır – sonuçta hiç kimse mükemmel değildir. Daha çok modelin tahminlerinin ne kadar güvenilir olduğu ile ilgilidir.

Güven puanı hiyerarşisi oluşturma

Soru-cevap güveni, derin öğrenme modellerimiz tarafından yapılan tek çıktıların güven düzeyini ölçmemizi sağlar. Araştırmacılar, makalelerinde bu fikri genişletir ve bir makine öğrenimi modelinin genel güven düzeyini değerlendirmemizi sağlayan üç ölçüm daha sağlar.

Birincisi, “güven yoğunluğu”, belirli bir çıktı sınıfında bir modelin güven düzeyini ölçer. 20 farklı resim türünü algılayacak şekilde eğitilmiş bir sinir ağınız olduğunu, ancak “kedi” sınıfındaki genel güven düzeyini ölçmek istediğinizi varsayalım. Güven yoğunluğu, birden fazla örnekte “kedi” için makine öğrenimi modelinin dağıtım soru-cevap güvenini görselleştirir. Güçlü bir model sağa doğru daha yüksek yoğunluk (soru-cevap güveni = 1.0) ve sola doğru daha düşük yoğunluk (soru-cevap güveni = 0.0) göstermelidir.

Güven yoğunluğu

İkinci metrik olan “güven spektrumu”, sonlu bir girdi kümesi üzerinde test edildiğinde modelin farklı sınıflarda güvenilirliğini daha da uzaklaştırır ve ölçer. Güven spektrumu görselleştirildiğinde, bir makine öğrenimi modeline nerede güvenebileceğiniz ve güvenemeyeceğinize dair güzel bir genel bakış sağlar. Örneğin, aşağıdaki güven spektrumu, sinir ağımızın, bu durumda ResNet-50’nin çaydanlıkları ve okul otobüslerini tespit etmede güvenilir olduğunu, ancak ekranlarda ve monitörlerde güvenilemediğini göstermektedir.

Güven spektrumu

Son olarak, “NetTrustScore” güven spektrumunun bilgilerini tek bir metrikte özetler. Araştırmacılar, “Yorumlama perspektifinden bakıldığında, önerilen NetTrustScore temelde derin sinir ağının güveninin ortaya çıkabilecek tüm olası yanıt senaryoları altında ne kadar iyi yerleştirilmiş olmasının beklendiğini gösteren nicel bir puandır,” diye yazıyor.

Makine öğrenimi güven matrisi

Yapay zeka araştırmacıları, tamamlayıcı makalelerinde, bir makine öğrenimi modelinin genel güven düzeyine hızlı bir bakış sağlayan görsel bir yardım olan güven matrisini tanıttı. Temel olarak, güven matrisi, bir makine öğrenimi modelinin çıktılarını gerçek değerlerine ve güven düzeyine eşleyen bir ızgaradır. Dikey eksen, makine öğrenimi modeline sağlanan girdilerin bilinen değerleri olan “oracle” ı temsil eder. Yatay eksen, model tarafından yapılan tahmindir. Kareler, X ekseni modelin çıktısını ve Y ekseninin de gerçek değerini temsil ettiği bir testi temsil eder. Her karenin rengi güven seviyesini gösterir, parlak renkler düşük güveni temsil eder.

Mükemmel bir model, diyagonal boyunca, tahminlerin ve yer gerçeğinin yollarının kesiştiği sol üstten sağ alta giden parlak renkli karelere sahip olmalıdır. Güvenilir bir modelde köşegen dışında kareler olabilir, ancak bu kareler de parlak bir şekilde renklendirilmelidir. Kötü bir model, koyu renkli karelerle hızla kendini gösterecektir.

Örneğin, kırmızı daire, düşük bir güven puanına sahip makine öğrenimi modeli tarafından bir “sokak tabelası” olarak tahmin edilen bir “anahtarı” temsil eder. Bu, modelin gerçekte bir anahtara bakarken bir sokak tabelası gördüğünden çok emin olduğu anlamına geliyordu. Öte yandan pembe daire, “dizüstü bilgisayar” olarak sınıflandırılan bir “su şişesi” için yüksek bir güven düzeyini temsil ediyor. Bu, makine öğrenimi modelinin düşük bir güven puanı sağladığı ve kendi sınıflandırması konusunda şüpheli olduğuna işaret ettiği anlamına geliyor.

Kullanılacak güven ölçütlerini koymak

Makalelerde önerilen güven ölçütlerinin hiyerarşik yapısı onları çok faydalı kılmaktadır. Örneğin, bir görev için bir makine öğrenimi modeli seçerken, adaylarınızı NetTrustScores ve güven matrislerini inceleyerek kısa listeye alabilirsiniz. Birden fazla sınıfta güven spektrumlarını karşılaştırarak adayları daha fazla araştırabilir ve güven yoğunluğu puanında tek sınıflardaki performanslarını daha da karşılaştırabilirsiniz.

Farklı makine öğrenimi modellerini karşılaştırmak için güven ölçümlerini kullanma

Güven ölçümleri, göreviniz için en iyi modeli hızlı bir şekilde bulmanıza veya modelinizde iyileştirmeler yapabileceğiniz önemli alanları bulmanıza yardımcı olacaktır.

Makine öğreniminin birçok alanı gibi, bu da devam eden bir çalışmadır. Mevcut haliyle, makine öğrenimi güven ölçümleri yalnızca sınırlı sayıda denetlenen öğrenme problemi, yani sınıflandırma görevleri için geçerlidir. Gelecekte, araştırmacılar, nesne algılama, konuşma tanıma ve zaman serileri gibi diğer türden görevler için ölçütler oluşturma çalışmalarını genişletecekler. Ayrıca denetimsiz makine öğrenimi algoritmalarına olan güveni de keşfedecekler.

“Önerilen ölçümler hiçbir şekilde mükemmel değildir, ancak umut, uygulayıcılara ve düzenleyicilere, olabilecek derin öğrenme çözümlerini üretme, uygulama ve sertifikalandırma konusunda yol göstermeye yardımcı olmak için derin sinir ağlarının genel güvenilirliğini değerlendirmek için daha iyi nicel ölçütlere doğru sohbeti ilerletmektir. Araştırmacılar, gerçek dünyada, görev açısından kritik senaryolarda çalışacağına inanılıyor” diye yazıyor.

Bu makale ilk olarak Ben Dickson tarafından, teknolojideki eğilimleri, yaşama ve iş yapma şeklimizi nasıl etkilediklerini ve çözdükleri sorunları inceleyen bir yayın olan TechTalks’ta yayınlandı. Ama aynı zamanda teknolojinin kötü yanını, yeni teknolojinin daha karanlık etkilerini ve nelere dikkat etmemiz gerektiğini tartışıyoruz.