OpenAI GPT-4 Mart 2023 ortasında geliyor

Microsoft Almanya CTO'su, Andreas Braun, GPT-4'ün 9 Mart 2023 tarihinden bir hafta içinde geleceğini ve çoklu modlu olacağını doğruladı. Çoklu modlu yapay zeka, video, resimler ve ses gibi çeşitli türdeki girişlerle çalışabilme yeteneğine sahip olacak.

Güncellendi: GPT-4, 14 Mart 2023'te Yayınlandı

OpenAI, 14 Mart 2023'te GPT-4'ü yayınladı. Bu, görüntü ve metin girişlerini kabul eden bir çoklu modeldir.

Modal, makine öğrenmesinde metin gibi ancak ses, görsel, koku vb. gibi duyular gibi giriş formlarını belirtmek için kullanılan bir terimdir.

OpenAI'nin duyurusu, GPT-4'ün ilerlemelerinin ölçeğini açıkladı:

“...gerçek dünya senaryolarında insanlardan daha az yetenekli olsa da, çeşitli profesyonel ve akademik ölçütlerde insan seviyesinde performans sergiler.

Örneğin, uygulamalı bir bar sınavını, test yapanların en iyi %10'u civarında bir puanla geçer; buna karşılık, GPT-3.5'ın puanı en alt %10 civarındaydı.

GPT-4'ü adversaryal test programımızdan ve ChatGPT'den aldığımız derslerle 6 ay boyunca tekrar tekrar hizalamamız sonucunda, gerçeklik, yönlendirilebilirlik ve sınırların dışına çıkmamada şimdiye kadarki en iyi sonuçlarımıza (ancak mükemmel olmaktan uzak) sahip olduk.”

Çoklu Modal Büyük Dil Modelleri

Anonsta en önemli nokta, duyurudan çıkan şudur ki GPT-4 multimodaldir (SEJ, Ocak 2023'te GPT-4'ün multimodal olduğunu tahmin etti).

Modalite, (bu durumda) büyük bir dil modelinin işlem yaptığı giriş türüne bir atıftır.

Çoklu moda, metin, konuşma, görüntü ve videoyu kapsayabilir.

GPT-3 ve GPT-3.5 sadece metin modunda çalışır.

Alman haber raporuna göre, GPT-4 en az dört modalitede çalışabiliyor olabilir, görüntü, ses (işitsel), metin ve video.

Dr. Andreas Braun, CTO Microsoft Almanya'da şöyle aktarıldı:

“Gelecek hafta GPT-4'ü tanıtacağız, orada tamamen farklı olanaklar sunacak multimodal modellere sahip olacağız - örneğin video...”

Raporlama, GPT-4 için detaylar eksik olduğu için, multimodaliteyle ilgili paylaşılanların GPT-4'e özgü olup olmadığı veya genel bir ifade mi olduğu belirsizdir.

Microsoft Yönetici İş Stratejisi Holger Kenn, multimodaliteleri açıkladı, ancak raporlama, GPT-4 multimodalitesine mi yoksa genel multimodaliteye mi atıfta bulunduğunu belirsiz kıldı.

Ben, GPT-4'e yapılan multimodaliteye atıflarının spesifik olduğuna inanıyorum.

Haber raporu paylaşıldı:

“Kenn, multimodal yapay zeka hakkında neler olduğunu açıkladı; metni sadece görsellere değil, aynı zamanda müzik ve videoya da çevirebiliyor.”

Bir başka ilginç gerçek ise Microsoft'un AI'yi daha güvenilir hale getirmek için "güven metrikleri" üzerinde çalıştığıdır.

Microsoft Kosmos-1

ABD'de görünüşe göre yeterince bildirilmeyen bir şey, Microsoft'un 2023 Mart'ın başında Kosmos-1 adında çoklu modaliteli bir dil modeli yayınladığıdır.

Alman haber sitesi Heise.de'nin bildirdiğine göre:

“...ekip, ön-eğitimli modeli çeşitli testlere tabi tuttu ve görüntülerin sınıflandırılmasında, görüntü içeriğiyle ilgili soruların cevaplandırılmasında, görüntülerin otomatik etiketlenmesinde, optik metin tanıma ve konuşma üretimi görevlerinde iyi sonuçlar elde etti.

...Görsel akıl yürütme, yani dil kullanmadan görüntüler hakkında sonuç çıkarmak burada önemli görünüyor...

Kosmos-1, metin ve görüntülerin modalitelerini birleştiren çoklu modaliteye sahip bir modaldır.

GPT-4, Kosmos-1'den daha ileri gider çünkü bir üçüncü modalite olan videoyu ekler ve ayrıca ses modalitesini de içermesi görünmektedir.

Çoklu Dillerde Çalışır

GPT-4 tüm dillerde çalışabiliyor gibi görünüyor. Almanca bir soruyu alıp İtalyanca olarak cevaplayabildiği belirtiliyor.

Bu oldukça garip bir örnek çünkü kim Almanca bir soru sorar ve İtalyanca bir cevap almak ister?

Bu onaylanan şeydir:

"...teknoloji o kadar ilerledi ki temel olarak "tüm dillerde çalışıyor": Almanca bir soru sorabilir ve İtalyanca bir cevap alabilirsiniz.

Çoklu modalite ile Microsoft (OpenAI), 'modelleri kapsamlı hale getirecek'."

Ben, bu ilerlemenin önemli noktasının, modelin farklı diller arasında bilgi çekebilme yeteneğiyle dilin ötesine geçmesi olduğunu düşünüyorum. Yani, cevap İtalyanca ise, bunu bilecek ve sorunun sorulduğu dilde cevap verebilecektir.

Bu, Google'ın MUM adlı çoklu modal yapay zekasının hedefine benzer hale getirecektir. MUM, Japonca gibi başka bir dildeki veriler için sadece İngilizce cevaplar sağlayabilme yeteneğine sahip olduğu söyleniyor.

GPT-4 Uygulamaları

Şu anda GPT-4'ün nerede gösterileceğiyle ilgili herhangi bir duyuru yok. Ancak Azure-OpenAI özellikle belirtildi.

Google, Microsoft'a yetişmek için kendi arama motoruna rakip bir teknoloji entegre etmeye çalışıyor. Bu gelişme, Google'ın geri kaldığı ve tüketici odaklı yapay zekada liderlik eksikliği olduğu algısını daha da kötüleştiriyor.

Google, halihazırda Google Lens, Google Maps ve diğer tüketicilerin Google ile etkileşimde bulunduğu alanlarda AI'ı birden fazla ürüne entegre ediyor. Bu yaklaşım, AI'ı insanları küçük görevlerde yardımcı teknoloji olarak kullanmaktır.

Microsoft'un uygulamadaki şekli daha görünür ve sonuç olarak tüm dikkati çekiyor ve Google'ı geride kalan ve yetişmeye çalışan bir şekilde gösteriyor.

Resmi OpenAI GPT-4 yayın duyurusunu buradan okuyun.

Almanca raporun orijinalini buradan okuyun:

GPT-4 gelecek hafta geliyor - ve Microsoft Almanya'ya göre çoklu modlu olacak