OpenAI'nin devasa GPT-3'ü, yapay zeka için dil modellerinin sınırlarını ima ediyor

Bir yılın üzerinde bir süre önce, San Francisco'da merkezi bulunan yapay zeka şirketi OpenAI, bilgisayarların doğal dil cümleleri oluşturma gücünde ve hatta soruları çözme gücünde dramatik bir sıçrama göstererek dünyayı şaşırtmıştı. Bu, bir cümleyi tamamlama ve oldukça insana benzer metinler oluşturma gibi yeteneklere sahip olduğunu göstermişti.

That team's latest work reveals how OpenAI's thinking has evolved in certain aspects. GPT-3, the newest creation, emerged last week with more advanced features, developed by some of the same authors as the previous version, including Alec Radford and Ilya Sutskever, along with several additional collaborators, including scientists from Johns Hopkins University.

Şimdi gerçekten canavar bir dil modelidir, adıyla birlikte önceki kadar metni yutabilmektedir.

Ancak bu daha büyük-iyidir numarasının içinde, OpenAI ekibi, Dr. David Bowman'ın 2001 filminin sonunda bilinenin sınırlarına nasıl yaklaştığı gibi daha derin gerçeklere yaklaşıyor gibi görünüyor.

ArXiv ön yayın sunucusunda geçen hafta yayınlanan 72 sayfalık makalenin son bölümünde oldukça dikkat çekici bir tespit bulunuyor. Makalenin başlığı, "Dil Modelleri Az Çekim Öğrenicilerdir".

"Bu makalede anlatılan genel yaklaşımın daha temel bir kısıtı - önceden eğitimli herhangi bir LM benzeri modeli, otoregresif veya çift yönlü olsa da - nihayetinde önceden eğitimli hedefin sınırlarına (belki de zaten sınırlara) ulaşabileceği" yazarlar.

Yazarların söylediği şey, herhangi bir cümle veya ifadedeki bir sonraki kelimenin olasılıklarını tahmin eden bir sinir ağı oluşturmanın sınırlarının olabileceğidir. Sadece daha güçlü hale getirerek ve her geçen gün daha fazla metin ekleyerek daha iyi sonuçlar elde etmek mümkün olmayabilir. Bu, bir soruna daha fazla hesaplama gücü katarak elde edilen bir makalenin içerisinde önemli bir kabuldir.

Yazarların sonucunun neden bu kadar önemli olduğunu anlamak için, nasıl buraya geldiğimizi düşünün. OpenAI'nin dil üzerindeki çalışmalarının tarihi, teknoloji gittikçe daha büyük hale getirildikçe, giderek artan bir başarıyla bir tür yaklaşımın sürekli ilerlemesinin bir parçası olmuştur.

Orijinal GPT ve GPT-2, her ikisi de 2017'de Google'da başlatılan bir icat olan Transformer'ın uyarlamalarıdır. Transformer, dikkat adında bir işlev kullanarak bir kelimenin çevresindeki kelimelerin verildiğinde görünme olasılığını hesaplar. OpenAI, GPT-2'nin en büyük versiyonunun kaynak kodunu yayınlamayacağını söylediğinde bir yıl önce tartışma yaratmıştır. Çünkü, bu kodun yanlış ellere geçebileceğini ve sahte haber gibi şeylerle insanları yanıltmada istismar edilebileceğini söyledi.

Yeni makale, GPT'yi daha da büyüterek bir sonraki seviyeye taşıyor. GPT-2'nin en büyük versiyonu, kaynak kodu olarak yayınlanmayan versiyonu, 1.5 milyar parametreye sahipti. GPT-3 ise 175 milyar parametreye sahip. Bir parametre, verinin belirli bir yönüne daha fazla veya daha az ağırlık veren bir sinir ağı hesaplamasıdır, verinin genel hesaplamasında bu yönün daha fazla veya daha az öne çıkmasını sağlar. Bu ağırlıklar, veriye şekil verir ve sinir ağına öğrenilmiş bir perspektif sağlar.

Zamanla ağırlıkların artması, GPT program ailesi ve Google'ın BERT gibi diğer büyük Transformer türetilerinin etkileyici referans test sonuçlarına ulaşmasına yol açmıştır, sonuçlar sürekli olarak oldukça etkileyici olmuştur.

Çok fazla insanın bu dil modellerinin gerçekten anlamlı bir şekilde dil anlamadığını belirtmesi hiç önemli değil. Onlar testlerde başarılı oluyorlar ve bu bir şey ifade ediyor.

En son sürüm yine nicel ilerlemeler gösteriyor. GPT-2 ve diğer Transformer-tabanlı programlar gibi, GPT-3 de Web'den alınan yaklaşık bir trilyon kelime metinden oluşan Common Crawl veri seti üzerinde eğitilmiştir. "Veri seti ve model boyutu, GPT-2 için kullanılanlardan yaklaşık iki mertebe daha büyüktür," yazarlar yazıyor.

GPT-3, 175 milyar parametre ile, yazarların "meta-öğrenme" olarak tanımladığı şeyi gerçekleştirmektedir. Meta-öğrenme, GPT sinir ağının cümle tamamlama gibi bir görevi gerçeklemek için yeniden eğitilmediği anlamına gelir. Bir örnek olarak, yarım kalmış bir cümle veya tamamlanmış bir cümle verildiğinde, GPT-3 herhangi bir yarım kalan cümleyi tamamlayacak şekilde devam edecektir.

GPT-3, bir görevi tek bir ipucuyla öğrenme yeteneğine sahiptir ve bazı durumlarda, sadece o görevi gerçekleştirmek için özel olarak ayarlanmış Transformer sürümlerinden daha iyi performans gösterir. Bu nedenle, GPT-3 kapsayıcı bir genellik zaferidir. Ağırlıkları ideal olana kadar ona büyük miktarda metin besleyin ve başka bir geliştirme olmadan birçok belirli görevde oldukça iyi performans sergileyebilir.

Bu noktada hikaye yeni bir makalede çarpıcı bir gelişmeyle sona eriyor. Yazarlar, GPT-3'ün cümleleri tamamlama, ifadelerin mantıksal yapıları arasındaki sonuçları çıkarma, diller arasında çeviri yapma gibi dil görevlerindeki etkileyici sonuçlarından bahsettikten sonra kusurları belirtiyorlar.

"GPT-3'ün güçlü nicel ve nitel gelişmelere rağmen, özellikle doğrudan öncüsü GPT-2 ile karşılaştırıldığında hala önemli zayıflıkları bulunuyor."

Bu zayıflıklar, Adversaryal NLI olarak adlandırılan şeyde önemli ölçüde doğruluk elde edememe yeteneğini içerir. NLI veya doğal dil çıkarımı, programın iki cümle arasındaki ilişkiyi belirlemesi gereken bir testtir. Facebook ve Kuzey Carolina Üniversitesi'nden araştırmacılar, insanların bilgisayarın çözmesi zor olan cümle çiftleri oluşturduğu bir karşıt versiyonu tanıttılar.

GPT-3, yazarlar tarafından belirtilene göre, Adversarial NLI gibi konularda "şansın üzerinde bir fark" yapar. Daha da kötüsü, sistemlerinin işlem gücünü 175 milyar ağırlığa yükseltmelerine rağmen, yazarlar bazı görevlerde neden kısa kaldıklarından tam olarak emin değiller.

O zaman yukarıda alıntılanan sonuca varıyorlar ki, belki de devasa bir makineye büyük bir metin kümesi beslemek sadece en iyi cevap değildir.

Dahası, daha da şaşırtıcı olan şudur ki: Dilin ne olacağını tahmin etmeye çalışma pratiği yanlış bir yaklaşım olabilir, yazarlar yazmaktadır. Belki de yanlış bir yere odaklanmış olabilirler.

"Kendi kendine eğitim hedefleri ile, görev spesifikasyonu istenilen görevi bir tahmin sorunu haline getirmeye dayanır," diye yazmaktadırlar, "sonuç olarak, yararlı dil sistemleri (örneğin sanal asistanlar) sadece tahmin yapmak yerine hedefe yönelik eylemler yapmayı daha iyi bir şekilde düşünülmelidir."

Yazarlar, bu oldukça ilginç potansiyel yeni yöne nasıl gireceklerini başka bir zaman için bırakıyorlar.

Büyüğün sonuçta her zaman en iyi olmayabileceği gerçeğine rağmen, GPT-3'ün birçok görevde elde ettiği iyileşmiş sonuçlar, daha da büyük ve büyük sinir ağlarına olan isteği artıracaktır, azaltmayacaktır. 175 milyar parametre ile GPT-3, şu an için büyük sinir ağlarının kralıdır. AI yonga şirketi Tenstorrent tarafından Nisan ayında yapılan bir sunumda, gelecekte bir trilyon parametreye sahip sinir ağlarından bahsedildi.

Machine learning topluluğunun büyük bir kısmı için, daha da büyük dil modellemesi, en son teknoloji olmaya devam edecek.

OpenAI'nin devasa GPT-3'ü, yapay zeka için dil modellerinin sınırlarına işaret ediyor

İlgili Makaleler