Bu yeni teknoloji, GPT-4'ü ve benzerlerini darmadağın edebilir

Tüm OpenAI tarafından bilinen ChatGPT adlı sohbetbotu AI programı ve halefi teknolojisi GPT-4 hakkında yapılan hevesli konuşmalara rağmen, bu programlar sonunda sadece bir yazılım uygulamasıdır. Ve tüm uygulamalar gibi, performanslarını optimal olmayan teknik sınırlamaları bulunmaktadır.

Mart ayında yayınlanan bir makalede, Stanford Üniversitesi'ndeki yapay zeka (YZ) bilim insanları ve Kanada'nın AI MILA enstitüsü, GPT-4 veya benzeri herhangi bir şeyden daha verimli bir teknoloji önerdi. Bu teknoloji, büyük miktardaki veriyi tüketerek onu bir yanıta dönüştürebilir.

Ayrıca: Bu eski Apple çalışanları akıllı telefonları bu cihazla değiştirmek istiyor

Tanınan adıyla Hyena, benchmark testlerinde soru cevaplama gibi eşdeğer doğruluk sağlayabilirken, hesaplama gücünün sadece bir kısmını kullanan bir teknolojidir. Bazı durumlarda, Hyena kodu GPT tarzı teknolojide belleği tüketen ve başarısız olan metin miktarlarıyla başa çıkabilir.

"Alt milyar parametre ölçeğindeki ümit verici sonuçlarımız, dikkatin ihtiyacımız olan tek şey olmadığına işaret ediyor" yazıyor yazarlar. Bu, 2017 yılında bir dönüm noktası AI raporunun başlığına atıfta bulunan bir açıklamadır: 'Dikkat'i ihtiyacınız olan tek şey'. O makalede, Google bilim adamı Ashish Vaswani ve meslektaşları, Google'ın Transformer AI programını dünyaya tanıtmıştır. Transformer, son zamanlardaki tüm büyük dil modellerinin temelini oluşturdu.

Ancak Dönüştürücünün büyük bir kusuru vardır. Bir şeyi "dikkat" olarak adlandırılan bir mekanizma kullanır, burada bilgisayar programı bir grup sembolde bulunan bilgiyi, örneğin kelimelerdeki bilgiyi, ChatGPT'den gördüğünüz cevap gibi başka bir sembol grubuna aktarır, bu da çıktıdır.

Ayrıca: GPT-4 nedir? İşte bilmeniz gereken her şey

O dikkat operasyonu - ChatGPT ve GPT-4 de dahil olmak üzere tüm büyük dil programlarının temel aracı - "karmaşık" hesaplama karmaşıklığına sahiptir (hesaplamanın Wiki "zaman karmaşıklığı"). Bu karmaşıklık, ChatGPT'nin bir cevap üretmek için girdi olarak verilen veri miktarının karesiyle artması anlamına gelir.

Bir noktada, eğer çok fazla veri varsa - yönergedeki çok fazla kelime veya saatlerce süren sohbetin dizeleri - ya program cevap verme konusunda aksaklık yaşar ya da daha hızlı çalışması için daha fazla GPU çipi gerektirir, bu da hesaplama gereksinimlerinde bir artışa yol açar.

Yeni makale olan 'Hyena Hiyerarşisi: Daha Büyük Konvolüsyonel Dil Modellerine Doğru', arXiv önceden yayımlanmış sunucusunda paylaşıldı. Makalenin baş yazarı olan Stanford Üniversitesi'nden Michael Poli ve meslektaşları, Transformer'ın dikkat fonksiyonunu azaltılmış kareye sahip bir şeye, yani Hyena'ya dönüştürmeyi öneriyor.

Ayrıca: Auto-GPT Nedir? Geleceğin güçlü yapay zeka aracı hakkında bilmeniz gereken her şey

Yazarlar ismi açıklamaz, ancak "Hyena" programı için birkaç neden hayal edilebilir. Sırtlanlar, Afrika'da yaşayan ve mil uzaklıklardan avlanabilen hayvanlardır. Bir anlamda, çok güçlü bir dil modeli, besin bulmak için mil uzaklıklarında avlanabilen bir sırtlan gibi olabilir.

Ancak yazarlar gerçekten "hiyerarşi" ile ilgilenir, başlık da öyle önermektedir, ve sırtlan aileleri yerel bir sırtlan klanının üyeleri arasında hakimiyet kuran kademe kademe bir hiyerarşiye sahiptir. Benzer bir şekilde, Sırtlan programı, çok basit işlemleri sürekli olarak uygulayarak, göreceğiniz gibi, veri işleme hiyerarşisini oluşturmak için bir araya gelir. Programa Hyena adını veren de budur, o kombinatoryal öğe.

Ayrıca: Gelecekteki ChatGPT sürümleri, bugün insanların yaptığı çoğu işin yerini alabilir, diyor Ben Goertzel

Makalenin katkıda bulunan yazarları arasında Yoshua Bengio gibi yapay zeka dünyasının önde gelen isimleri yer alıyor. Bengio, 2019 Turing Ödülü'nün sahibi olan MILA'nın bilimsel direktörüdür ve bu ödül, bilgisayar biliminde Nobel Ödülü'ne eşdeğer kabul edilmektedir. Bengio, dikkat mekanizmasını uzun süre önce Vaswani ve ekibi tarafından Transformer için uyarlamadan önce geliştirmesiyle geniş çapta tanınmıştır.

Ayrıca yazarlar arasında Stanford Üniversitesi bilgisayar bilimi yardımcı doçenti Christopher Ré de bulunmaktadır, son yıllarda "yazılım 2.0" olarak yapay zeka kavramını ilerletmede yardımcı olmuştur.

Dikkat mekanizmasının alt-kareli bir alternatifini bulmak için, Poli ve ekibi dikkat mekanizmasının ne yaptığını nasıl yaptığını incelemeye başladılar, bu çalışmanın daha verimli bir şekilde yapılıp yapılamayacağını görmek için.

Son zamanlarda AI biliminde, mekanistik yorumlanabilirlik olarak bilinen bir uygulama derin sinir ağındaki, dikkatin hesaplama "devrelerinin" içinde neler olduğu hakkında görüşler sunuyor. Yazılımı saat veya bir bilgisayar gibi parçalara ayırmak ve nasıl çalıştığını anlamak için kullanabileceğiniz gibi düşünebilirsiniz.

Ayrıca:ChatGPT'yi kullanarak en üst düzeyde 12 programlama dilinde aynı rutini yazdım. İşte nasıl yaptı

Bir iş, Poli ve ekibi tarafından alıntılanan bir dizi deneydir. AI startup Anthropic'in araştırmacısı Nelson Elhage tarafından yapılan bu deneyler dikkatle dönüştürücü programları analiz eder.

Özünde, Elhage ve ekibinin bulduğu şey, dikkatin en temel düzeyde, son girdiden bir kelimeyi kopyalama ve çıktıya yapıştırma gibi çok basit bilgisayar işlemleriyle çalışmasıdır.

Mesela, ChatGPT gibi büyük bir dil modeli programına Harry Potter ve Felsefe Taşı'ndan bir cümle girilirse, "Mr. Dursley called Grunnings adında bir firmnin yöneticisiydi..." şeklinde, sadece "D-u-r-s" yazıldığında ismin tamamlanması için "Dursley" adını daha önce Felsefe Taşı kitabındaki bir cümlede gördüğü için sistem hafızadan karakterlerin "l-e-y" kaydını alarak cümleyi tamamlayabilmektedir.

Ayrıca:ChatGPT, bir insan beyni yerine daha çok 'yabancı bir zeka' gibi, bir gelecekçiye göre.

Bununla birlikte, dikkat işlemi kelime sayısı arttıkça karekök karmaşıklık sorunuyla karşılaşır. Daha fazla kelime, dikkat işlemi yürütmek için daha fazla "ağırlık" veya parametre gerektirir.

Yazarlar şöyle yazmaktadır: "Transformer bloğu, sıralı modelleme için etkili bir araç olmasına rağmen, bazı sınırlamalara sahiptir. En belirgin sınırlamalardan biri, girdi dizisi uzunluğu arttıkça hızla büyüyen hesaplama maliyetidir."

ChatGPT ve GPT-4'ün teknik detayları OpenAI tarafından açıklanmadı, ancak bunların trilyonlarca veya daha fazla parametreye sahip olabileceği düşünülüyor. Bu parametreleri çalıştırmak, Nvidia'dan daha fazla GPU yonga gerektirir ve bu da hesaplama maliyetini arttırır.

Quadratik hesaplama maliyetini azaltmak için, Poli ve ekibi dikkat işlemini "konvolüsyon" olarak adlandırılan bir şeyle değiştirir. Bu, yapay zeka programlarında 1980'lerde daha da geliştirilen en eski işlemlerden biridir. Bir konvolüsyon, verilerdeki öğeleri seçebilen bir filtre sadece, bunlar dijital bir fotoğraftaki pikseller veya bir cümledeki kelimeler olsa bile.

Ayrıca:AI öncüsü Bengio, ChatGPT'nin başarısıyla birlikte AI'da zararlı bir gizlilik eğilimi yaratabileceğini söylüyor

Poli ve ekibi bir tür karışım yapıyor: Stanford araştırmacısı Daniel Y. Fu ve ekibinin kelimelerin dizilerine konvolüsyonel filtreler uygulamak için yaptığı çalışmayı alıyorlar ve bunu, Vrije Universiteit Amsterdam'daki araştırmacı David Romero ve arkadaşlarının programın filtre boyutunu uçuş sırasında değiştirmesini sağlayan çalışma ile birleştiriyorlar. Esnek olarak uyarlanabilme yeteneği, programın sahip olması gereken maliyetli parametrelerin veya ağırlıkların sayısını azaltır.

Mash-up’un sonucu şudur ki, daha fazla ve daha fazla veri kopyalamak için her seferinde daha fazla parametreye ihtiyaç duymadan, sınırsız miktarda metin üzerine bir evrişim uygulanabilir. Yazarların belirttiği gibi, "dikkat gerektirmeyen" bir yaklaşımdır.

"Sırtlan operatörleri, dikkatle büyüklüğü önemli ölçüde azaltarak, benzer bir şaşkınlık ve altta yatan performansla daha küçük bir hesaplama bütçesiyle benzer çözüm üretebilmektedir," diyor Poli ve ekibi. Şaşkınlık, ChatGPT gibi bir program tarafından üretilen cevabın ne kadar sofistike olduğunu ifade eden teknik bir terimdir.

Hyena'nın yeteneklerini göstermek için, yazarlar programı çeşitli yapay zeka görevlerinde ne kadar iyi olduğunu belirleyen bir dizi kıyaslama testine tabi tutarlar.

Ayrıca: 'Yazılımda garip yeni şeyler oluyor,' diyor Stanford AI profesörü Chris Ré

Bir test, Eleuther.ai adlı kâr amacı gütmeyen bir yapay zeka araştırma kuruluşu tarafından 2020 yılında bir araya getirilen 825 gigabaytlık metin koleksiyonu olan The Pile'dır. Metinler, PubMed, arXiv, GitHub, ABD Patent Ofisi ve diğerleri gibi "yüksek kaliteli" kaynaklardan toplanmıştır, böylece kaynaklar sadece Reddit tartışmalarından daha katı bir formasyona sahiptir.

Program için ana zorluk, girdi olarak bir grup yeni cümle verildiğinde bir sonraki kelimeyi üretmektir. Hyena programı, OpenAI'nin 2018'deki orijinal GPT programıyla eşdeğer bir skor elde etmeyi başardı ve işlem sayısını %20 azalttı--araştırmacılar, "GPT kalitesine uyum sağlayan ilk dikkat gerektirmeyen, evreleme mimarisi" olarak yazmışlardır.

Sonra, yazarlar programı 2019'da New York Üniversitesi, Facebook AI Araştırma, Google'ın DeepMind birimi ve Washington Üniversitesi tarafından tanıtılan bir mantık görevleri olan SuperGLUE üzerinde test ettiler.

Örneğin, "Vücudum çimenin üzerine bir gölge cast etti" cümlesi verildiğinde ve sebep için "güneş doğuyordu" veya "çimen kesildi" gibi iki alternatif sunulduğunda, program uygun çıktı olarak "güneş doğuyordu" üretecektir.

Hyena program, çoklu görevlerde GPT'nin bir versiyonuyla yakın veya ona yakın skorlar elde ederken, eğitim verilerinin yarısından azıyla eğitilmiştir.

Ayrıca: Yeni Bing'i nasıl kullanabilirsiniz (ve ChatGPT'den nasıl farklıdır)

Daha da ilginç olan, yazarların giriş olarak kullanılan cümle uzunluğunu artırmaları durumunda neler olduğudur: daha fazla kelime, performansta daha iyi bir gelişmeye yol açar. 2,048 "token"da, yani kelime olarak düşünebileceğiniz şekilde, Hyena dikkat yaklaşımına kıyasla bir dil görevini tamamlamak için daha az zaman gerektirir.

64.000 simgede, yazarlar "Sırtlan hızlanmaları 100 kat artar" diyor - bir yüz kat performans gelişimi.

Poli ve ekibi, Hyena ile sadece farklı bir yaklaşım denemediklerini, aynı zamanda programın sonuçları hesaplamak için ne kadar zor olduğunda nitel bir değişime neden olan "karekök engelini kırdıklarını" iddia ediyorlar.

Bunlar, yolda potansiyel olarak büyük kalite değişiklikleri de olduğunu öneriyorlar: "İkinci derece engeli kırmak, derin öğrenme için yeni imkanlara yönelik önemli bir adımdır; tam kitapları bağlam olarak kullanmak, uzun biçimli müzik üretmek veya gigapiksel ölçekli resimleri işlemek gibi," diye yazıyorlar.

Hyena'nın binlerce kelime üzerinde daha verimli bir şekilde gerilen bir filtre kullanabilme yeteneği, yazarlar yazıyor, dil programına bir sorgunun "bağlam"ına neredeyse hiçbir sınırlama getirmeme anlamına gelir. Bu, etkili bir şekilde, mevcut konuşma hattından uzakta olan metinlerin veya önceki konuşmaların unsurlarını hatırlayabilir - tamamen hyenaların milelerce avlanmasına benzeyen şekilde.

Ayrıca: En iyi yapay zeka sohbet botları: ChatGPT ve denemek için diğer eğlenceli alternatifler

"Sırtlan operatörleri sınırsız bir bağlama sahiptirler," yazıyorlar. "Yani, örneğin, yerellik gibi yapay kısıtlamalara tabi değillerdir ve [girdi] öğeleri arasındaki uzak bağımlılıkları öğrenebilirler."

Ayrıca, kelimelerin yanı sıra program, görüntüler ve belki de video ve ses gibi farklı modalitelerdeki verilere de uygulanabilir.

Yazıda gösterilen Hyena programının GPT-4 veya hatta GPT-3'e kıyasla küçük boyutta olduğunu belirtmek önemlidir. GPT-3'ün 175 milyar parametresi veya ağırlığı varken, Hyena'nın en büyük sürümünde sadece 1.3 milyar parametre bulunmaktadır. Dolayısıyla, Hyena'nın GPT-3 veya 4 ile tam bir kıyaslamada ne kadar iyi performans göstereceği henüz görülmüş değildir.

Ancak, başarı elde edilen verimlilik Hyena programının daha büyük versiyonlarında da geçerli olursa, bu önem son on yılda olduğu kadar yaygın bir yeni paradigm olabilir.

Poli ve ekibi şunu sonuçlandırıyor: "Hyena gibi daha basit ikinci dereceden tasarımlar, basit bir rehberlik prensipleri setine dayanarak ve mekanistik yorumlanabilirlik ölçütleriyle değerlendirilerek, verimli büyük modellerin temelini oluşturabilir."

Bu yeni teknoloji GPT-4'ü ve ona benzer her şeyi yerle bir edebilir

İlgili Makaleler