OpenAI'nın çığır açan yapay zeka dil programı GPT-3 nedir? İşletmenizin bilmesi gereken her şey

zdnet-gpt-3-ai-İçin-sonraki-kelime-ver-2.jpg

GPT-3, San Francisco merkezli özel bir şirket olan OpenAI tarafından oluşturulan bir bilgisayar programıdır. Bu devasa bir sinir ağıdır ve bu nedenle yapay zeka olarak bilinen bilgisayar bilimi alanının bir dalı olan makine öğreniminin derin öğrenme segmentinin bir parçasıdır. Program, bir insan tarafından yazılmış gibi gelen metin satırlarını üretme konusunda önceki programlardan daha iyidir.

Bu gibi bir çığır, şirketler için kullanışlı olabilecek bir potansiyele sahiptir çünkü görevleri otomatikleştirme konusunda büyük potansiyele sahiptir. GPT-3 bir kişinin bilgisayara yazdığı herhangi bir metne, bağlama uygun yeni bir metinle yanıt verebilir. Örneğin bir arama kutusuna tam bir İngilizce cümle yazarsanız, muhtemelen ilgili tam cümlelerle yanıt alırsınız. Bu demektir ki GPT-3, müşteri hizmetleri için soru ve cevaplardan, yeterlilik belgesi aramalarına ve rapor oluşturmaya kadar geniş çeşitlilikteki durumlarda insan çabasını amplifiye edebilir.

Aşağıda, bir kişinin bilgisayara ne yazdığını ve GPT-3'ün nasıl bir cevap gönderdiğini örnekleyen kısa bir örneği gözlemleyin:

Kullanıcı tarafından girilen veri: S: Touched by an Angel dizisinde Tess'i kim oynadı?

GPT-3 üretilen tamamlama: A: Delloreese Patricia Early (6 Temmuz 1931 { 19 Kasım 2017 tarihleri arasında bilinen adıyla Della Reese olarak bilinir.

Program şu anda bir bekleme listesiyle kayıt olunabilen özel bir beta sürümündedir. OpenAI tarafından sunulan bir API olarak bulut üzerinden erişilebilir ve erişim sağlayan şirketler, basit soru-cevaplama işlemlerinden programlama kodu üretimine kadar her türlü programı geliştirmek için metin üretimini kullanan ilginç uygulamalar geliştirmiştir.

Automasyon potansiyeliyle birlikte büyük dezavantajlar da gelir. GPT-3, hesaplama açısından talepkar olduğundan, çoğu şirketin kullanımını herhangi bir şekilde mümkün kılan bir özellik değildir. Üretilen metin başta etkileyici olabilir, ancak uzun kompozisyonlar biraz anlamsız hale gelebilir. Ve içerdiği ırkçılık ve cinsiyetçilik gibi önyargıları artırma potansiyeline sahiptir.

GPT-3 NASIL ÇALIŞIR?

GPT-3, dil modeli olarak bilinen bir örnektir ve bu, belirli bir tür istatistiksel programdır. Bu durumda, bir sinir ağı olarak oluşturulmuştur.

GPT-3 adı, şu ana kadar üçüncü versiyonu olan "üretken önceden eğitim" anlamına gelen bir akronimdir. Diğer sinir ağlarından farklı olarak, GPT-3, çıktısı olarak orijinal metin dizileri üretebilir ve sayısal bir sıralama veya evet veya hayır yanıtı vermez. Önceden eğitilmiştir çünkü herhangi bir alan bilgisiyle oluşturulmamış olmasına rağmen yabancı dil çevirisi gibi alan özgü görevleri tamamlayabilir.

Bir dil modeli, GPT-3 durumunda, bir metindeki diğer kelimeler verildiğinde bir kelimenin ne kadar olası olduğunu hesaplayan bir programdır. Bu, kelimelerin koşullu olasılığı olarak bilinir.

Örneğin, cümlede Bir omlet yapmak istedim, bu yüzden buzdolabına gittim ve biraz ____ çıkardım, boşluğa herhangi bir kelime, hatta safsata bile girilebilir, dilin sonsuz bir şekilde birleştirilebilmesi göz önüne alındığında. Ancak, "yumurtalar" kelimesi büyük olasılıkla normal metinlerde bu boşluğu doldurmak için oldukça yüksek bir not alır, diyelim ki, "filler"den daha yüksek bir not alır. Bu durumda, dolaylı metnin koşulu olarak yumurtaların olasılığı fillerden daha yüksektir.

Yapay sinir ağı geliştirilirken, eğitim aşamasında denilen, GPT-3'e milyonlarca metin örneği verilir ve o kelimeleri vektörler olarak, sayısal temsillere dönüştürür. Bu, bir veri sıkıştırma şeklidir. Program daha sonra bu sıkıştırılmış metni geçerli bir cümleye geri açmaya çalışır. Sıkıştırma ve açma görevi, programın kelime koşullu olasılığını hesaplama doğruluğunu geliştirir.

Bir model eğitildikten sonra, yani milyarlarca kelimenin koşullu olasılık hesaplamaları mümkün olduğunca doğru hale getirildikten sonra, o zaman bir kişi tarafından başlangıç bir kelime veya cümle girilerek, hangi kelimelerin sonraki olarak geleceğini tahmin edebilir. Bu tahmin eylemi makine öğrenmesinde çıkarım olarak bilinir.

Bu, etkileyici bir ayna etkisine yol açar. Sadece olası kelimeler ortaya çıkmaz, aynı zamanda bir türün dokusu ve ritmi veya soru-cevap setleri gibi bir yazılı görevin biçimi de yeniden üretilir. Örneğin, GPT-3 ünlü şairlerin bazı isimlerini ve eser örneklerini alabilir, ardından başka bir şairin adını ve sadece hayali bir şiir başlığını verebiliriz ve GPT-3, adı verilen şairin ritmi ve söz dizimine uygun bir şekilde yeni bir şiir üretecektir.

Aşağıdaki GPT-3 örneğini göz önünde bulundurun; Wallace Stevens'ın eserine benzer şekilde, başlıklar, isimler ve diğer şairlerin eserlerinin örnekleri sağlandıktan sonra sıfırdan bir şiir oluşturuyor:

İnsan tarafından sağlanan giriş: Şehir  YAZAN C. P. CAVAFY   ÇEVİREN: EDMUND KEELEY [Şiir metni atlandı]

İnsan tarafından sağlanan giriş : BAZI AĞAÇLAR John Ashbery [Şiir metni çıkarıldı]

 İnsan-tarafından sağlanan giriş: Yoldaki Gölgeler Wallace Stevens

GPT-3 oluşturulan tamamlama: -------- Oluşturulan Şiir 1 --------   Yolda gölgelere sahip olmalıyım  Yürümek için, her adım yavaş ve yalnız olmalı  Hazır olması için   Ve gri çizgilerle düşünmeliyim  Sönük düşüncelerimin rehberim olması için  Maviye ve yeşile bakmalıyım  Ve gözümün renk dostum olduğunu asla unutmamalıyım  Ve mor da beni sarmalamalı  Güneşin sarısından daha çok  İntrüzyon yapan, mavi tonlardaki kar  Hepimizin üzerine düşen kar. Eğer gideceksem  Gri düşüncelere ve mavi düşüncelere benimle yürümeliyim

Yanıt üretmek, GPT-3'ün yalnızca yazı üretmekten çok daha ileri gitmesi anlamına gelir. Doğal dil yanıtı gerektiren akıl yürütme testlerinin hepsinde performans gösterebilir. Örneğin, GPT-3'e Manhattan kiralık konutların kira fiyatları hakkında bir makale verilirse ve metni özetleyen "Manhattan ucuzdur" gibi bir ifadeyle birlikte "doğru mu, yanlış mı?" sorusu sorulursa, GPT-3 tüm bu talimatın tamamına metni doğrulamadığı için "yanlış" kelimesiyle yanıt verecektir.

İnsan tarafından sağlanan giriş: Bazı New York toplumları, favori yerel işletmelerinin yüksek kiralara kaybedilmesinden şikayet ederken, düşen kira trendi şaşırtıcı gelebilir. Ancak, son yumuşamaya rağmen, bu perakendeciler için, kira oranlarının geç 1970'lerde imzalanan kiralardan çok fazla bir şekilde arttığı hala geçerlidir. Kesinlikle, fiyatların son zamanlarda düşmesi, Manhattan'ın ucuz olduğu anlamına gelmez.

İnsan tarafından sağlanan giriş: Soru: Manhattan ucuzdur. doğru, yanlış veya hiçbiri?

İnsan tarafından sağlanan giriş: cevap:

GPT-3-oluşturulan tamamlama: yanlış

GPT-3'ün, ona daha önce hiç maruz kalmadığı formlar da dahil olmak üzere bir örnek görevle tutarlı bir şekilde yanıt verme yeteneği, onu "az örnekli" bir dil modeli yapar. Bir görev üzerinde yoğun bir şekilde ayarlanması veya "eğitilmesi" yerine, GPT-3'ün zaten kelimelerin birleşme şekilleri hakkında çok fazla bilgisi olduğundan, sadece bir avuç görev örneği verilebilir, buna fine-tuning adı verilir, ve o yeni görevi de yerine getirme yeteneği kazanır.

Doğal dil stillerini yansıtabilme yeteneği ve dil temelli testlerde görece yüksek puan alma yeteneği, GPT-3'ün insan benzeri bir dil yetkinliği yaklaşımında olduğu izlenimini veriyor. Ancak göreceğimiz gibi, durum böyle değil.

Daha fazla teknik ayrıntı, OpenAI bilim insanları tarafından sunulan resmi GPT-3 makalesinde bulunabilir.

GPT-3 NE İŞE YARAR?

OpenAI, şimdi kodunun yayınlanma şekilleri kadar ünlü - veya kötü şöhretli - oldu. Şirket, öncüsü olan GPT-2'yi 2019 Yılı Sevgililer Günü'nde duyurduğunda, başlangıçta en yetenekli sürümünü kamuoyuna açıklamayı reddetti ve yanıltıcı ve yanıltıcı metinlerin kitlesel üretimi riski nedeniyle tehlikeli olduğunu söyledi. OpenAI daha sonra indirilmek üzere kullanıma sunmuştur.

Bu kez, OpenAI herhangi bir indirme sağlamıyor. Bunun yerine, bir bulut tabanlı API uç nokta açtı ve GPT-3'ü bir hizmet olarak sunuyor. (Onu bir dil modeli hizmeti olarak düşünün.) OpenAI'nın iddiasına göre, hem kötü niyetli kullanıcıların GPT-3'ü sınırlamak hem de para kazanmak için böyle bir yol izleniyor.

"Açık kaynaklı yazılımda 'geri al' düğmesi yok," OpenAI bir sözcü aracılığıyla ZDNet 'e söyledi.

"GPT-3'ü bir API aracılığıyla yayınlamak, kullanımını güvenli bir şekilde kontrol etmemize ve gerektiğinde erişimi geri alabilmemize olanak sağlar."

Şu anda, OpenAI API hizmeti onaylanmış taraflarla sınırlıdır; erişim kazanmak için katılabileceğiniz bir bekleme listesi bulunmaktadır.

"Şu anda API, API kullanarak üretim için getirmek istedikleri bir şey için fikir sunan birkaç geliştiricinin kontrol edilen bir beta aşamasındadır," dedi OpenAI, ZDNet'e.

Ayrıca: OpenAI'nin 'tehlikeli' AI metin üretici sistemi yayınlandı: İnsanlar bu kelimeleri 'inandırıcı' buluyor

beta program'ındaki şirketlerden yapılabilecek ilginç örnekler bulunmaktadır. Y Combinator tarafından desteklenen bir şirket olan Sapling, CRM yazılımının üzerinde oturan bir program sunar. Örneğin, bir müşteri temsilcisi bir gelen yardım talebini, diyelim ki e-posta yoluyla işliyor, program GPT-3'ü kullanarak en olası cevaplardan bir tam cümle önerir.

sapling-müşteri-hizmeti-kullanarak-gpt-3.jpg

Oyun yapıcısı Latitude, metin tabanlı macera oyunu olan AI Dungeon'ı geliştirmek için GPT-3 kullanıyor. Genellikle, bir macera oyunu, oyunda birçok olası yol için karmaşık bir karar ağacı gerektirir. Ancak GPT-3, kullanıcıların yazdığı eylemlere yanıt olarak oyunun değişen bir oyun durumu üretme yeteneğine sahiptir.

Zaten görev otomasyonu doğal dilin ötesine geçerek bilgisayar kodu üretmeye başladı. Kod bir dildir ve GPT-3, farklı programlama dillerinde operatör ve operandların en olası sözdizimini çıkarabilir ve derlenip çalıştırılabilen diziler üretebilir.

Bir başlangıç örneği, uygulama geliştirme startup'ı Debuild'den yayıldı. Şirketin yöneticisi Sharif Shameem, basit İngilizceyle bir yazılım UI'nin tanımını yazdığınızda, GPT-3, JSX sözdizim uzantısını kullanarak JavaScript kullanarak bilgisayar kodu ile yanıt verir. Bu kod, tanımladığınız UI'yi oluşturur.

Bu asılmasıdır. GPT-3 ile, istediğiniz herhangi bir düzeni açıklamanız yeterli ve JSX kodunu sizin için oluşturur. W H A T pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 Temmuz 2020

Shameem, bir UI'yi çoklu düğmelerle betimleyerek, bir cümle ile tam bir programı betimleyebileceğini gösterdi. Bununla birlikte, bu işlem basit aritmetik hesaplama yapabilen ve sonucu görüntüleyen bir program olsa bile, GPT-3 bunun için tüm kodu üretecek ve çalışan uygulamayı gösterecektir.

GPT-3'ü ne istediğimi anlatarak bir *çalışan* React uygulaması oluşturdum. Hala hayran kaldım. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17 Temmuz 2020

OpenAI'nin, "bugüne kadar API erişimine on binlerce başvuru aldığı ve gerçek dünyada bu modellerin neler yapabileceğini öğrendikçe erişimi dikkatli bir şekilde yapacağı" ZDNet'e açıkladı. "Bu nedenle, bekleme listesi uzun olabilir."

Bir sonraki ticari hizmetin fiyatlandırması henüz belirlenmemiştir. Beta sürümünden ne zaman çıkacağı sorulduğunda, OpenAI ZDNet'e "şu anda değil" şeklinde cevap verdi.

"Bu kadar güçlü bir modelin piyasaya sürülmesi, işletmeler, endüstriler ve insanlar üzerindeki etkisine yönelik yavaş ve düşünceli olmamız gerektiği anlamına gelir," şirketin söylediği gibi. "Bir API'nin formatı, kullanımlarını uygun bir şekilde incelememize ve moderasyonuna izin verir, ancak sınırlamaları nedeniyle genel olarak mevcut hale getirmek için acelemiz yok."

Eğer beta bekleme listesi konusunda sabırsızsanız, bu arada bir önceki sürüm olan GPT-2'yi indirebilirsiniz. Bunun için bir Docker kurulumu kullanılarak bir dizüstü bilgisayarda çalıştırılabilir. Kaynak kodu, aynı Github deposunda Python formatında ve TensorFlow çatısı için yayınlanmıştır. Tabii ki GPT-3'le aynı sonuçları elde edemezsiniz, ancak kendinizi tanımaya başlamak için bir yol olabilir.

Ayrıca, benzer yeteneklere sahip yeni dil modelleri sürekli olarak ortaya çıkar ve bunlardan bazıları amacınıza uygun olabilir. Örneğin, Google son zamanlarda BERT dil modelinin bir versiyonunu, LaBSE adı verilen bir versiyonu yayınladı ve bu dil çevirisi konusunda belirgin bir iyileştirme göstermektedir. TensorFlow Hub'dan indirilebilir.

Ayrıca: OpenAI'nın devasa GPT-3'ü, yapay zeka için dil modellerinin sınırlarını ima ediyor

GPT-3'ÜN TARİHÇESİ NEDİR?

GPT-3, Mayıs ayında tanıtılan GPT-2'nin ardından 2018'de OpenAI tarafından ilk kez sunulan bir programın üçüncü sürümüdür. Üç program da dil modelleri alanında hızlı bir yenilik örneği olup, her ikisi de 2015 yılında gerçekleşen iki büyük ilerleme sayesinde gerçekleşmiştir.

İlk ilerleme, dikkat olarak bilinen şeyin kullanılmasıydı. Yapay zeka bilimcisi Yoshua Bengio ve Montreal'deki Mila yapay zeka enstitüsündeki meslektaşları, İngilizce cümleyi sıkıştırdığında ve ardından tekrar açtığında, tümünün sabit bir uzunlukta bir vektör kullandığını gözlemledi. Her cümle, cümlenin uzunluğuna bakmaksızın aynı boyutta bir vektöre sıkıştırılıyordu.

Bengio ve ekibi, bu katı yaklaşımın bir engel olduğunu sonuçlandırdılar. Bir dil modeli, koşullu olasılığı optimize eden kelimeleri bulmak için farklı uzunluklarda birçok vektör üzerinde arama yapabilir olmalıdır. Ve böylece, sinir ağına kelimeyi farklı boyutlarda sıkıştıracak ve programın önemli olacak bağlamı esnek bir şekilde aramasına izin verecek bir yol geliştirdiler. Buna dikkat dediler.

Dikkat, dil modellerinde kilit bir öğe haline geldi. Google bilim insanları tarafından iki yıl sonra Transformer adlı bir dil modeli programını oluşturmak için kullanıldı. Transformer, dil manipülasyonu testlerinde inanılmaz skorlar elde etti. De facto dil modeli haline geldi ve Google tarafından BERT olarak bilinen başka bir çok başarılı dil modeli oluşturmak için kullanıldı. Transformer ayrıca GPT-1'in temelini oluşturdu.

Sabit bir boyuta sıkı sıkıya bağlı olma gereğinden kurtulan Transformer ve onun devam edenleri, verilen bir metnin farklı bölgelerinde gezebilir ve çok daha geniş bir bağlamı kapsayabilecek koşullu bağımlılıkları bulabilir.

O özgürlük, 2015 yılında geldi ve OpenAI'nın çalışmasında daha da merkezi olan bir diğer yeniliği hazırladı ve denetimsiz öğrenme olarak biliniyor.

Çoğu dil modeli için o zamana kadar odak noktası, etiketlenmiş verilerle denetimli öğrenmeydi. Bir girdi verildiğinde, bir sinir ağı da hedeflenen cevabın örnek çıktısı olarak bir örnek çıktıya sahip olur. Öyleyse, eğer görev çeviri ise, İngilizce bir cümle giriş olarak verilir ve insan tarafından oluşturulan Fransızca bir çeviri de istenen hedef olarak sağlanır ve bu çift cümle bir etiketli örnek oluşturur.

Yapay sinir ağının Fransızca çeviri yapma girişimi, resmi Fransızca cümleyle karşılaştırılır ve ikisi arasındaki fark, yapay sinir ağının tahminlerini yaparken ne kadar hata yaptığı, kayıp fonksiyonu veya amaç fonksiyonu olarak adlandırılan şeydir.

Eğitim aşaması, sinir ağı tarafından önerilen çıktı ile hedef çıktı arasındaki hata farkını kapatmayı amaçlar. Hata farkı mümkün olduğunca küçük olduğunda, amaç fonksiyonu optimize edilmiş olur ve dil modelinin sinir ağı eğitildiği kabul edilir.

Ancak istenen çıktının dikkatlice etiketlenmesi, insan değerlendirmesiyle örnek cümle çiftlerinin bir araya getirilmesi gibi veri düzenlemesi gerektiren bir sorun olabilir, bu da zaman alıcı ve kaynak yoğun bir süreçtir. Google'dan Andrew Dai ve Quoc Le, dil modeli önce denetimsiz bir şekilde eğitilirse etiketli veri ihtiyacını azaltmanın mümkün olduğunu hipotez etti.

Çift bir cümle yerine, ağa sadece tek cümleler verildi ve her birini bir vektöre sıkıştırıp tekrar orijinal cümleye açması sağlandı. Optimizasyon için aynalama kayıp fonksiyonu kullanıldı. Bu şekilde sıkıştırılan ve açılan daha fazla etiketlenmemiş örnek üzerinde çalışıldığında, çeviri gibi görevlerde birçok etiketlenmiş veriyi yerine koyabilecekleri bulundu.

2018'de, OpenAI ekibi Bengio ve meslektaşlarının geliştirdiği dikkat mekanizması ve Dai ve Le'nin denetimsiz ön-eğitim yaklaşımını bir araya getirdi. Bu yaklaşım, birçok sözcük vektörünün üzerinde dolaşacak olan dikkat mekanizmasını ve büyük miktarda metni tüketip sıkıştıracağı ve ardından orijinal metni yeniden üreteceği denetimsiz ön-eğitim yaklaşımını birleştirir.

Bir standart Transformer aldılar ve ona Toronto Üniversitesi ve MIT tarafından derlenen, toplamda neredeyse bir milyon kelimeyi içeren, 7.000 yayımlanmış kitap metnini içeren BookCorpus'un içeriğini verdi. GPT-1, bu kitapları sıkıştırmayı ve açmayı öğrenmek için eğitildi.

Bu şekilde, daha büyük ve daha büyük veri kümelerinin üç yıllık bir tarihçesi başladı. OpenAI araştırmacıları, daha fazla verinin modeli daha doğru hale getirdiğini öne sürerek, programın işleyebileceği sınırları zorladı. GPT-2 ile, BookCorpus'u bir kenara bırakıp Reddit'deki çıkış bağlantılarından çekilen sekiz milyon web sayfasından oluşan, toplamda 40GB boyutunda olan ev yapımı bir veri setine geçtiler.

GPT-3'nün eğitimi hâlâ daha büyük, 2016-2019 arası popüler CommonCrawl veri kümesinden oluşuyor. Sıkıştırılmış metin verisi olarak 45TB'den fazla gibi görünse de, OpenAI bu verilerdeki kopyaları kaldırarak ve kaliteyi iyileştirerek düzenledi. Son sürüm 570GB'lık bir veri haline geldi. OpenAI buna kitap verileri dahil olmak üzere çeşitli türlerde ek veri kümesi ekledi.

GPT-3 BİLİŞİM GÜCÜNE NASIL BAĞLI?

GPT-1, 2 ve 3'ün gelmesiyle birlikte, hesaplamanın ölçeği ilerlemenin temel bir bileşeni haline gelmiştir. Modeller, daha iyi sonuçlar elde etmek için eğitildikleri sırada giderek daha fazla bilgisayar gücü kullanır.

Neural ağın eğitimi sırasında optimize eden şey, ağırlıklarının ayarlanmasıdır. Ağırlıklar, parametreler olarak da adlandırılan matrislerdir ve her vektörle çarpılırlar. Çarpma işlemiyle, birçok kelime veya kelime parçalarının vektörleri, nöral ağ hata açığını kapatmak için ayarlandığında son çıktıda daha yüksek veya daha düşük ağırlığa sahip olurlar.

OpenAI, büyüyen veri kümeleri üzerinde iyi sonuçlar elde etmek için, ağırlıkları artırmak zorunda kaldı.

Orijinal Google Transformer'ının 110 milyon ağırlığı vardı. GPT-1 bu tasarımı izledi. GPT-2 ile bu sayı 1.5 milyar ağırlığa çıkarıldı. GPT-3 ile parametre sayısı 175 milyarına yükselerek, GPT-3 dünyanın şimdiye kadar gördüğü en büyük sinir ağı haline geldi.

Çarpma basit bir şeydir, ancak 175 milyar ağırlığın her bir giriş verisinin her bir bitiyle çarpılması gerektiğinde, milyarlarca veri yığını üzerinde paralel bilgisayar işlemi yapmak inanılmaz bir egzersiz haline gelir.

openai-compute-used-in-training-gpt-3-versus-others.jpg

GPT-1 ile, 2018'de OpenAI pratik hesaplamanın sınırlarını zorluyordu. Verileri artırmak, GPU'ları artırmak anlamına geliyordu. Önceki dil modelleri, modellerin kendileri küçük olduğu için tek bir GPU içine sığmıştı. GPT-1'in 8 GPU üzerinde paralel olarak çalışarak eğitilmesi bir ay sürdü.

GPT-3 ile OpenAI biraz gizemli olmuştur. Eğitim için kullanılan tam bilgisayar yapılandırmasını açıklamadı, tek bildiğimiz Microsoft Azure üzerinde çalışan Nvidia V100 çiplerinden oluşan bir küme olduğu. Şirket, tam gereken hesaplama döngüsünü açıkladı ve bunun bir gün boyunca saniyede bin trilyon sürekli noktalı işlem yapmakla eşdeğer olduğunu ve bunun 3,640 gün boyunca sürdüğünü belirtti.

Bilgisayar üreticisi ve bulut işletmecisi Lambda Computing, bu hesaplamayı yapmak için tek bir GPU'nun 355 yıl süreceğini tahmin etti ki, standart bir bulut GPU örneği fiyatına göre bu maliyet 4.6 milyon dolara tekabül eder. Ve sonra hafıza var. Tüm ağırlık değerlerini tutmak için parametreler arttıkça daha fazla belleğe ihtiyaç duyulur. GPT-3'ün 175 milyar parametresi 700GB gerektirir ve bu, tek bir GPU'deki belleğin 10 katıdır.

O, bilgisayar yonga alanını iten o tür bir devasa güç gereksinimidir. Yapay zeka eğitimi için baskın GPU tedarikçisi olan Nvidia'nın hisse fiyatını son on yılda neredeyse %5.000 artırmıştır. Cerebras Systems, Graphcore ve Tachyum gibi yüz milyonlarca dolarlık risk sermayesi finansmanıyla desteklenen bir dizi startup şirketi doğmuştur. Alanın yoluna daha da büyük modeller inşa etmek olduğu sürece rekabet gelişmeye devam edecektir.

OpenAI, kendi araştırmalarını büyüyen bilgisayar gücüne ilişkin olarak üretmiştir. Şirket, 2018 yılında, AI eğitim modelleri tarafından tüketilen hesaplama döngülerinin 2012'den bu yana her 3.4 ayda ikiye katlandığını belirtmiştir. Bu, ünlü Moore Yasası'ndaki yonga transistör büyümesi için geçerli olan genişleme oranından daha hızlı bir orandır. (Aklınızda bulunsun, şirket ayrıca daha önce aynı işi yapan önceki sinir ağlarından daha verimli olan her zamankinden daha büyük modellerin birim bazında daha verimli olduğunu gösteren araştırmalar da yapmıştır.)

Zaten, gizli yapay zeka projeleri hakkında bilgilendirilen şirketlere göre, bir trilyondan fazla parametre kullanan modeller üzerinde geliştirme yapılmaktadır. Bu muhtemelen sınır değildir, Google gibi hiperskal şirketlerin devasa veri merkezlerini her geçen gün daha da büyüyen modellere adamaları şartıyla. Çoğu yapay zeka bilimcisi, makine öğrenimi modellerinin önümüzdeki bir süre boyunca daha da büyüyeceği konusunda hemfikirdir.

"AI alanında etkisinin açısından, GPT-3'ün en heyecan verici tarafı, AI'nın ölçeklendirilmesi konusunda henüz sınırlara yaklaşmadığımızı göstermesidir." AI yönetim araçları satıcısı Algorithmia'nın CTO'su Kenny Daniel, ZDNet'e söyledi.

Ayrıca, GPT-3'ün hesaplama kullanımını artırmanın yanı sıra, diğer büyük etkisi kesinlikle programlama ve genel olarak uygulama geliştirmesinin hızını artırması olacaktır. Şameem'in sadece bir cümle yazarak oluşturulan bir JSX programını göstermesi sadece buzdağının görünen kısmıdır.

GPT-3'ÜN EKSİKLERİ NELERDİR?

Eski sürüme göre büyük bir gelişme göstermiş olmasına rağmen, GPT-3'ün birçok kısıtlaması bulunmaktadır, bu da yazarlarının kendileri tarafından belirtilmektedir. "Genel olarak kalite yüksek olsa da, GPT-3 örnekleri bazen anlambilimsel olarak doküman düzeyinde kendini tekrarlamakta, yeterince uzun pasajlarda tutarlılığı kaybetmeye başlamaktadır," şeklinde yayınlanan makalede belirtiliyor.

Program ayrıca birçok bireysel testte iyi performans gösteremiyor. "Özellikle, GPT-3'ün 'Eğer peyniri buzdolabına koyarsam, erir mi?' gibi sorularla zorluk çektiği belirtiliyor. Bu tür bir insanüstü bilgiye dikkat çeken yazarlar, GPT-3'ün anlamadığı ortak mantıksal durumları tanımlıyor.

GPT-3 çıktıktan sonra kısa bir süre içinde büyük bir heyecan oldu ve şirketin CEO'su Sam Altman, insanların heveslerini kısmalarını söyledi.

"GPT-3'nün abartısı fazla," diye 19 Temmuz'da Altman tweet attı. "Etkileyici (güzel iltifatlar için teşekkürler!) ama hala ciddi zayıflıkları var ve bazen çok saçma hatalar yapıyor," yazdı. "Yapay zeka dünyayı değiştirecek, ama GPT-3 sadece çok erken bir bakış. Henüz çözmemiz gereken çok şey var."

GPT-3 hype çok fazla. İmpresyon verici (güzel iltifatlar için teşekkürler!) ama hala ciddi zayıflıkları var ve bazen çok saçma hatalar yapabiliyor. Yapay zeka dünyayı değiştirecek, ama GPT-3 sadece çok erken bir bakış. Hala pek çok şeyi çözmemiz gerekiyor.

— Sam Altman (@sama) 19 Temmuz 2020

OpenAI'nin dışındaki diğer insanlar da kendi gerçeklik kontrolü önerilerini sunmuştur. Birden fazla nesilden GPT'nin deneyimli bir kullanıcısı olan Max Woolf, kişisel blogunda GPT-3'ün öncekilere göre daha iyi olduğunu, ancak sadece ortalama olarak olduğunu yazmıştır. Oluşturulan metnin kalitesinde çeşitlilik bulunur, bu nedenle karşılaşacağınız bazı örnekler dikkat çekici görünürken, diğerleri ise hiç iyi değildir. Woolf, GPT-3'ü Apple'ın Siri'sine benzetir; çünkü Siri'nin birçok durumda çöp üretme rahatsız edici bir alışkanlığı bulunmaktadır. (Woolf'un makalesi, GPT-3'ün düşünceli bir analizi için tamamen okumaya değerdir.)

Gerçekten de, GPT-3 örneklerini okudukça, özellikle uzun metinlerde, bazı başlangıç coşkusu azalmaya başlar. GPT-3 uzun süreler boyunca öyküyü kaybetmeye başlar, denilebilir. Türü veya görevi ne olursa olsun, metin çıktıları devam eder ve sıkıcı hale gelir, anlatımdaki tutarsızlıklar ortaya çıkar.

Bazı programcılar, heveslerine rağmen birçok kusuru kataloglamışlardır, örneğin GPT-3'ün baba şakalarındaki başarısız denemeleri gibi. GPT-3'e "Bir tabak diğerine ne dedi?" şeklinde bir başlangıç sorusu verildiğinde, uygun olan baba şakası cevabı "Akşam yemeği benden!" olmalıdır. Ancak GPT-3, komik olmayan "Beni batır!" yanıtını verebilir.

İnsan kaynaklı giriş: S. Bir tabak diğer tabağa ne dedi?

GPT-3 üretimli tamamlama: A. Beni batır!

GPT-3, sıradan bir mantıklı soruyu yanıtlayabilir, örneğin bir zürafanın kaç gözü olduğunu söyleyebilir ancak anlamsız bir sorudan kaçamaz ve anlamsız bir yanıt sunmaya yönlendirilir. "Ayaklarımda kaç göz bulunur?" diye sorulduğunda, uysal bir şekilde "Ayaklarımda iki göz bulunur" yanıtını verecektir.

Bu orta hallilik hakkında düşünmenin bir yolu, GPT-3'ten iyi çıktı almanın bir ölçüde etkili ipuçları oluşturma yatırımı gerektirdiğidir. İnsan yapımı bazı ipuçları, programı diğer bazı ipuçlarından daha iyi sonuçlara yönlendirebilir. Bu, "çöp içeride, çöp dışarıda" atasözünün yeni bir versiyonudur. İpuçları, yetenek ve ustalık gerektiren yeni bir programlama alanı haline gelebilir gibi görünmektedir.

Önyargı, yalnızca GPT-3 değil, koşullu dağılıma dayanan tüm programlar için büyük bir dikkate alınması gereken bir durumdur. Programın temel yaklaşımı, bir ayna gibi ne koyarsanız onu geri verme üzerine kuruludur. Bu, verideki önyargıların çoğalma potansiyeline sahiptir. Zaten GPT-2'de geniş kapsamlı bir önyargı üzerine bir akademik tartışma yapılmıştır.

GPT-3 ile, Nvidia Yapay Zeka bilim insanı Anima Anandkumar, ırkçı ve cinsiyetçi çıktı üretme eğiliminin devam ettiğine dikkat çekti.

Bu, önyargıya herhangi bir sorumluluk almadan yayınlandığını görmekten rahatsızım. Bu modeli, muazzam bir #ırkçılık ve #cinsiyetçilik içeren @reddit derlemesiyle eğittim. Bu modellerle çalıştım ve ürettikleri metinler şok edici bir şekilde önyargılı. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11 Haziran 2020

OpenAI, Anandkumar'ın eleştirisine ilişkin olarak ZDNet'e şunları söyledi: "Artan güce sahip olan jeneratif modellerde, adil kullanım ve kötüye kullanım endişelerimiz bulunmaktadır."

"Bu nedenle, bu teknolojiyi API aracılığıyla paylaşıyor ve özel beta ile başlatıyoruz," OpenAI ZDNet'e açıklamada bulundu. Şirket, "kişilere fiziksel veya zihinsel zarar verdiğini değerlendirdiğimiz kullanım durumlarını desteklemeyeceğiz, bunlar arasında taciz, kasıtlı aldatma, radikalleşme, astroturfing veya spam gibi durumlar yer alıyor" şeklinde belirtti.

OpenAI, ZDNet'e söyledi, programdaki tehlikeleri tespit etmek için tanıdık bir şekilde beyaz şapka, siyah şapka savaş oyunlarını kullanmaktadır:

'Kırmızı takım' adını verdiğimiz bir ekip yayına sürdük. Sürekli olarak içerik filtreleme sistemini bozmakla görevlendirilirler, böylece modelin neden ve nasıl yanlış sonuçlar verdiğini daha iyi anlayabiliriz. Onun karşısında 'mavi takım' vardır, görevi önyargıyı ölçmek ve azaltmaktır.

Bir başka büyük sorun, GPT-3'ün çok geniş, en düşük ortak paydalı doğasıdır. Sadece koşullu olasılık eğrisinin en kalın kısmını pekiştirir. Uzun kuyruk denilen ve bazen bir kalın kuyruğu olan bir olasılık dağılımı vardır. Bunlar, dil kullanımının en yenilikçi örneklerini oluşturabilen daha az yaygın durumlardır. Bir toplumda en yaygın metni yansıtmaya odaklanarak yaratıcılığı ve keşfi dışlamak riski vardır.

Şu anda, OpenAI'nin bu soruna verdiği cevap, GPT-3'te ayarlanabilen bir sıcaklık değeri olarak adlandırılan bir ayar türüdür. Bu düğme ile oynayarak GPT-3'ü daha az olası kelime kombinasyonlarını seçmek üzere ayarlayabilir ve belki de daha sıra dışı metinler üretebilirsiniz.

Bir işletme için daha acil bir endişe, GPT-3'ü şirket özel verileriyle ayarlayamamaktır. Herhangi bir şeyi ayarlayamadan, örneğin endüstriyel bir alana özelleştirmek GPT-3 zordur. API hizmetini kullanan herhangi bir şirket, uygulanabilir hale getirmek için metni daha da çalıştırması gereken bir metinle sonuçlanabilir. Belki de Sapling gibi başlangıçlar, VAR'ların eşdeğerini çözecek bir ekosistem oluşturacaklar. Belki, ancak henüz görülmeye değer.

Eğer bu yeterince endişe verici değilse, bir de GPT-3'ün bir bulut hizmeti olarak bir "siyah kutu" olmasından kaynaklanan başka bir sorun var. Bu da, hizmeti kullanacak şirketlerin çıktıya nasıl ulaştığıyla ilgili hiçbir fikri olmadığı anlamına geliyor - özellikle önyargı sorunları düşünüldüğünde oldukça riskli bir durum. Sapling gibi GPT-3'ü geliştiren tarafaların ek katmanlar ekleyerek hizmeti geliştirmeleri aynı zamanda daha fazla karışıklığa da yol açabilir.

Siyah kutu konusunun bir alt bölümü olarak, GPT-3 bazen web'den emdiği şeyleri basitçe ezberleyebilir. Bu, telif hakkı sorunlarını ortaya çıkarır. Bir şirket, API hizmetinden telif hakkı olan bir materyali çıkartırsa, o şirket başka bir kuruluşun telif hakkını ihlal edebilir. Telif hakkı konusunda ZDNet'e konuşan OpenAI, GPT-3 tarafından üretilen metnin telif hakkının "kullanıcıya, OpenAI'ye ait olmadığını" belirtti. Bu durumun pratikte ne anlama geldiği henüz görülmüyor.

Anlık olarak, GPT-3'ü eğitmek ve çalıştırmak için gereken ölçeklendirme en büyük pratik kısıtlamadır. OpenAI, bu durumu resmi makalede de kabul etmektedir. Yazarlar, büyük modellerin maliyetinin üretilen çıktının değerine dayalı olarak zaman içinde nasıl amorti edileceğini hesaplamak için çalışma yapılması gerektiğini belirtmektedir.

Ayrıca: Hayır, bu yapay zeka cümlenizi tamamlayamaz

GPT-3 GERÇEKTEN ÖĞRENİYOR MU?

Kelimenin dar anlamını kullanarak, GPT-3, parametre ağırlıklarının otomatik olarak ayarlanması aracılığıyla eğitim verilerinin emilimi yoluyla öğrenme eylemi gerçekleştirir. Böylece dil modeli, sadece açık programlamasıyla erişilebileceğinden daha iyi bir hale gelir. Bu anlamda, GPT-3, bir insanın açık bir şekilde o fonksiyonu kodlamadan verileri dönüştürmek için bir fonksiyon öğrenebilecek bir bilgisayar arayışının onlarca yıllık bir ilerlemesidir.

Bununla birlikte, biri makinenin gerçekten zeki olduğunu veya gerçekten öğrendiğini sormaktadır. Bu konuyu tartışmanın birçok yolu vardır, ancak düşünce birçok durumda insan düşüncesi olarak adlandırabileceğimiz birçok şey burada gerçekleşmez gibi görünmektedir.

Düşünün, beyninizde kelimelerin birbiriyle birlikte ne kadar sıklıkta ortaya çıkabileceğine dair bir sayısal bir puan tutabilseydiniz. Kelimeleri cümleler, paragraflar ve tüm metin bloklarıyla birleştirebilme yeteneğinizin düşünceli olduğunu mu söylerdiniz? Muhtemelen onun sadece istatistiksel olduğunu ve başka bir şeyin eksik olduğunu söylersiniz.

Derin öğrenmeyle ünlü Alman at Clever Hans arasında karşılaştırmalar yapılmıştır. Sahibi onu kamusal alanda topluma sergileyebilen bir hayvan olarak göstermiş ve ayaklarıyla aritmetik yapabilen bir hayvan olarak tanıtmıştı. Daha sonra keşfedildi ki Hans, sahibinin bedensel işaretlerine tepki vererek ayaklarını vuruyordu ve işaretler olmadan performans sergileyemiyordu.

Benzer şekilde, GPT-3'ün insan kalitesi daha yakından incelendiğinde bozulur. GPT-3, New York emlakı hakkında bir makaleye dair doğru-yanlış bir soruyu doğru bir şekilde cevapladığında, bunun nedeni programın emlak veya New York hakkında bilgi sahibi olması değildir. Program, metinlerdeki iddiaları yakalayan olasılık dağılımını ve bir ifade-soru çiftinin formatını depolamıştır ve çıktıda onları yansıtabilir.

Hans, aritmetik hakkında hiçbir şey bilmiyordu, ancak Hans'ın savunmasında, yine de zekası vardı. Sinir ağları durumunda, eleştirmenler sadece hilelerin olduğunu söyleyeceklerdir, hiçbir mantık olmadan.

Yine de, zeka ve öğrenme birçok şey ifade edebilir ve yapay zeka için nelerin beklenmesi gerektiği konusundaki hedefler yıllar içinde değiştiğini, alanın tarihçesi olan Pamela McCorduck'un işaret ettiği gibi. Bazıları, geniş metin birikimleri üzerinde olasılıkları hesaplayabilen bir programın, belki de kendi zekamızdan farklı bir tür zeka, belki de başka bir gezegenin zekası olabileceğini ileri sürebilir. Bu durumu erken bir aşamada reddetmek, aceleye gelmiş bir karar gibi görünebilir.

Ayrıca, bu koşullu olasılıklara neden olan sinir ağları yalnızca istatistik programlarından ibaret değildir. Hesaplamaları, aynı anda çoklu matematiksel işlemlerin paralel olarak gerçekleştiği, parametre ağırlıklarının ayarlanmasıyla ortaya çıkan bir olgunun sonucudur. Diğer zeka biçimlerini düşünmek mümkünse, sinir ağlarının içinde şekillenen dağıtılmış temsiller gibi bir ortaya çıkma özelliği buna bir yer olabilir.

GPT-3'ÜN GELECEĞİ NE OLACAK?

Bir şey kesin gibi görünüyor: GPT-3, makine öğreniminde yeni bir sayfa açmıştır. En çarpıcı özelliği genellemesidir. Sadece birkaç yıl önce, sinir ağları belirli bir göreve (çeviri veya soru cevaplama gibi) uyacak şekilde ayarlanmış fonksiyonlarla inşa ediliyordu. Veri kümesi, o görevi yansıtacak şekilde düzenlenirdi. Bunun yerine, GPT-3ün göreve özgü fonksiyonları yoktur ve özel bir veri kümesine ihtiyaç duymaz. Sadece mümkün olduğunca çok metin yutar ve çıktısında aynısını yansıtır.

Bir şekilde, tüm o gigabaytlarca metin üzerindeki koşullu olasılık dağılımının hesaplanmasında, herhangi bir görevde rekabetçi cevaplar üretebilen bir fonksiyon ortaya çıkar. Bunun, muhtemelen önünde birçok başarı yılı olan soluksuz bir basitleşme zaferidir.

Bununla birlikte, o genelleme bile sınırlarına ulaşabilir. Zaten, GPT-3'ün yazarları makalelerinin sonunda önceden eğitim yönünün zamanla enerjisini kaybedebileceğini belirtiyorlar. "Bu makalede açıklanan genel yaklaşımın daha temel bir kısıtlaması [...], önceden eğitim amacının sınırlarıyla karşılaşması (veya zaten karşılaşmış olması) olabilir."

Yazarlar, "insanlardan hedef fonksiyonu öğrenmek" ve DeepMind'in AlphaZero'sunda satranç ve go oyununda kazanmak için kullanılan "pekiştirme öğrenme" yaklaşımı gibi diğer türlerde derin öğrenmeyi karıştırmak gibi umut verici yeni yönelimlerin olabileceğini öneriyor. (Bu tür yaklaşımları uygulamaya başlamışlardır. Eylül ayının başlarında, OpenAI yazarları GPT-3'ü daha iyi makale özetleri üretmek için pekiştirme öğrenme kullanarak eğitebildiklerini gösterdi. Dil modeline daha iyi görünen özetlemeler konusunda insan geri bildirimleri vererek.)

Başka bir şey önerdikleri ise programın "dünyanın modelini" doldurmak için resimler gibi diğer veri tiplerinin eklenmesidir.

Gerçekten de, gelecek yıllarda bu çok genel yaklaşımın metinlerden başka görüntü ve video gibi diğer biçimlere yayılması muhtemel. GPT-3 gibi bir program hayal edin; iki arasındaki ilişkiyi modellemek için herhangi bir özel algoritma olmadan görüntüleri kelimelere ve kelimeyi görüntülere çevirebilir. Örneğin, fotoğraflardan metin tabanlı sahne açıklamalarını "öğrenebilir" veya metin açıklamalarından fiziksel olayların sıralamalarını tahmin edebilir.

Facebook AI direktörü Yann LeCun, çeşitli şekillerde gözetimsiz eğitimin derin öğrenmenin geleceği olduğunu savunmuştur. Eğer bu doğruysa, sesin, metnin, görüntünün ve videonun dahil olduğu çoklu modalitelerle yapılan ön eğitim yaklaşımı, gözetimsiz dalganın çok umut verici bir gelecek yönü olarak görülebilir.

GPT-3 Nedir? OpenAI'nın devrim niteliğindeki yapay zeka dil programı hakkında işletmenizin bilmesi gereken her şey