yapay zeka

1513 entry daha

2 gündür gpt-2 diye yeni bir model konuşuluyor.

resmi olarak yayınlanmış bir model değil. farklı modelleri karşılaştırmaya izin veren chat lmsys sitesinde modellerin arasına eklenmiş.

redditte bir kullanıcı bunu farkedip başlık açıyor ve gpt-4'den daha iyi sonuç verdiğini farkediyor.

insanlar bunun gpt-4 ile 5 arasındaki bir model olduğunu düşünüyorlar.

openai ceosu sam altman'da bir tweet attı. bu modele karşlı özel bir ilgi olduğunu anlıyoruz ve bir nevi bu modelin arkasında olduklarını da doğrulamış olduklarını söyleyebiliriz.

gelelim gpt-2 modelinin neden ''farklı'' ve daha iyi olduğuna ;

reasoning veya akıl yürütme konusunda daha iyi. yapay zekanın en büyük problemlerinden birisi problem çözme ve mantıklı çıkarım yapabilmek.

--- spoiler ---
yapay zeka modelleri genelleme yapıyorlar, girdi kompleksleşmeye başladığında verdiği çıktı da çoğu zaman yanlış oluyor.

örnek : elma problemi.

bugün 2 elmam var, dün 1 elma yedim. kaç elmam var?

cevap 2 olması gerekiyor fakat yapay zeka modelleri bunu kavrayamıyor ve cevabı ilk seferde 1 buluyor. en gelişmiş modellerden olan llama3 cevabı 1 olarak verdi. görsel

soruyu detaylandırarak doğru cevaba ulaşabilirsiniz ama normal bir insan için bu soru ilk seferde çözüme ulaşmak için yeterli paramatrelere sahip olmalı.

gpt-2 burada problemi bir insan gibi akıl yürüterek ilk seferde doğru çözüyor.

görsel

ikinci örneğimiz karakter sayısı tespit etme kabiliyeti. çok basit bir işlem olmasına rağmen gpt4 dahil en iyi modeller doğru sonuca ulaşamıyor.

örneğin 40 karakterli bir metin için hepsi yanlış cevapla veriyorken gpt-2 ilk denemede doğru cevabı veriyor.

görsel
--- spoiler ---

birçok kullanıcı da farklı örneklerle mevcut modellerden daha iyi cevap alabilmiş.

model şuan çok çok yavaş ve limitli, sürekli meşgul olduğu için test etmek de zor.

her zamanki gibi bir overhype durumu da söz konusu gözüküyor.

en önemli nokta modelin boyutu.

şuanda bu versiyonun boyutu bilinmiyor.(parametre sayısı) gpt-2'nin 2019 yılında çıktığında boyutu 1.5 milyar parametreydi.

bu ''yeni'' modele tamamen aynı şekilde gpt-2 denilmiş olmasının sebebi bunun da 1.5 milyar parametre veya yakını bir büyüklüğe sahip olması olabilir.

işte bu çok şeyi değiştirir.

neden?

-gpt-4 1.76 trilyon parametreden oluşuyor.

-llama3 gpt-4'den 1 yıl sonra çıktı ve 70 milyar parametre ile yani 20 kat daha düşük parametre ile gpt-4 seviyesine yaklaşabiliyor.

eğer gpt-2 1.5 milyar parametre kullanarak gpt-4 seviyesine ulaşabiliyorsa müthiş bir gelişme.

yüzlerce kat daha az parametre kullanarak aynı veya daha iyi kalite çıktı alıyorsunuz.

bu modellerde parametre sayısı doğrudan modelin harcadığı sistem gücünü etkiliyor.

yani gpt-4 ile 1 çıktı için 100 watt enerji harcıyorsanız şimdi aynı kalitede bir çıktı için belki de 1 watt enerji harcayacaksınız.

bu ihtiyaç duyulan işlem gücünü de düşürüyor.

modeli çalıştırmak için süper bilgisayara ihtiyacınız olduğu noktadan cep telefonunuzda çalıştırabileceğiniz noktaya....

(llama3 modeli cep telefonunda offline olarak çalıştırılabiliyor.)

doganumut

30.04.2024 17:51