transformer

(bkz: seda sayan)

"seyircilerimiz için ramazan dekorundan birdenbire bayram dekoruna dönüştük..."

quant

22.12.2002 16:30
lou reed buyugumuzun walk on the wild side, satellite of love ve perfect day sarkilarina da ev sahipligi yapan 72 albumu.. produktor koltugunda da david bowie oturmaktadir..

aritmi

14.01.2002 14:19
"ilk olarak 2017 yılında google araştırmacıları tarafından hazırlanan attention is all you need makalesinde tanıtılan mimari özelliklerle tanımlanan derin öğrenme modeli. kodlayıcı-kod çözücü modellerinin özel bir örneğidir.

genel bir kodlayıcı/kod çözücü mimarisi iki modelden oluşur:

- kodlayıcı girişi alır ve sabit uzunlukta bir vektöre kodlar.
- kod çözücü bu vektörü alır ve çıkış dizisine çözer.

kodlayıcı ve kod çözücü, koşullu log-olabilirliği en aza indirmek için birlikte eğitilir. eğitildikten sonra kodlayıcı/kod çözücü, bir giriş dizisi verilen çıkış üretebilir veya bir çift giriş/çıkış dizisini puanlayabilir.

orijinal transformatör mimarisinde hem kodlayıcı hem de kod çözücü 6 özdeş katmana sahipti. bu 6 katmanın her birinde kodlayıcı iki alt katmana sahiptir:

- çok kafalı bir dikkat katmanı ve
- basit bir ileri besleme ağı.

her alt katmanın bir artık bağlantısı ve bir katman normalizasyonu vardır. kodlayıcının çıktı boyutu 512'dir. kod çözücü, kodlayıcının çıktısı üzerine başka bir çok kafalı dikkat katmanı olan üçüncü bir alt katman ekler. ayrıca, kod çözücüdeki diğer çok kafalı katman, sonraki konumlara dikkat edilmesini önlemek için maskelenir.

peki, dikkat nedir? özünde, dikkat fonksiyonu bir sorgu ve bir dizi anahtar-değer çifti ile bir çıktı arasında bir eşleme olarak düşünülebilir. çıktı, değerlerin ağırlıklı bir toplamı olarak hesaplanır; burada her bir değere atanan ağırlık, sorgunun ilgili anahtarla uyumluluk fonksiyonu tarafından hesaplanır. transformer'ler, ölçeklendirilmiş nokta çarpımı dikkati adı verilen belirli bir dikkat işlevinin paralel hesaplaması olan çok başlı dikkati kullanır.

dikkat katmanlarının tekrarlayan ve evrişimli ağlara göre çeşitli avantajları vardır; bunlardan en önemli ikisi:

- daha düşük hesaplama karmaşıklığı ve
- özellikle dizilerdeki uzun vadeli bağımlılıkları öğrenmek için yararlı olan daha yüksek bağlanabilirliktir.

orijinal transformer, özellikle ingilizce'den almanca'ya dil çevirisi için tasarlanmıştır. ancak orijinal makale, mimarinin diğer dil görevleri için de genelleştirilebileceğini göstermiştir. bu özel eğilim, araştırma topluluğu tarafından hızla fark edildi. sonraki birkaç ay içinde, dille ilgili herhangi bir makine öğrenimi görevi için liderlik tablolarının çoğu, transformer mimarisinin bazı versiyonları tarafından tamamen domine edildi.

transformer'lerin doğal dil işleme liderlik tablolarının çoğunu bu kadar hızlı bir şekilde ele geçirebilmesinin en önemli nedenlerinden biri, diğer bir deyişle transfer öğrenme olarak adlandırılan diğer görevlere hızlı bir şekilde adapte olma yetenekleridir.

önceden eğitilmiş transformer modelleri, üzerinde eğitilmedikleri görevlere son derece kolay ve hızlı bir şekilde adapte olabilir ve bunun büyük avantajları vardır. bir makine öğrenimi uygulayıcısı olarak, artık büyük bir veri kümesi üzerinde büyük bir modeli eğitmeniz gerekmez. tek yapmanız gereken, önceden eğitilmiş modeli görevinizde yeniden kullanmak, belki de çok daha küçük bir veri setiyle biraz uyarlamaktır.

önceden eğitilmiş modelleri farklı bir göreve uyarlamak için kullanılan özel bir teknik, ince ayar^* olarak adlandırılır.

transformer'ların diğer görevlere uyum sağlama kabiliyetinin o kadar büyük olduğu ortaya çıktı ki başlangıçta dille ilgili görevler için geliştirilmiş olsalar da görme, ses ve müzik uygulamalarından satranç oynamaya veya matematik hesapları yapmaya kadar değişen diğer görevler için hızla yararlı hale geldiler.

elbette tüm bu uygulamalar, onları birkaç satır kod yazabilen herkesin kullanımına hazır hale getiren sayısız araç olmasaydı mümkün olmazdı. transformer'lar yalnızca ana yapay zeka çerçevelerine, yani pytorch ve tensorflow'a hızla entegre edilmekle kalmadı, aynı zamanda tamamen bu alanda hizmet sunun bir şirketin kurulmasını bile sağladılar. bugüne kadar 60 milyon doların üzerinde fon toplayan bir girişim olan huggingface, neredeyse tamamen açık kaynaklı transformer kütüphanesini ticarileştirme fikri üzerine inşa edildi.

son olarak, gpt-3'ün transformer'ların popülerleşmesi üzerindeki etkisi büyüktür. gpt-3, openai tarafından mayıs 2020'de, daha önceki gpt ve gpt-2'nun devamı olarak tanıtılan bir transformer modelidir.

şirket, modeli tanıtarak büyük bir sıçrama yaptı. o zamandan bu yana, model yalnızca piyasaya sürülmekle kalmadı, aynı zamanda openai ve microsoft arasındaki çok büyük bir ortaklıkla ticarileştirildi.

gpt-3 300'den fazla farklı uygulamaya güç sağlamaktadır ve openai'ın ticari stratejisinin temelini oluşturmaktadır.

rlhf (reinforcement learning from human feedback), son zamanlarda yapay zeka araç setine yapılan büyük bir katkıdır. yakın zamanda chatgpt'ye, ayrıca blenderbot3 ve sparrow gibi benzer diyalog araçlarına uygulanmıştır.

fikir oldukça basittir: bir dil modeli önceden eğitildikten sonra, bir diyaloğa farklı yanıtlar üretebilir ve insanların sonuçları sıralamasını sağlayabiliriz. bu sıralamaları, pekiştirmeli öğrenme^* bağlamında bir ödülü eğitmek için kullanabiliriz.

difüzyon modelleri^*, gan'lar^* gibi önceki yaklaşımları açıkça bir kenara iterek görüntü oluşturmada en yeni ve gelişkin yöntem haline gelmiştir.

difüzyon modelleri, varyasyonel çıkarımla eğitilmiş bir gizli değişken model^* sınıfıdır. bunun pratikteki anlamı, bir tür gürültü fonksiyonuyla bulanıklaştırılmış görüntüleri denoize etmek için bir derin sinir ağını eğitmemizdir. bu şekilde eğitilen ağlar aslında bu görüntülerin neyi temsil ettiğine dair gizli uzayı öğrenmektedir."

https://arxiv.org/pdf/2302.07730v2.pdf

not: çevirideki düzeltmeleri veya anlamı daha iyi ifade etmek için önerilerinizi bildirebilirsiniz.

maidis

17.07.2023 15:52
doğal dil işleme alanına devrim yaratan bir yapay sinir ağı mimarisi. temel fikri recurrent ve convolutional modülleri kaldırıp self-attention blokları ile değiştirmek. detaylar için ilgilileri buraya alalım.

~2 sene sonra gelen edit: computer vision alaninda da feci yayginlasti. bu ne lan.

swingdiablo

14.10.2019 21:42 ~ 04.07.2022 02:01

nlp yi domine ettikten sonra, an image is worth 16x16 words: transformers for image recognition at scale (`:https://arxiv.org/abs/2010.11929`) makalesiyle başlayan furya ile computer vision a da damga vurmaktadır. özellikle facebook un yayınladığı dıno modeli inanılmaz başarılı ve kullanımı çok kolaydır. gerçekten çok zekice tasarlanmış bir yapıdır. hayran olmamak elde değil…

boyumuz oyle kalmis

17.12.2021 01:12
(bkz: transformatör)

klovis

12.10.2004 12:39
soğuk bir günde tüm şehri keyifli ve vurdumduymaz bi şekilde yürütebilen enfes albüm. o kadar lezizdir ki, yollar aşındıkça tekrardan albümün başlangıcının geleceğini bilirsiniz. lou reed 'in külliyatının en özel albümüdür kentsel paradigmalarla bezenmiştir. ^* ^*

ruzgarli deniz kiyisi sendromu

26.02.2008 13:10
darpa tarafından üretilecek, pratt and whitney diesel wankel motoru ile çalıştırılacak, havada ve karada gidebilen bir savaş aracının kod adı tx yerine kullanılan takma adı.

roboute guilliman

08.12.2010 09:32
lou reed'in solo kariyerinin bir numarası [bir diğer lou reed klasiği için (bkz: berlin)]. 11 şarkıdan oluşan ve yetmişlerin en önemli rock albümlerinden biri olan bu değerli yapıt, reed'in yaptığı en özel şarkıların çoğunu barındırır. neler yoktur ki içinde; vicious, perfect day, walk on the wild side, satellite of love, wagon wheel...

1. vicious
2. andy's chest
3. perfect day
4. hangin' round
5. walk on the wild side
6. make up
7. satellite of love
8. wagon wheel
9. new york telephone conversation
10. i'm so free
11. goodnight ladies

kimi raikkonen

22.07.2006 12:24
sadece doğal dil işleme alanında değil bilgisayarlı görüde de kullanılmaya başlanan mimari. visual attention makalesi ve yeni çıkan transpose makalesinden görülebilir. normalde sekans modellerinde sekans içi ilişkileri işlerken convolution'ların yerini alabilmesi tamamen fotoğrafların flatten edilip normal sekans verisi gibi davranılması.
vgg, resnet gibi modelleri halihazırda nasıl fine tune edip ilk layer'lardaki genel örüntülerden faydalanıyorsanız gpt, bert gibi (gpt-3 için geçerli değil, hem openai izin vermiyor hem bilgisayarınız kaldıramaz, cluster'da da eğitmek mümkün değil) modellerde de ilk layer'larda dilin gramatik kuralları, syntax gibi bilgiler saklanıyor, fine tuning'le bu bilgileri makineye sıfırdan dil öğretmeden kullanabiliyorsunuz.

gradient dissent

29.12.2020 12:52