reinforcement learning

her hareket sonunda bir ceza ya da ödül verilerek bir deneğin belli bir harekete ya da hareket dizisine koşullanabileceği fikrinden ortaya çıkar.

başlangıçta her durum da yapılabilecek her harekete rastgele bir utility değeri atanır. rastgele bir başlangıç durumundan başlayarak hareket edilmeye başlanır. bir durumda bir hareket yapıldığında ödül ya da ceza alınıyorsa o hareketin utility değeri bir formüle göre arttırılır ya azaltılır.

metodun hareket seçimi, hangi hareketlerin utility değerlerinin değiştirileceği ve formülün nasıl uygulanacağı konularında bir çok varyasyonu vardır.

en basit şekli q learning methodudur. bu metot öğrenme süreci sonsuza yaklaşırken en iyi hareket şekline doğru yaklaşmayı garanti eder.

deniz feneri

14.06.2005 13:22
http://www.cs.ualberta.ca/…book/ebook/the-book.html adresinden konu hakkında kapsamlı bir kitaba ulaşılabilir. online html versiyonu da mevcut.

aysegul ben groupie oldum

01.05.2006 03:36 ~ 21:36
"destekleyici/takviyeli öğrenme" olarak türkçeye çevrilebilir.

sleepy99

06.04.2007 11:23
bir sistem tasarlıyorsun, sonra bu sistemi bir sürü kere oyuna sokman lazım ki öğrensin. karşısına geçip 1 milyon kere oynamayacaksın tabii, aynı sistemi birbiriyle kapıştırıyorsun, düşman belletiyorsun. çatır çutur dalıyorlar, daldıkça öğreniyorlar... efendim onlar kapışadursun, sen taksime gidiyor, 3-5 bira içip eve dönüyorsun. sonra bir de bakıyorsun, abooov, sistem dile gelmiş, "i know kung fu" diyor. sen de artık o bira kafasıyla, dönüş yolunda 10 liraya aldığın yuvarlak gözlüklerle, morpheus'a özenip, "show me!" mi dersin sisteme, orası sana kalmış.

ben taksim'e gidiyorum ağalar.

tanım: ml yaklaşımı.

edit: himalaya

thorn pyros

16.04.2014 20:20 ~ 20:25

https://en.wikipedia.org/…ki/reinforcement_learning

spacetimereality

02.11.2016 00:46
"deep reinforcement learning" yanlış algılama ile geleceğin nükleer savaşlarını başlatacak ilk yapay zekanın, tohumlanma aşaması...

dort32one

04.01.2017 12:23
exploration / exploitation kavramlarinin model training asamasinda dogru kurgulanmasinin da onemli oldugu bir aı/ml algoritmasi.

ılk basta agent 'in durum hakkinda bilgisi olmadigindan rastgele secimler yapar, (bkz: exploration). zamanla daha onceki exploration'larin da isiginda daha cok educated guessler yapar, (bkz: exploitation). dolayisiyla bu algoritmanin ne zaman (bkz: exploration)larin azalip, (bkz: exploitation)larin artmasi ya da toplam secimlerin ne kadarinin (bkz: exploitation) olacagi gibi hyperparameterlari da vardir, standart aı/ml parametrelerine ek olarak.

hicbirseybilmeyenadam

25.06.2017 19:57
(bkz: yapay zekaya uygulanan ödüllendirme algoritması)

matilda effect

15.07.2017 18:08
bilinçsizce kullanıldığında istemediğiniz sonuçlara da yol açabilir. mesela evde bir şey yaparsınız, evi paylaştığınız kişi "neden şunu da yapmadın" der ve bir daha o şeyi yapmazsınız.

dusunmeyenadam

03.10.2017 17:21
pratikte insan beynine giderek yaklaştığı (hedef, gözlem, tercih) söylenebilecek, machine learning'in alt kollarından biri.

https://medium.com/…ki-fark-kapanırken-c0d0a6f7c2e8

lvs

23.11.2017 18:14