• her hareket sonunda bir ceza ya da ödül verilerek bir deneğin belli bir harekete ya da hareket dizisine koşullanabileceği fikrinden ortaya çıkar.

    başlangıçta her durum da yapılabilecek her harekete rastgele bir utility değeri atanır. rastgele bir başlangıç durumundan başlayarak hareket edilmeye başlanır. bir durumda bir hareket yapıldığında ödül ya da ceza alınıyorsa o hareketin utility değeri bir formüle göre arttırılır ya azaltılır.

    metodun hareket seçimi, hangi hareketlerin utility değerlerinin değiştirileceği ve formülün nasıl uygulanacağı konularında bir çok varyasyonu vardır.

    en basit şekli q learning methodudur. bu metot öğrenme süreci sonsuza yaklaşırken en iyi hareket şekline doğru yaklaşmayı garanti eder.
  • http://www.cs.ualberta.ca/…book/ebook/the-book.html adresinden konu hakkında kapsamlı bir kitaba ulaşılabilir. online html versiyonu da mevcut.
  • "destekleyici/takviyeli öğrenme" olarak türkçeye çevrilebilir.
  • bir sistem tasarlıyorsun, sonra bu sistemi bir sürü kere oyuna sokman lazım ki öğrensin. karşısına geçip 1 milyon kere oynamayacaksın tabii, aynı sistemi birbiriyle kapıştırıyorsun, düşman belletiyorsun. çatır çutur dalıyorlar, daldıkça öğreniyorlar... efendim onlar kapışadursun, sen taksime gidiyor, 3-5 bira içip eve dönüyorsun. sonra bir de bakıyorsun, abooov, sistem dile gelmiş, "i know kung fu" diyor. sen de artık o bira kafasıyla, dönüş yolunda 10 liraya aldığın yuvarlak gözlüklerle, morpheus'a özenip, "show me!" mi dersin sisteme, orası sana kalmış.

    ben taksim'e gidiyorum ağalar.

    tanım: ml yaklaşımı.

    edit: himalaya
  • "deep reinforcement learning" yanlış algılama ile geleceğin nükleer savaşlarını başlatacak ilk yapay zekanın, tohumlanma aşaması...
  • exploration / exploitation kavramlarinin model training asamasinda dogru kurgulanmasinin da onemli oldugu bir aı/ml algoritmasi.

    ılk basta agent 'in durum hakkinda bilgisi olmadigindan rastgele secimler yapar, (bkz: exploration). zamanla daha onceki exploration'larin da isiginda daha cok educated guessler yapar, (bkz: exploitation). dolayisiyla bu algoritmanin ne zaman (bkz: exploration)larin azalip, (bkz: exploitation)larin artmasi ya da toplam secimlerin ne kadarinin (bkz: exploitation) olacagi gibi hyperparameterlari da vardir, standart aı/ml parametrelerine ek olarak.
  • bilinçsizce kullanıldığında istemediğiniz sonuçlara da yol açabilir. mesela evde bir şey yaparsınız, evi paylaştığınız kişi "neden şunu da yapmadın" der ve bir daha o şeyi yapmazsınız.
  • pratikte insan beynine giderek yaklaştığı (hedef, gözlem, tercih) söylenebilecek, machine learning'in alt kollarından biri.

    https://medium.com/…ki-fark-kapanırken-c0d0a6f7c2e8
hesabın var mı? giriş yap