• her hareket sonunda bir ceza ya da ödül verilerek bir deneğin belli bir harekete ya da hareket dizisine koşullanabileceği fikrinden ortaya çıkar.

    başlangıçta her durum da yapılabilecek her harekete rastgele bir utility değeri atanır. rastgele bir başlangıç durumundan başlayarak hareket edilmeye başlanır. bir durumda bir hareket yapıldığında ödül ya da ceza alınıyorsa o hareketin utility değeri bir formüle göre arttırılır ya azaltılır.

    metodun hareket seçimi, hangi hareketlerin utility değerlerinin değiştirileceği ve formülün nasıl uygulanacağı konularında bir çok varyasyonu vardır.

    en basit şekli q learning methodudur. bu metot öğrenme süreci sonsuza yaklaşırken en iyi hareket şekline doğru yaklaşmayı garanti eder.
27 entry daha
hesabın var mı? giriş yap