• her hareket sonunda bir ceza ya da ödül verilerek bir deneğin belli bir harekete ya da hareket dizisine koşullanabileceği fikrinden ortaya çıkar.

    başlangıçta her durum da yapılabilecek her harekete rastgele bir utility değeri atanır. rastgele bir başlangıç durumundan başlayarak hareket edilmeye başlanır. bir durumda bir hareket yapıldığında ödül ya da ceza alınıyorsa o hareketin utility değeri bir formüle göre arttırılır ya azaltılır.

    metodun hareket seçimi, hangi hareketlerin utility değerlerinin değiştirileceği ve formülün nasıl uygulanacağı konularında bir çok varyasyonu vardır.

    en basit şekli q learning methodudur. bu metot öğrenme süreci sonsuza yaklaşırken en iyi hareket şekline doğru yaklaşmayı garanti eder.
  • bir sistem tasarlıyorsun, sonra bu sistemi bir sürü kere oyuna sokman lazım ki öğrensin. karşısına geçip 1 milyon kere oynamayacaksın tabii, aynı sistemi birbiriyle kapıştırıyorsun, düşman belletiyorsun. çatır çutur dalıyorlar, daldıkça öğreniyorlar... efendim onlar kapışadursun, sen taksime gidiyor, 3-5 bira içip eve dönüyorsun. sonra bir de bakıyorsun, abooov, sistem dile gelmiş, "i know kung fu" diyor. sen de artık o bira kafasıyla, dönüş yolunda 10 liraya aldığın yuvarlak gözlüklerle, morpheus'a özenip, "show me!" mi dersin sisteme, orası sana kalmış.

    ben taksim'e gidiyorum ağalar.

    tanım: ml yaklaşımı.

    edit: himalaya
  • http://www.cs.ualberta.ca/…book/ebook/the-book.html adresinden konu hakkında kapsamlı bir kitaba ulaşılabilir. online html versiyonu da mevcut.
  • bir excel tablosu yapin.

    sutunlara eylem (action) leri, satirlara da durum (states) lari koyun.

    bu tablonun her hucresini ilgili durumda hangi eylemin en basarili sonucu verebilme ihtimali olacak sekilde doldurursaniz, bu en basitinden bir q learning (modelsiz rl) olur.

    wiki linki

    bu hucreler nasil mi dolduracak? her denemede deki odul/ceza sonuca gore. formul linkte.
  • exploration / exploitation kavramlarinin model training asamasinda dogru kurgulanmasinin da onemli oldugu bir aı/ml algoritmasi.

    ılk basta agent 'in durum hakkinda bilgisi olmadigindan rastgele secimler yapar, (bkz: exploration). zamanla daha onceki exploration'larin da isiginda daha cok educated guessler yapar, (bkz: exploitation). dolayisiyla bu algoritmanin ne zaman (bkz: exploration)larin azalip, (bkz: exploitation)larin artmasi ya da toplam secimlerin ne kadarinin (bkz: exploitation) olacagi gibi hyperparameterlari da vardir, standart aı/ml parametrelerine ek olarak.
  • pratikte insan beynine giderek yaklaştığı (hedef, gözlem, tercih) söylenebilecek, machine learning'in alt kollarından biri.

    https://medium.com/…ki-fark-kapanırken-c0d0a6f7c2e8
  • (bkz: game testing) için oldukça yararlı olduğunu öğrendiğimdir. bir oyunu daha kapsamlı bir şekilde state testi yapmak istiyorsanız bunun yolu game tester sayısını arttırmak ve manuel test yapmak değilmiş. onun yerine rl tekniğiyle programladığınız bir agentı çalıştırmak işinizi görecektir. reward fonksiyonu iyi yazılmış bir agent gerçek bir oyuncu gibi davranacak ve sonucunda exploit ve bugları keşfetmenize yardımcı olacaktır. tüm agentları paralel çalıştırabilirsiniz. sonucunda agentın hareketlerini augment ettiğinizde kümülatif bir sonuç görebilirsiniz. agentın oyunun en çok neresinde takıldığını görebileceğinizden bu aynı zamanda oyunun zorluk değerlendirmesi için de kullanılabilir.
  • "destekleyici/takviyeli öğrenme" olarak türkçeye çevrilebilir.
  • http://incompleteideas.net/…k/rlbook2018trimmed.pdf bu alanın bible'ı denilebilir bu kitap için.
  • elini, yanan sobaya degmemesi gerektigini, eli yanarak ogrenen cocugun yasadigi ogrenme. annesinin "sobayi elleme elin yanar" sozunu dinleyerek ogrenmesi ise supervised learning denilen ogrenmedir.
hesabın var mı? giriş yap