• ciro tahmini, gelir tahmini gibi sürekli bir çıktıyı tahmin etmek için kullanılan, girdilerin normal dağılmış olması gibi bazı temel gereklilikleri sağlaması gereken modelleme/tahminleme yöntemi.
  • link'te python ile kolay ve öğretici bir uygulama örneği vardır.
  • iki değişken arasında doğrusal bir ilişki bulmaktır. başka deyişle, x-y koordinat sisteminde belirlenen rastgele (xi,yi) noktalarını mümkün olan en makul doğru denklemiyle ifade etmektir. "makul" demek bu doğruyu noktaların tam orasından geçirmek demek, ağırlık noktasını bulmak bir nevi.

    örneğin, koordinat sistemimizde rastgele 10 nokta olsun, bu noktaları en makul tek doğru denklemiyle nasıl ifade edebiliriz? bu doğruyu nasıl bulabiliriz? bir hata fonksiyonu yazıp onu minimize eden değerleri bularak.. bu tür fonksiyonlara maliyet fonksiyonu, kayıp fonksiyonu ya da cost function denir.

    doğrumuzu bulmak için şöyle bir algoritma kullanabiliriz;

    1. doğrunun genel denklemi y= ax +b şeklindedir

    2. elimizdeki her (xi,yi) değerini bu denkleme uygularız, olması gereken nümerik y değeri ile a,b ikilisine bağlı y değeri arasındaki farka hata deriz. örneğin hata1 = 3 - (a+b), hata2 = 5 - (a+4b) gibi 10 ayrı hata değeri buluruz. bu hata ifadelerinin hepsi a ve b bilinmeyenlerini içerir. onları bulacağız zaten.

    3. hataları direkt toplarsak negatif ve pozitif hatalar birbirini sönümleyeceği için sakat olur. hataların mutlak değerlerini alıp toplarsak olur gibi ama yüksek hataları daha kuvvetlendirmek, küçük hataların da toplam sisteme etkisini azaltmak için hataların karelerini toplamamız daha uygundur. hataların karelerini alıp toplarsak elimizde a, a^2, b, b^2 içeren bir polinom çıkar. özetle; 10 tane noktamız vardı, 10 tane hata ifadesi yazdık, 10'un da karesini alıp topladık.

    4. bulduğumuz bu hata polinomunun minimum noktasını bulursak, aslında hatayı minimum yapan a ve b değerlerini bulmuş oluruz. polinomun a ve b'ye göre türevlerini alır sıfıra eşitlersek elimizde 2 adet 2 bilinmeyenli denklem olur. a ve b'yi ortaokul matematiği yardımıyla buluruz. niye türev alıp sıfıra eşitledik peki? çünkü 2. dereceden denklemlerin grafiği hamam tası gibidir, değişimin en az olduğu yer tasın dibidir. tasın tam dibinde türev 0'dır. değişimin mahiyetini çözmek için türev aldık yani, türev değişim hızıdır nitekim.

    5. a ve b için nümerik değerleri bulduğumuzda y = ax +b denklemini yazabiliriz ve bu denklem, bizim dağınık 10 noktamız için en makul doğru denklemi olur.

    bu yaptığımız işleme doğrusal regresyon denir.
  • regresyon katsayısı hesaplamak için iki ayrı formül var.
    bunlardan bir tanesi
    b= regresyon katsayısı
    r = korelasyon katsayısı
    s_x = x standart sapması
    s_y = standart sapması
    olmak üzere

    b = r*(s_y / s_x) olarak hesaplanır.
    bir örneği için : https://www.youtube.com/…channel=tezyardımplatformu

    ---
    edit : değerli arkadaşımız regresyon , girdide kullandığım regresyon katsayısı terimine binaen açıklama yolladı. ilgili kısmını paylaşıyorum.

    --- spoiler ---

    dogrusal bir regresyon modelinde , sabit katsayi terimi olan b0 ,x ve y degiskenleri arasindaki iliskinin yönünu ve gucunu aciklayan katsayi terimi olarak adlandirilan ise b1 dir. yani biz ona katsayi terimi diye hitap ederdik ve bu bir parametre olarak hesaplanirdi. onun disinda bir de hata terimi vardir.
    --- spoiler ---
  • y = m.x + b
  • doğada çok zor bulunur, bence doğrusal bir değişim nadirdir
  • (bkz: beta)
  • bağımsız girdi değişkenleri ve bağımlı çıktı değişkenleri arasındaki geçmiş ilişkiyi modellemek için kullanılan oldukça yorumlanabilir ve standart bir yöntemdir (çıktı değişkenleri sonsuz sayıda değere sahip olabilir) olası çıktı değişkenlerinin değerlerini tahmin etmeye yardımcı olur.
hesabın var mı? giriş yap