• bağımlı değişkenin* sürekli olması varsayımının bozulduğu zaman uygulanan bir regresyon çeşididir.

    y = ax1+ bx2 +cx3 + e

    şeklinde olan bir modelin bağımlı değişkeni* kesikli* olunca eşitliğin diğer tarafı* eksi sonsuz ile artı sonsuz arasında değişecektir. kesikli yani belli iki sayı yada durum arasında değişen** y ile bir eşitlik sağlanamayacaktır. bu durumda iki tarafıda sonsuza uzatmak için iki tarafında logaritması alınarak belirli bir dönüşüm uygulanır. bu dönüşümle çıkan modele logit model denir. analizde ismini bu modelden alır.

    normal regresyon ile hesaplanamayan değişkenler arası ilşikileri bulmaya yarar. tahmin veya öngörü yapmak mümkün değildir.
    bu analizle bağımsız değişken parametreleri bilinen şeyin belli bir hata payıyla* hangi gruba gireceği anlaşılabilir. **

    (bkz: regresyon)
    (bkz: regresyon analizi)
  • bagimli degiskenin continous degil de discrete oldugu durumlarda kullanilir. machine learning dunyasinda classification problemlerinde kullanilir. mesela linear regresyon bir kisinin yasi, cinsiyeti, tamamladigi egitim yili sayisi gibi bagimsiz degiskenleri kullanarak kisinin maasini takip etmek icin kullanilirken, logistic regresyon bagimsiz degiskenin kategorik olarak adalandirilacagi durumlarda kullanilir. benim bildigim 3 tipi vardir: binomial, ordinal ve multinomial.

    binomial en cok bilinen ve kullanilan yontemdir. bagimli degiskenin 2 deger aldigi durumlarda kullanilir. mesela a kisinin secimlerde oy verip vermemesini belirli faktorlere bagli olarak takip etmek istiyorsak bu yontemi kullaniriz. en iyi uygulamasi arastirdigimiz olaya 1, digerine ise 0 vermektir.

    multinomial ise bagimli degiskenin 2den fazla deger aldigi durumlarda olur. mesela a kisinin restaurantda hangi yemegi siparis edecegini(pizza, makarna ve salata arasindan( bu yontemle tahmin etmeye calisabiliriz.

    ordinal ise bagimli degiskenin sirali deger aldigi durumlarda kullanilir. mesela 3lu likert skalasini bagimli degisken olarak alirsak bu metodu kullanmak uygun olur. ornek olarak bir insanin hayatindan ne kadar memnun oldugunu -hic memnun degil , memnun degil, memnun, cok memnun- seklinde olctugumuz durumda kisinin maasi, evlilik durumu gibi degiskenler ile bunu olcebiliriz.

    lojistik regresyonun en onemli sikintiarindan birisi coefficentlarin anlamsiz olmasidir. anlamsiz derken istatistiksel anlamsizliktan degil mantiksal anlamsizliktan bahsediyorum. mesela binomial lojistik regreyon yaptiniz ve bagimsiz degiskeninizin sonucu 0.104 cikti. eger linear regresyon yapmis olsaydik bunu rahatca yorumlayabilirdik ama konu lojistik olunca ayni sey olmuyor. bunu bu sekilde belirttiginiz zaman okuyan herkes "so what?' diyecektir. buna cozum olaraksa psikologlar ve tipcilar odds ratio, iktisatcilar ise marginal effects kullanir. odds ratio her ne kadar coefficent yorumlamaya gore daha aciklayici olsa bile yine cok sade degildir. bu konuda internette gordugum bir ornegi begendigim icin onu kullanmak istedim. hastanede hastalari 2 gruba ayirdigimizi ve 1 gruba ilac digerine ise placebo verdigimizi dusunelim. placebo grubunda hastlarin %50si olurken, ilac grubunda hastalarin %25i oluyor olsun. buradan odds ratio hesapladik. ikinci durumda ise yine ayni ornekten bakacak olursak placebo gurubundaki hastlarin %5i, ilac grubundaki hastlarin ise %2.5i oluyor olsun. burada da odds ratio hesaplayalim. simdi ikisinin de odds ratiosu ayni cikiyor. ancak bir yerde arada %25lik cok ciddi bir fark varken diger yerde %2.5lik bir fark var. tip bilimlerinde hala cok ciddi bir fark ancak bu sayilari %0.00000005 olarak yazsam da bir sey degismeyecek.

    bu noktada ise marginal effects devreye giriyor. margianal effects size olasilikda yasanan degisimi soyluyor. boylece magnitude konusunda da cikarimlar yapmaniza olanak sagliyor. daha iyi bildigim oy verme alanina donecek olursam, mesela egitim yilini hesaba katalim. eger egitimin marginal effects degeri 0.03 cikarsa sunu diyebilirim. kisinin aldigi her 1 yillik egitim oy verme ihtimalini %3 arttiriyor. yani 12 yillik egitim almis birisi hic almamis birisine gore %36 daha fazla oy verme ihtimaline sahip. boylece gayet anlasilir bir cikarim yapabiliyorsunuz.

    binomial lojistik regresyona ise siyaset bilimi ve iktisat alaninda karsi bir rakip var. linear probability model. aslinda bildigimiz linear regresyon ancak bagimli degisken degerleri 0 ve 1 oldugu icin ayni marginal effectsde oldugu gibi yuze ihtimalleri ustunden gidiyor. lojistik coefficinetlari gibi sacmaliklara ugrasmaya gerek olmadigi icin insanlar tarafindan tercih ediliyor ancak 2 sikintisi var heteroscedasticity ve 0dan dusuk veya 1den daha yuksek cikan ihtimaller. heteroscedasticity sorunu cozulur ondan dolayi problem degil ancak 0dan ve 1den buyuk cikan olasiliklar komik duruyor. siz yine de marginal effects ile lojistiginizi yapin ve linear probability model(lpm)'i appendix kisminda destekleyici olarak verin.

    son olarak marginal effects'in yani sira lojistik regresyon yaparken robust standard errorleri verin. bagimli degiskeniniz binary oldugu icin heteroscedasticity problemi olacaktir. bunun yanisira yukarida verdigim anket orneginde oldugu gibi yuksek orneklemli durumlarda heteroscedasticity cikma ihtimali daha yuksek derler. ondan dolayi buyuk bir anket datasi ustunden calisiyorsaniz kullanmaniz zorunlu gibi.

    bu yukarida dediklerimi stata'da cok rahatca yapabilirsiniz. python icin henuz bakmadim ama r icin 'margins' , 'mfx' paketleri var. mfx hem robust se hem de marginal effects icin ise yariyor.
  • bir uğur ışılak şiiri.
  • (bkz: odds ratio)
  • tam anliyorum derken ve eksi sözlükteki entry'leri okurken daha da tam anliyorum derken tekrar kafamin karistigi regresyon turu. yorumlamasi da farkli imis ustelik. sıkıntı entry'lerde degil, sonradan bu islere baslayan benimgibilerde..
  • bir firmanın, müşterilerinin kendisini terk etme eğilimini ölçebilmesine yardımcı olan fonksiyonel kalıptır.
    bunun için daha önce terki diyar etmiş ve etmemiş müşteriler bir araya getirilerek lojistik regresyon uygulanır ve bu müşterilere en uygun fonksiyonel kalıp bulunur. modelin çıktısı müşterinin terk etme olasılığıdır.
  • lojistik regresyon, bir sonucu belirleyen bir veya daha fazla bağımsız değişken bulunan bir veri kümesini analiz etmek için kullanılan istatistiksel bir yöntemdir. sonuç, ikili bir değişkenle ölçülür (yalnızca iki olası sonuç vardır). denetimli bir sınıflandırma algoritmasıdır. (supervised classification algorithm).
    link'teki videoda lojistik regresyonu da içeren örnek bir topluluk öğrenimi uygulaması bulunmaktadır.
    topluluk öğrenimi (ensemble learning), bir veri kümesi üzerinde daha iyi tahminler yapmaya çalışmak için birden çok makine öğrenimi modeli kullanır. bir topluluk modeli, bir veri kümesi üzerinde farklı modelleri eğiterek ve her modelin ayrı ayrı tahminler yapmasını sağlayarak çalışır. bu modellerin tahminleri daha sonra nihai bir tahmin yapmak için topluluk modelinde birleştirilir.
    her modelin güçlü ve zayıf yönleri vardır. topluluk modelleri, tek bir modelin zayıf yönlerini gizlemeye yardımcı olmak için bireysel modelleri birleştirerek faydalı olabilir.
    videoda, topluluk modelinin çoğunluk oyu ile tahminde bulunduğu bir oylama sınıflandırıcısı (voting classifier) kullanılmıştır.
    sınıflandırıcıya yerleştirmek için üç farklı model uygulanmıştır: k-en yakın komşular (k-nearest neighbors), rastgele orman (random forest) ve lojistik regresyon. bu yöntemler, örnek olarak seçilen diyabet veri setine uygulamak için python'daki scikit-learn kitaplığı kullanılmıştır.
  • regresyon analizinde olay başına kaç tane parametre alınabileceği hala tartışılan bir konudur. sıklıkla 10:1 veya 15:1 oranları kullanılsa da, vittinghoff ve ark. yaptıkları bir çalışmada bu kuralın kısmen de olsa esnetilebileceği ve tip ı hatanın 5:1 oranına kadar önemli düzeyde olmayabileceği gösterilmiştir. burada önemli olan, parametrelerin olgu başına değil olay başına alınmasıdır.

    küçük örneklem gruplarında çalışma yapmak zorunda kalan tüm yazar arkadaşlara selam olunur.
  • çok değişkenli verileri gruplandırmak için, özellikle bağımlı değişken sürekli değilse, ideal bir yöntemdir.. zira bu analizde bağımlı değişken bir olayın beklenen gerçekleşme olasılığını verir.. bu da olaylar tanımlandığı takdirde ideal bir gruplama, sınıflandırma yöntemi çıkarır ortaya.. diskriminant analizinde istenen çoklu normallik, varyansların ve kovaryansların eşitliği, denkliği gibi varsayımları gerektirmez.. zaten kesikli bir dağılımın, bernoulli olarak tanımlanan bağımlı değişkenin, varyansı binom dağılacağı, yani sabit olmayacağı ve bu durumdan dolayı hata değişkenlerinin sıfır ortalamalı normal dağılamayacaklarından dolayı bu tip verilere çoklu regresyon, diskriminant vb analizler uygulanmamalıdır da.. bir önemli özelliği de "least squares estimation" yerine "maximum likelihood estimation" ile tahmin işlemlerini yapmasıdır.. kikare uyumun iyiliği testi ile model, wald testi ile de değişkenlerin anlamlılığının kontrol edilebileceği iteratif bir analizdir..
  • bir grup bağımsız değişkenin (kategorik veya sürekli), kategorik (erkek-kadın, evli-bekar, hasta-sağlam) olan bir bağımlı değişkeni ne kadar predikte edebildiği anlamaya yarayan istatistiksel metot. multiple regresyondan farkı; multiple regresyonda bağımlı değişken sürekli bir değişkendir örnek 10-50 arası değerler alan bir skor olabilir. eğer bağımlı değişkeniniz sürekli bir değer değil kategorik bir diğerse bu durumda lojistik regresyon tercih edilmesi gereken yöntemdir. bu yöntemde bağımsız değişkenler kategorik de olabilir sürekli de olabilir. sample size yeterli büyüklükte olmalıdır. multicollinearity yani değişkenlerin kendi aralarındaki interkorelasyonları mutlaka kontrol edilmelidir.
    tıptan bir örnek; uyku ile ilgili bir anket çalışmasında katılımcılara uyku ile ilişkili sorunları olup olmadığı sorulmuş olsun. (evet hayır). cinsiyet, yaş, gecede kaç saat uyuyor, uykuya dalma güçlüğü var mı, uykuda kalmada sıkıntı var mı soruları da sorulmuş olsun.
    elimdeki değişkenler: problem with sleep recoded (probsleeprec): score recoded to 0=no, 1=yes, sex: 0=kadın, 1=erkek, yaş: yas, gecelik uyku süresi (uykusure):saat olarak yaz., uykuya dalma guclugu (uykudal): 0:yok 1:var uykuda kalma güçlüğü (uykukal) 0:yok 1:var
    örnek araştırma sorusu; hangi faktörler kullanıcıların uyku sorunu olup olmadığını görmekte prediktif değere sahiptir. bu soruya yanıt bulmak için ihtiyaçlarım: 1- bağımlı kategorik değişken (uyku hastalığı var-yok) kodlaması 1-0 2- 2 veya daha fazla sürekli veya kategorik bağımsız değişken. burada kategorikler 0-1 olarak (cinsiyet, uykuya dalmada güçlük vs.) olarak kodlanmalıdır. gerisini spss halledecektir.
hesabın var mı? giriş yap