37 entry daha
  • istatistik ile bilgisayar bilimlerinin birleşimi olan alan. veride var olan örüntü* kullanılarak veriden bilgi çıkarılması olayıdır. makine öğrenmesi bu işe kural temelli* bir algoritma şeklinde bakarken istatistiksel öğrenme ise değişkenler arasındaki ilişkinin formüle edilmesi olarak bakar. ama temelde yapılan şey veriden öğrenmektir. aslında her ikisi de aynı şeyi yapmaktadır. günümüzde bunları kıyaslamanın da bir manası yok bence.

    nereden başlamalı ne yapmalı konusunda naçizane * fikirlerim ile 3 -5 link paylaşacağım. zira ben de yeni öğrenmekteyim.

    öğrenim açısından ilk tavsiyem bilgisayar mezunu istatistik yüksek lisansı, istatistik mezunu biri de bilgisayar yüksek lisansı yaparsa şu diyagramın büyük bir kısmını halletmiş olur zaten. bunu söylememin en büyük nedeni aha da bu. ha yüksek yapamıyor musunuz? misafir gidin, özel öğrenci olun vs. ama kıyısından köşesinden diğer pencereden bakmaya çalışın.

    coursera, udemy, udacity machine learning dersleri ile dolu. andrew ng bu işin piri. başlangıç için onun dersleri fena olmaz. ben yine de şöyle bir link bırakayım buraya.

    şu sıralar data science alanında en çok tartışılan şeylerden biri de python vs. r. ikisinden birini biliyorsanız tavsiyem diğerini de öğrenmeniz. ikisini de mi bilmiyorsunuz? hangisinden başlamalı konusunda fikir verebilir. ama ikisini de bilmek bence fazlasıyla avantajlı.

    r ya da python biliyorum diyorsanız da şu paketlere göz atabilirsiniz.
    r için <- data table, dplyr, caret, h2o, xgboost, ggplot2.
    python için = sklearn, h2o, xgboost, matplotlib, seaborn, numpy, pandas.

    uygulama kısmı bence en önemlisi. o kadar ders izledik, dersteki uygulamaları yaptık ama ben başka bi veri gelince yapamıyorum, eğitim verisinde çok iyiydim ama test verisinde sıçtım diyorsanız* çare kaggle. kaggle bi yeniliğe gitti ve artık veri setinizi paylaşabiliyorsunuz. tabi ki tüm olay bu değil. veri setlerini analiz etmek için yazdığınız kodları da (r, python ya da julia olabilir) notebook ya da markdown şeklinde paylaşabiliyorsunuz. dolayısıyla az çok problemlerin nasıl çözüleceğine dair fikir sahibi olabiliyor, "oha ulan ne kodlar var" diye içinizden geçirebiliyorsunuz. kaggle öğreticilik açısından çok iyi. mesela ben uygulamadan teoriye giden biri olduğum için çatır çatır çalıştırdığım kodlar ne yapıyor diye günlerdir kaggle forumlarını, xgboost dökümanlarını okuyorum. kaggle kesinlikle yatırım tavsiyesidir.

    reddit'in data is beautiful ve machine learning sub-reddit'leri takip etmelik yerler. yakın zamanda çıkan makale ıvır zıvırı kolayca takip edebilirsiniz buralardan.

    son olarak github'dan derlediğim awesome list vb. repo'lar. göz atmakta fayda var. kıpss ;)

    awesome machine learning

    dive into machine learning

    python machine learning

    machine learning tutorials

    machine learning for hackers

    data analysis and machine learning projects

    data science python

    not: başta belirttiğim gibi kişisel fikirlerim. o yüzden mahmut sen haksızsın ibne olmasın lütfen.

    edit: bu da #59687708 derin öğrenme için olanı.
  • #63835150 no'lu entry'de verdiğim linklere ek olarak birkaç kaynak daha paylaşacağım. ara ara bu tarz eylemlerim devam edecek. vatandaşa cart curt yok, vatandaş verisini analiz edecek!

    python'da scikit dökümanlarını takip ederek giden, türkçe videolu anlatımların olduğu bir youtube kanalı var. bu konularda türkçe materyal olması adına süper hareket!

    (yatırım tavsiyesi) edu uzantılı mailiniz ile github education'a üye olarak 1 ay boyunca udacity nanodegree programlarından faydalanabilirsiniz. misal. (tüyo: her derse kayıt olup sağ üstten download course materials)
    (bkz: github education pack)

    edit: githun education pack'ten udacity kısmını kaldırmış maalesef.

    genellikle r kullanıyorum o yüzden r ile ilgili birkaç paket önereceğim. şu sıralar caret paketine sardım. döküman desteği canavar. veri önişleme olayını çok kolay hale getiriyor. pek çok paket desteği var, 200 küsür algoritmayı çalıştırmanız mümkün. görselleri de lattice paketi ile yapıyor. ee daha nolsun? ensemble modeller kurmak isterseniz de caret ensemble adında bir paket mevcut. caret ile ilgili bir döküman daha

    rstudio'nun chief data scientist'i olan, rstudio'nun son yıllarda atağa kalkmasını sağlayan hadley * reyiz'in r for data science adında bir kitabı var. r ile bu işlere girişmek için güzel bir kaynak.

    aslında derin öğrenme konusu ama r'dan devam ediyorken belirtmek istedim. tensorflow ve keras için iki paket var. (tensorflow'u 64 bit windows'a kurabiliyorsunuz. tf kullanarak keras kurmanız da mümkün. dolayısıyla bu paketleri windows'da kullanabilirsiniz.)
    (bkz: tensorflow/@rahmetli de sollardi)

    amme hizmeti yapan, algoritmaları karşılaştıran machine learning benchmark repo'su var ki dadından yenmiyor.

    uygulama kısmı için kaggle'da güreş tutmalık iki yarışma var. biri house prices: advanced regression techniques diğeri de allah'ın emri olan titanic: machine learning from disaster veri setleri. her ikisinde de kayıp gözlemleri (missing values) tahmin etmek/doldurmak (imputation) gerekiyor. ayrıca regresyon ve sınıflama da yapılabilir. olay hep tahmin/sınıflama gibi gözükse de bi de işin görselleştirme kısmı var ki onlar için de güzel kernel'lar var (görselleştirmeye de değineceğim bi ara). bi de gözlem sayılarının (kaggle yarışmalarına göre) az olması itibariyle de bilgisayarı çok yormayacak veri setleri bunları. kernel'ler de mevcut. (kopya çekmek hiç bu kadar keyifli olmamıştı)
  • kaldığımız yerden* devam edelim.

    h2o ile başlayalım. pek çok dil için desteği var. (r, python, scala, java...) boosting, deep learning?!, random forest gibi algoritmalara sahip, aynı zamanda kümeleme, pca gibi denetimsiz öğrenme fonksiyonlarına sahip. "multi-thread" ve dağıtık sistemlerde çalışabiliyor. spark, kafka vb. yapılara entegre olabiliyor. yakın zamanda automl fonksiyonu eklendi. sizin için algoritmaları deniyor ve hatta bazılarını birleştirerek (stacking) size en uygun modeli çıkarıyor. genellikle ilk önceliğim olmamakla birlikte acaba h2o bu veride ne yapacuk acaba diye denerim.

    h2o için kaynaklar:
    https://github.com/h2oai/awesome-h2o
    https://github.com/h2oai/h2o-meetups
    https://github.com/h2oai/h2o-tutorials

    auto_ml: yine otomatize çalışmak içün yazılmış bir paket.

    tpot: aynısının laciverti.

    şindik ayrı bir alana atlayacağım lakin açıklamasını daha sonra yapma niyetindeyim. kaggle'da popüler olan çok güzel bir paket var: xgboost.
    gradient boosting kullanan ağaç tabanlı bir algoritma. boosting ve gradient boosting olayına başka bir entry'de değineceğim. şimdilik sadece paketlerden bahsedeyim.

    xgboost: aşağıda ekleyeceğim paketlerin babası sayılır. parametreler iyi ayarlandığında canavar gibi çalışıyor.
    (bkz: xgboost)

    catboost: yandex'in ortamlarda biz de varız demek için yazdığı paket. lightgbm ve xgboost'tan daha iyi olduklarını iddia ediyorlar (herkes ediyor zaten). fakat yandex'in ortamlarda biz de varız lafı boşuna değil. yandex school of data adı altında bu alanda kallavi bir eğitim veriyorlar.

    lightgbm: microsoft'un evet evet bildiğimiz microsoft'un boosting algoritması. açık kaynak kodlu falan hem de. microsoft'un revolution analytics ile r'a ortak olması sonrası biz bu veri madenciliğinin ekmeğini yeriz yaklaşımlarının sonucu. azure'dan da yardırıyorlar. hız konusunda en iyi olan algoritma bu diyebilirim.

    bu arada her üç paketin de gpu desteği var. cuda compute capability'si* yüksek olan ekran kartları ile performans cpu'ya oranla kat kat artıyor. ayrıca yine her üçü de r ve python ile çalışabiliyor.

    kendime not: boosting ile alakalı entry yazdığım vakit buraya bkz. gelecek.

    edit: boosting entry'si için (bkz: #74229193)

    buradan biraz akademiye atlayalım.

    journal of statistical software: yazılım odaklı bir dergi olduğu için konuyla alakalı bir de paket çıkmış oluyor. bazı makaleler paket için mükemmel bir döküman işlevi görüyor. çalıştığınız/merak ettiğiniz konularda bir şeylere denk gelirseniz tadından yenmez. el altında durmalık yer.

    journal of machine learning research: jstat kadar yazılım ağırlıklı olmasa da yine benzeri bir içeriğe sahip. arada bakmalık.

    akademiye dersler ile devam edelim:

    https://alliance.seas.upenn.edu/…=lectures.lectures

    http://www.cs.bilkent.edu.tr/…1-fall2016/index.html

    https://web.cs.hacettepe.edu.tr/…/vbm687/index.html

    https://web.cs.hacettepe.edu.tr/…s/fall2016/bbm406/

    https://work.caltech.edu/lectures.html#lectures

    şunu da güzel bir araştırma olarak araya sıkıştırıvereyim.

    takip etmelik bloglar & siteler:

    http://www.veridefteri.com/

    http://www.mln.io/resources/periodic-table/

    http://fastml.com/

    http://www.dataschool.io/

    https://stats.stackexchange.com/

    http://101.datascience.community/

    https://whatsthebigdata.com/

    https://www.dataquest.io/blog

    http://hunch.net/

    http://blog.revolutionanalytics.com/

    http://blog.yhat.com/

    büdüt: machine learning/@rahmetli de sollardi
  • son yıllarda data science ile birlikte dillerden düşmeyen disiplin. nam-ı diğer haşin lörning. tanımı da yaptığımıza göre yine yeniden bir derleme entry ile başlıktayım.

    kagglenoobs slack: kaggle'daki yetkili abiler* ile ama, yeni yarışma duyuruları, sorular vs. gibi içerikler var. kaggle'cılar için tavsiye.

    kaggle'dan data science lügatı: konu başlıklarına göre kaggle'daki kernel'lar.

    kaggle'a takılıyorsanız yarışma dinamiklerini, yarışma kazandıran taktikleri vs. anlattıkları bir coursera kursu var. how to win a data science competition: learn from top kagglers.

    kaggler: yine yeniden kaggle ile uğraşıyorsanız işinizi kolaylaştıran ve i/o, label encoding, hpo vb. işler için güzel bir paket.

    imo2020: araya türkçe kaynak sıkıştıralım. geçtiğimiz ocak ayında düzenlenen istanbul'da makine öğrenmesi eğitimi repo'su.

    the data engineering cookbok: data engineering konusunda isviçre çakısı gibi bir repo.

    chrisalbon.com: machinelearningflashcards olayını yapan abinin sitesi. kısa ama işe yarar notları var.

    fastai ml: jeremy howard'dan ml dersleri. anlatmaya gerek yok görüyorsunuz.
    bonus: awesome fastai

    interpretable machine learning: r uygulamalı açıklanabilir/yorumlanabilir ml kitabı.

    interpret: yine interpretable ml için bir repo. daha önce microsoft repo'sunun altındaydı.

    eli5: explain like i'm 5 mottosu ile modelleri açıklamanıza yarayan paket. nlp için özellikle açıklayıcı görseller oluşturabiliyorsunuz.

    lime: local interpretable model-agnostic explanations makalesine ait paket. yine kara kutu* modelleri açıklamak için*. makale.

    lofo-importance: "leave one feature out" olacak şekilde değişken önemi hesaplamanıza yarayan paket.

    shap: shapley additive explanations ile yine yeniden model açıklamak için bir paket. makale.

    xgbfir: xgboost modellerine ait değişken etkileşimlerini* hesaplayan paket. etkileşimleri incelereyerek yeni değişkenler oluşturabilirsiniz. kullanmasını bile adeta atom bonbası.

    laurae++: xgboost ve lightgbm kullanıyorsanız (özellikle native halini yani train fonksiyonu ile sklearn wrapper ile değil) parametreler hakkında detay bilgiye (ram'e etkisi, azı mı çoğu mu makbul gibi) erişebilirsiniz. laurae manyaa'nın medium sayfasına da göz atabilirsiniz. ilginç denemeleri olan çekik gözlü bi arkadaşımız.

    beakerx: scala ile spark yazıyorsanız jupyter notebook kullanmanızı sağlayan nb extension (zeppelin sevmeyenler bunu beğendi).

    binder: repo'lardaki (github, gitlab, gist vb.) notebook'ları çalıştırmanızı sağlayan site.

    madewithml: güncel çalışmaların github repo'ları, makale linki, demo sayfası gibi detaylarına ulaşabileceğiniz site. plase olarak paperswithcode.
    not: pwc güncellenmiş.

    startuphub.ai: ai alanındaki startup'ları görebileceğiniz bir site. haşin lörning kullanarak süper bir iş fikrim var demeden önce buraya bakmakta fayda var.

    daha önce yazdığım benzer entry'ler için;
    (bkz: machine learning/@rahmetli de sollardi)
    (bkz: deep learning/@rahmetli de sollardi)

    edit: imla.
96 entry daha
hesabın var mı? giriş yap