• python kullanarak veri bilimini uygulamak için netteki en mükemmel kaynak ve örnek uygulama source larının bir listesini sizlere sunmaktan mutluluk duyarım. linklerin tamamı çalışır durumda. machine learning, python programlama, data science, neural networks, ımage processing ve natural language processing (nlp) / text processing işlemlerine kadar veri bilimiyle ilgilenen, bu konulara hakim olmak isteyenlere, öğrenmek isteyenlere umarım faydası olur.

    **core**

    pandas - data structures built on top of numpy.

    scikit-learn - core ml library.

    matplotlib - plotting library.

    seaborn - data visualization library based on matplotlib.

    pandas_summary - basic statistics using dataframesummary(df).summary().

    pandas_profiling - descriptive statistics using profilereport.
    sklearn_pandas - helpful dataframemapper class.

    missingno - missing data visualization.

    **pandas and jupyter**

    general tricks, clean coding (video)

    fixing environment: link

    python debugger (pdb) - blog post, video, cheatsheet

    cookiecutter-data-science - project template for data science projects.

    nteract - open jupyter notebooks with doubleclick.

    swifter - apply any function to a pandas dataframe faster.

    xarray - extends pandas to n-dimensional arrays.
    blackcellmagic - code formatting for jupyter notebooks.
    pivottablejs - drag n drop pivot tables and charts for jupyter notebooks.

    qgrid - pandas dataframe sorting.
    ipysheet - jupyter spreadsheet widget.

    nbdime - diff two notebook files, alternative github app: reviewnb.

    rıse - turn jupyter notebooks into presentations.

    papermill - parameterize and execute jupyter notebooks, tutorial.

    pixiedust - helper library for jupyter.

    pandas_flavor - write custom accessors like .str and .dt.

    pandas-log - find business logic issues and performance issues in pandas.

    **helpful**

    tqdm - progress bars for for-loops.

    icecream - simple debugging output.

    pyprojroot - helpful here() command from r.

    intake - loading datasets made easier, talk.

    **extraction**

    textract - extract text from any document.

    camelot - extract text from pdf.

    **big data**

    spark - dataframe for big data, cheatsheet, tutorial.

    sparkit-learn, spark-deep-learning - ml frameworks for spark.

    koalas - pandas apı on apache spark.

    dask, dask-ml - pandas dataframe for big data and machine learning library,
    resources, talk1, talk2, notebooks, videos.

    dask-gateway - managing dask clusters.

    turicreate - helpful sframe class for out-of-memory dataframes.

    modin - parallelization library for faster pandas dataframe.

    h2o - helpful h2oframe class for out-of-memory dataframes.

    datatable - data table for big data support.

    cudf - gpu dataframe library.

    ray - flexible, high-performance distributed execution framework.

    mars - tensor-based unified framework for large-scale data computation.

    bottleneck - fast numpy array functions written in c.

    bolz - a columnar data container that can be compressed.

    cupy - numpy-like apı accelerated with cuda.

    vaex - out-of-core dataframes.

    petastorm - data access library for parquet files by uber.

    zappy - distributed numpy arrays

    ** visualization **

    all charts, austrian monuments.
    cufflinks - dynamic visualization library, wrapper for plotly, medium, example.

    physt - better histograms, talk, notebook.

    matplotlib_venn - venn diagrams, alternative.

    joypy - draw stacked density plots.

    mosaic plots - categorical variable visualization, example.

    scikit-plot - roc curves and other visualizations for ml models.

    yellowbrick - visualizations for ml models (similar to scikit-plot).

    bokeh - ınteractive visualization library, examples, examples.

    animatplot - animate plots build on matplotlib.

    plotnine - ggplot for python.

    altair - declarative statistical visualization library.

    bqplot - plotting library for ıpython/jupyter notebooks.

    hvplot - high-level plotting library built on top of holoviews.

    dtreeviz - decision tree visualization and model interpretation.

    chartify - generate charts.

    vivagraphjs - graph visualization (js package).

    pm - navigatable 3d graph visualization (js package), example.

    python-ternary - triangle plots.

    falcon - ınteractive visualizations for big data.

    ** natural language processing (nlp) / text processing **
    talk-nb, nb2, talk.

    text classification ıntro, preprocessing blog post.

    gensim - nlp, doc2vec, word2vec, text processing, topic modelling (lsa, lda),
    example, coherence model for evaluation.

    embeddings - glove ([1], [2]), starspace, wikipedia2vec, visualization.

    magnitude - vector embedding utility package.

    pyldavis - visualization for topic modelling.

    spacy - nlp.

    ntlk - nlp, helpful kmeansclusterer with cosine_distance.

    pytext - nlp from facebook.

    fasttext - efficient text classification and representation learning.

    annoy - approximate nearest neighbor search.

    faiss - approximate nearest neighbor search.

    pysparnn - approximate nearest neighbor search.

    infomap - cluster (word-)vectors to find topics, example.

    datasketch - probabilistic data structures for large data (minhash, hyperloglog).

    flair - nlp framework by zalando.

    stanfordnlp - nlp library. 2

    **ımage processing**

    talk

    cv2 - opencv, classical algorithms: gaussian filter, morphological transformations.

    scikit-image - ımage processing.

    ** neural networks **

    tutorials & viewer

    convolutional neural networks for visual recognition
    fast.ai course - lessons 1-7, lessons 8-14
    tensorflow without a phd - neural network course by google.

    feature visualization: blog, ppt

    tensorflow playground

    visualization of optimization algorithms

    cutouts-explorer - ımage viewer.

    **data science related**

    m2cgen - transpile trained ml models into other languages.

    sklearn-porter - transpile trained scikit-learn estimators to c, java, javascript and others.

    mlflow - manage the machine learning lifecycle, including experimentation, reproducibility and deployment.

    modelchimp - experiment tracking.

    skll - command-line utilities to make it easier to run machine learning experiments.

    bentoml - package and deploy machine learning models for serving in production.

    dagster - tool with focus on dependency graphs.

    knockknock - be notified when your training ends.

    metaflow - lifecycle management tool by netflix.

    ** resources **

    distill.pub - blog. machine learning videos

    data science notebooks

    recommender systems (microsoft)

    the gan zoo - list of generative adversarial networks

    datascience cheatsheets

    **other awesome lists**

    awesome adversarial machine learning

    awesome aı booksmarks

    awesome aı on kubernetes

    awesome big data

    awesome business machine learning

    awesome causality

    awesome csv

    awesome data science with ruby

    awesome dash

    awesome deep learning

    awesome etl

    awesome financial machine learning

    awesome gan applications

    awesome machine learning

    awesome machine learning ınterpretability

    awesome machine learning operations

    awesome online machine learning

    awesome python

    awesome python data science

    awesome python data science

    awesome pytorch

    awesome recommender systems

    awesome semantic segmentation

    awesome sentence embedding

    awesome time series

    awesome time series anomaly detection
  • burada istatistik kısmının vurgulanıp matematik ve bilgisayar bilimleri kısmının hafife alındığını görüyorum, yapmayın. matematik veya mühendislik geçmişi olmayan, bilgisayardan anlamayan, ama sıkı bi başvuru ve mailleşme sonucunda bi yıllık data science masterına girmiş biri olarak gerçekten neye uğradığımı şaşırmış durumdayım. hayatımda hiç bu kadar çalışıp bu kadar başarısız olmadım. gerçekten çelik gibi sinir, sabır, ve motivasyon lazım. çalışıp çalışıp anlamadığınız için bi reward mekanizmasının olamadığı bi senaryoda motivasyonu ayakta tutmak epey zor oluyor. anlıyorsunuz bi noktada, ama defalarca üstünden geçtikten sonra. örneğin ders videosunun sonunda hoca şöyle bi cümle kurabiliyo: hiçbir şey anlamadınız biliyorum ama zamanla oturacak, anlayana kadar tekrar edin*. belki kişisel bi yetenek veya yeteneksizlik ama bence kesinlikle istatistik kısmı hem daha kolay anlaşılır, hem de daha az zaman ayrılarak bir yere getirilebilir. fakat makine öğrenmesi, derin öğrenme, ne biliym ses, görüntü, metin işleme gibi şeyler yapıcam diyosanız sıkıntı büyük. bu noktada linear algebra bilmeden probleme göre kod yazıp çalıştırmanız çok zor. boyutlarını ayarlamadığınızda kodlar çalışmıyor bile. aşama aşama ne olup bittiğini anlayıp kodu ona göre yazmanız veya gerektiğinde düzeltmeniz lazım. içerde ne olup bittiğini anlamak istiyorsanız backpropagation vs öğrenmeniz, bunun için de hem linear algebra hem calculus bilmeniz lazım. istatistik tabiiki önemli. data temizliği yapmak, kayıp verileri silmeden doğru şekilde tamamlamak, moderation test etmek, outlier detection ve treatment, validation (bunların türkçeleri ne yav) yapmak tabiiki olmazsa olmaz. ama yapay zekanın bu kadar ilerlediği, makine öğrenmesinin, derin öğrenmenin falan artık endüstri standardı ve veri biliminin önemli bi parçası haline geldiği bugün linear algebra, olasılık, calculus ve algoritma* * bilmeden, sadece istatistikle veri bilimi yapılamaz. ha, tahminleme falan yapmıycam, makine öğrenmesiyle işim olmaz, basit data analizi (eda) ve regresyon yapıcam diyorsanız istatistik yeterli olabilir.

    bu hardcore girişten sonra şunu ekleyeyim, sağlam matematik bilginiz varsa işiniz çok daha kolay ama yoksa da çabalayınca yavaş yavaş oluyo. girişmeyi düşünenlere başarı ve sabır diliyorum :)
  • iyi bir altyapiyla kesinlikle online ögrenilebilecek olan hede. altyapidan kasit: programlama (c++ bilmeseniz de olur, prosedürel mantik baslangic icin yeterli), istatistik bilgisi, machine learning temelleri vs.

    öncelikle:
    datasciencemasters - ben her seyi kendim hallederim ve param sinirli diyecekler icin ücretsiz curriculum

    datacamp - kisisel favorim
    dataquest - data scientist/data analyst ayrimi hos burada.
    kaggle tutorials - ayni zamanda alistirma yapmak icin datasetler mevcut

    son olarak, bende para cok ve zaman az diyorsaniz, yapabileceginiz en iyi sey:
    udacity

    ek olarak, coursera'daki johns hopkins programini yazmadim; cünkü cok iyi bir program olmadigi yönünde cok yorum var internette. onun disinda epey eksik vardir listede, su da iyi, bunu unutmussun derseniz seve seve eklerim.

    edit: bütün önemli kaynaklari icinde bulunduran, güncel liste icin:
    top data science online courses 2017 (ingilizce)

    edit 2: udacity'nin eski programini yenisiyle degistirdim. son olarak, online sertifika programina katilmak isteyenler icin, fiyat olarak biraz yüksek de olsa yeni bir program mevcut: anaconda data science certification
    anladigim kadariyla bu program datacamp üzerinden yürüyor, ama anaconda gelistiricileri tarafindan hazirlanmis. anaconda zaten bilindigi üzere veri bilimi icin önemli bir platform oldugundan bakmakta fayda var.
  • herkesin ahkam kestigi gunumuz dunyasinda big data'dan sonra hype olan bir alan.

    yapay zeka ile beraber herkesin agzina gelmis bir sozcuk olarak nitelendirmek gerekiyor. ulkemiz ozelinde baktigimizda, bu isi yonetebilecek ust duzey* yoneticiler olmadigi icin, yazilim isi yapiliyormus gibi projeye baslanir ve kisa zamanda bitmesi beklenir. data scientist ya da veri bilimci insanlar calistirilir, ancak bu arkadaslara nedense hic serbestlik verilmez.

    surekli olarak yazilim projesi yonetmeyle karistirilir. yazilim projelerindeki gibi 3 ay sonra mobil application hazir olur dusturu ile proje planlari yapilir.

    ancak bilinmez ki arge nedir yenir mi icilir mi? data analizi nedir diye sorulmaz. data understanding zaten kimsenin aklina gelmez. bunlara vakit kalmayinca data scientist olan arkadaslar da kaliteli proje cikartamaz, eda * cok zaman alan bir is olmasina ragmen 3-4 grafik ile gecistirilir ve modeller yapilmaya baslanir. ama bir turlu istenilene basari gelmez.
    yazilimdaki tester yontemlerle ya da havali isimlendirmelerle (root cause analysis, retrospective analysis) toplantilari yapilir. kimse de demez ki birader biz proje plani yaptik ama sana sormadik, analiz zamani birakmadik, gelen datanin kalitesiz olmasi ya da istenilen sonuca erismek icin yeterli sure vermedik, deployment yapabilmen icin sana yeterli kaynagi vermedik. entegrasyon yapacagin uygulama olmadan projeyi bitirmeek istedik.
    ilk soru buradan ne ders cikardik arkadaslar, bir sonraki projemizde bunu uygulamayalim geyikleri doner. gercekten bu isin yapilmasini isteyen kisi sayisi da cok degildir. aslinda kendi ihtiyaci kural bazli bir if else iken ai akimina kapilan business stakeholder'lar is istenilen sekilde 2 haftada bitmedigi icin emegin ne oldugunu goz onune almaz. bu surec boyle gelir gider.

    her sene basi, ekip icin bu sene size arge zamani verecegim sozu verilir. ama yil ortasi geldiginde projeler sorgulanmaya (ki kimse anlamaz anlatilani, ama sorgulanmasi da gerekir bir taraftan) ve performans olcumlerine sira gelir. bu isin performansinin calisilan model sayisi ya da deploy edilen model sayisi olmadigini kimse anlamaz. surekli bir output beklentisi vardir ekibinizden. ama iciniz kan aglayarak anlatirsiniz kimse anlamaz. klasik anliyorum ama ile baslayan cumleler kurulur. bunun icin neden aksiyon alinmadi diye sorulur ve maillerinizde size de bu konu ile bilgilendirme yapildi, ayrica toplantilarda uzerinden gecildi denildiginde bile onemli konuyu surekli anlatmalisin denir. ekibinizin performasini ve emegini gordugunuz halde eliniz bos cikarsiniz.

    kimse demez ki proje yapilmaya baslandiginda bu adam projeler arge gibi ele alinir buna istinaden basarili olamayacagi goruldugunde proje durdurulmak zorunda kalabilir dedigini. herkes data var der ama kimse demek benim datam kaliteli mi temiz mi, kimseden data quality'yi yalayip yutmasi beklenmez ama bunlar da gercekler.

    hadi bu kadar yazmisken cozum onerisi de yazayim ufak birkac madde belki okuyan olur;

    - oncelikle kaliteli bir data scientist calisaniniz ya da ekibiniz varsa bırakınız çalışsınlar, bırakınız yapsınlar efenim. bu adamlarin en onemli ozelligi zaten data'dan senin goremedigini cikarmalari. birakiniz bu adamlar incelesin datayi, zaten siz gormus olsaydiniz bu adamlara ve bu yontemlere ihtiyac olmazdi.
    - proje fikri geldiginde heyecanlanan calisaniniz veya ekip arkadasiniz varsa gerekirse diger projeleri ondan aliniz ve projeyi ona veriniz. o heyecan hic birseye degisilmez. o heyecani kaybettirmeyin. junior senior fark etmez. bunun faydasini sonra gorursunuz ama heyecanla calisan insan projeyi fail ettirse dahi o projeden cok sey ogrenmis ve bunu kullanacagi yeni alanlarda tecrubeye donusturecektir, istisna ornekler bu soylemin yanlis oldugunu gostermez.
    - yeni bir proje fikrini yazilim projesi yonetir gibi yonetmeyiniz. onemli olan oradan cikan modelin kalitesidir ve kalite onemli bir emek ister.
    - hizlica sunu yapabilir miyiz diye sormayiniz, olmaz yapilamaz. her iste oldugu gibi bu iste de bir racon vardir. fikir gelir masaya yatirilir olup olmayacagi tartisilir ve giris zamani belirlenir. birakin 5 gun 10 gun o veri incelensin, nedir ne degildir anlasilsin, gerekli baslangic arastirmalari yapilsin.
    - projeye baslarken birim olarak bu arkadaslara destek olun. herhangi bir yazilimcinin muhasebe bilmese dahi muhasebe yazilimi yapabilecegi gibi dusunup, veri orada analiz burada diye ortami terk etmeyin. isin nasil oldugunu business olarak anlatin. datayi ne kadar iyi anlamasini saglarsaniz model de o kadar kaliteli olacaktir.

    daha cok madde yazilir, ancak bunlar simdilik burada dursun, sonra editlerim.

    edit: aslında birçok madde daha yazacaktım yukarıda dediğim gibi. ancak burada yazdıklarımı benim yazdığımı bilmeden bana yeni bir bilgi gibi aktarmak isteyenleri görünce gerçek hayatta (kelimesini bile değiştirmeye lüzum görmeden) daha fazla öneri yazmamaya karar verdim.

    mesajla editlerinizi bekliyorum yazan arkadaşlar kusura bakmasınlar. bu bilgiyi herkes okusun ve görsün diye yazıyorum tabii ki, ama benim yazdıklarımı benim olmadığını bildiklerinden bana satan insalar olunca daha da devam etmek istemedim. herkes düşününce doğru yolu kolayca bulabilir. daha ayrıntılı bir yazı belki başka bir zaman yazarım.
  • ne olup ne olmadigi hakkinda inanilmaz bir kavram karmasasi ve sirket hr'larinda akil karisikligi olan is kolunu icra eden kisi.

    is ilanini data scientist olarak cikaran bir sirkette icra ettim ve ayrilirken 'kusura bakmayin, bu isin data sciencela alakasi yok' dedim. is ilanini data analyst olarak cikaran baska bir sirkete gidiyorum simdi fakat isin kendisi data science.

    title olarak populer bir title fakat beni ilgilendiren asil sey icerigi.

    * adi ustunde veri ile calisabilen, bunun icin istatistik bilgisi olan
    * veri temizleme ve veriyi evcillestirme islemini ciddiye alan ve isin %90lik kisminin ve isin en onemli kisminin bu oldugunun farkinda olan
    * problemin ortaya konulmasiyla birlikte nasil bir veriye ve yonteme ihtiyaci oldugunu anlayip, anlatabilen
    * veriyi gorur gormez hangi programlama dili, hangi paket, hangi arac, hangi visualization kullanilacak, nereden baslanacak nereye gidilecek anlayabilen
    * veriyle calisirken surprizlere acik olan, o surprizleri firsata cevirebilecek
    * machine learning, artificial intelligence alaninda ilgi ve bilgi sahibi, endustriyel uygulamalarindan haberdar
    * buyuk veriyle calismak icin gerekli platformlardan haberdar ve bunlari kullanabilen
    * genel anlamda algoritma gelistirebilen
    * sonuclari yorumlayabilen, sonuclara dayanarak karar verebilen ya da karar vericileri ikna edebilip, yonlendirebilen
    * eger ki pozisyon yazilimcilarla diyalog iceriyorsa, yapilacaklari yazilimcilara da anlatabilen
    * kendini surekli yenilemek zorunda olan, ozellikle de islerin gittigi bu hiza yetisebilmek icin yenilikleri, konferanslari, yayinlari takip etmek durumunda olan

    kisilere deniyor.
  • oncelikle nedir ne degildir: #52447790

    bir de boktan taraflarina bakalim:

    * isi yapmak kadar anlatabilmek de onemli. yani devasa teknik detaylari olan bir calismanin sonucunu cogu kez bilal'e anlatacaksiniz, ki zurnanin zirt dedigi yer de burasi. akliniz level ustune level atlamisken, karsinizda en basit istatistik konsepti bilmeyen bir adama iki histogramin ayni sey olmadigini anlatmak zorunda kalmak emin olun isin kendisini yapmaktan daha zor. cunku onun icin sekil itibari ile ikisi de birbirine benziyorsa, siz bir aydir ayni seyi yapmissinizdir. (bkz: organize isler filoloji esprisi)

    * o sebepten isin adi science da olsa, bilimsel detaylari ve etigi bosvermek gerekiyor, isin guzelim detaylarini atlayip bilal'i ilgilendiren kismi uc bes guzel gorselle ve uc bes suslu kelimeyle (bkz: corporate language) ozetlemek zorunda olmak cidden cok sinir bozucu.

    * yukaridaki maddeyle baglantili olarak, yoneticilerin beklentisi tam olarak sunu bilmek, bize veriden para kazandirabilir misin?

    hayir cicim, gucci nasil ki parayi pamuk tarlasindan kazanmiyorsa, sen de parayi veriden kazanmayacaksin, cunku google degilsin. verinin sana getirecegi, ne yaptigini bilerek yapman, musterinin karsisina son gelismeleri takip etmeyen, kendini modernize edememis bir avanak olarak degil, cagini yakalayabilen bir firma olma guveniyle cikman, sana veriyle ne yaptigini sorduklari zaman apisip kalmaman. veriden para kazanmak icin ciddi yatirim ve donusum yapman gerekiyor. o yatirimi yapmadan bir veri bilimciyi ise alip sihirli degnek bekleyenlerle calismak bu isin baska bir sinir bozucu tarafi.

    * bu isin en boktan tarafi ise su: verinin yalan soylemedigini goren himbil calisma arkadaslari o yalani sizin soylemenizi bekleyebilir. dongu soyle isler:

    veri uzmani epey mesakkatli bir surecle veriyi konusturduktan sonra, sonuclar birilerinin isine gelmez. (ki boyle birileri illa ki vardir. isin niteligine gore artik, analizin bir noktasinda illa ki olmamasi gereken birseye toslarsiniz.)

    bu kisiler once veri uzmanini ikna etmeye calisir, aramizda kalabilir mi? minvalinden ricalar baslar.

    bu noktada yonetim ile is arkadaslari arasinda, farkli departmanlar arasinda, bizzat kendi yoneticiniz ile onun ustu arasinda vs. vs. gibi boktanlik skalasi degisebilen bir yerde arada kalirsiniz.

    isin bir kismi raporlama oldugundan ve belli bir seffaflik gerektiginden, sonuclari manipule etmek ya da kendi isminize leke getirmemek gibi iki seceneginiz vardir, genelde bir ucuncusu yoktur. (sonuclari excel'e tasidiktan sonra manipule edenini bizzat gordum.)

    ucuncu bir secenek varsa, suna benzer: durum cok vahim degildir, sonuclar direk etkilenmiyordur, sirkete getirisi goturusu direk olan birsey degildir, ve tesadufen rastlanilmis olup esasen raporlanmasi istenen sey degildir. o zaman gormezden gelmek kimseye zarar vermez.

    diger durumlarda ise veri uzmani kendini yeminli tercuman gibi dusunmeli ve oyle davranmali. verinin dilini teknik altyapisi olmayan insanlara tercume ediyorsunuz, ve birisi kicini yaydi, isini duzgun yapmadi ise, bu sizin de isinizi duzgun yapmayacaginiz anlamina gelmez, cunku tercumanin bile isteye bir cumleyi yanlis cevirmesi nasil bir serefsizlikle, sizin de sonuclari manipule etmeniz oyle bir serefsizliktir.

    durumu anlatmaya calisirsiniz, sizin de sadece sizden isteneni yaptiginizi, sonuclari degistiremeyeceginizi, saklayamayacaginizi, vs. vs.

    bundan sonraki asama tam olarak soyle gelisir, 'bu analist bisey bilmiyor, analizleri hep yanlis'

    ya da kullandiginiz kodlar istenir, ya da 'biz analizimizi kendimiz yapacagiz' denir.

    sizi ekarte etmek icin turlu yollar denenir.

    isin basindaysaniz, bir ise yeni girdiyseniz, girdiginiz isteki calisma kulturune bagli turlu entrikalarla karsilasabilirsiniz.

    verinin soyledigi isine gelmeyen kisi eger bilgi akisinizin bir parcasi ise, sizi bilerek yanlis yonlendirebilir. (burada yine yaptigi analizler de hep yanlis cikiyo caaanim cakalligi soz konus.) tabi gorev bittikten sonra asla sizi tanimayacaktir, size oyle bir bilgiyi verdiginden haberi olmayacaktir.

    eger bu konularda zaten felegin cemberinden gecmis iseniz, rapor sundugunuz kisilerle direk iletisim isteyebilirsiniz. yoneticilerin cogu tembeldir, buna genelde yanasmazlar.

    bilgi akisini mumkun mertebe yazili tutun. size kim ne dediyse, email yazin, skype yapin, bunun zekice bir yolunu bulun ve o bilgiyi o kisiden aldiginizla ilgili yazili bir dokumaniniz olsun iste.

    diyelim ki bu durumu yazili bir hale getirmeye basladiniz, kolay lokma olmadiginiz anlasildi. mucadele bitti mi? bitmedi.

    ekraniniz denetlenecek, ne yaptiginizi gormek icin habire sudan bahanelerle yaniniza gelinecek. gunde bes vakit ne yaptiginiz, hangi asamada oldugunuz, o ekrandakinin neyin verisi oldugu, o grafikte neyi gosterdiginiz vs. ahiret sorusu sorar gibi sorulacak. velev ki anlattiniz, sizin fikriniz yoneticiye sizden once o kisinin adiyla gidecek. ve bu vesileyle analizlerinize dahil olmasinin yolu acilacak. yani hatasini bulduysa da kendisi buldu, size o fikri kendisi verdi olacak. yonetici asla dusunmeyecek, 'yahu bu analist gelmeden once bu herif x sene burada calisti, bunu niye simdi farketti?'

    ekran kilidi candir, masadan kalktiginiz anda ekraninizi kilitleyin. sifre candir, sifrelerinizi yaninizda tasiyin. seffaflik candir, raporu cikarir cikarmaz attiginiz ve ilgili herkesin erisebilecegi bir ortak dosya talep edin, sirketlerin genelde bu tip paylasim dosyalari olur. analizlerinizi bitmeden kimseye anlatmak zorunda degilsiniz, cevrenizde sivrisinek gibi donen birisi varsa kibarca kovun.

    raporlama yaptiginiz kisiden baska kimseye rapor sunmak zorunda degilsiniz, sizden bunu isteyenler oldugunda cicim ben de emir kuluyum argumanindan yuruyun, raporunuzu ortak alana koyduktan sonra haber verin. ikinci ucuncu sahis emirlerini dinlemeyin.

    kisacasi, keyifli oldugu kadar lanetli de bir is koludur.

    bi de sozum yoneticilere: sizi ne kandiriyorlar, ne kandiriyorlar. en guvendiginiz adaminiz, en iyi kiviran adaminiz, 'ben buna muhtacim' dediginiz adaminiz var ya, sizi iste en cok o kandiriyor. analistleri, business intelligence'cilari, veri bilimcilerini, artik departmaninizin adi neyse, iste onlari ne yapin edin izole edin. ayri dukkan mi acarsiniz, evlerinden mi calistirirsiniz, aya mi gonderirsiniz, artik hangisi en uygun cozumse. tecrube konustu.
  • bu alanda bolca staj ve iş aramış en sonunda da bulmuş biri olarak size biraz gerçeklerden söz etmek istiyorum. obama'nın veya harvard business review'ın ne dediğinin bir önemi yok. başlangıç düzeyinde iş bulmanın en zor olduğu alan belki de data science. size herkes tam tersini söylüyor çünkü data science masterları, udemy kursları, bootcamplar derken multi milyon dolarlık bir eğitim endüstrisi kuruldu. coursera'nın popülerlik süreci bile kurucusu andrew ng'nin machine learning dersleriyle başladı. matematik, fizik, her türlü mühendislik bölümünde veri bilimi dersleri açıldı. size kurslarına kayıt olduktan sonra 100 bin dolar maaş alabileceğinizi söyleyerek rant elde eden onlarca insan ve kurum var. üstelik de bu dersler kapsayıcılıktan çok uzak. titanic, iris datasetiyle machine learning; mnist datasetiyle basit deep learning modeli kurup öğrencinin eline sertifikayı verip yolluyorlar. herkes de bu kurslara kaydolup, mezun olup rahatlıkla iş bulacağını düşünüyor ama sektördeki herkes gerçeğin bu olmadığını bilir.

    gerçek anlamda veri bilimi ve machine learning kullanan çok az şirket var. çünkü bu bir olgunluk gerektiriyor, normalde çözemediğin ve machine learning'e ihtiyaç duyduğun bir problem gerektiriyor. data pipelineları, servisler, deployment hepsi ciddi süreçler. bu yüzden yazılımcı arayan firmaların yalnızca yüzde 15-20sinin data scientist'e ihtiyacı var. bu düzene sahip olmayan bir firmada data scientist olarak işe girerseniz bilin ki ya bolca basit sql query'si yazacaksınız ya da veri analizi işi yapacaksınız. bir şirkette data scientist/yazılımcı oranı da iyimser bir tahminde yüzde 25 civarında.

    basit bir matematik yapalım. yazılım geliştiren orta-düşük ölçekteki firmaların yüzde 20sinde gerçek anlamda data scientist işleri var ve yazılımcı sayısına göre oranları yüzde 25 olarak kabul ettik. çarptığımızda data scientist iş miktarı yazılımcı iş miktarının yüzde 5'ine denk geldi. iş bulabilmeniz için sizinle aynı kursları, dersleri alan insanlardan çok daha iyi olmalısınız. büyük firmalarda durum daha iyimser, ama orada da rekabet fazla ve mülakat süreçleri daha kapsamlı. çoğu, yüksek lisansı bir ön şart olarak sunuyor. udemy, coursera mezunu insanların buralarda data scientist olarak işe girmesi ciddi zor. yurtdışında faang diye tabir edilen şirketlerde phd'siz mülakata çağrılmanız bile hayli zor.

    o yüzden, evet data science belki 7-8 sene önce rahat iş bulunabilecek, insanlara gönül rahatlığıyla tavsiye edilebilecek bir alandı. ama şu an öyle değil. gerçekten istemeyen kimseye tavsiye etmiyorum çünkü kimsenin mağdur olmasını istemiyorum.

    size okuldaki hocalarınız ve takip ettiğiniz tech influencerları ne söylerlerse söylesin gerçekler böyle. eğitim endüstrisinin tuzağına düşmeyin. bir işi sadece istediğiniz için yapın hype olduğu için değil. çünkü o hype treninin varış noktası gerçeğe çıkmıyor.
  • 7-8 yildir bu isin icerisindeyim, 3-4 yildir avrupada calisiyorum. bu entry'i uzun suredir yazmak istiyordum ama kismet buguneymis.

    turkiyede bir cok kisi iyi maas almak ve yurtdisinda is bulabilmek icin bu meslege gecmeye calisiyor. gecmeyin arkadaslar, gelmeyin. artik data science bitti. pazarda kalifiye binlerce eleman var. eskiden pazarda acik oldugu icin sanat okumus adam bile data scientist olabiliyordu ama artik istatistik,matematik,fizik ve bilgisayar muhendisligi alanlarindan mezun, ustune avrupada master yapmis yada kimya,biyoloji okumus, doktora yapmis adamlar piyasayi ele gecirmis haldeler. ustelik artik veri kullanimi oturdugu icin sirketlerin data scientistten cok data analyste ihtiyaci var.

    eskiden veriyi sisteme yukleyen, sistemden ceken, veriyi temizleyen, yeni degiskenler yaratan, verinin analizini yapan, veriyi gorsellesiren, modeli kuran, ve modelin takibini yapan kisi data scientistti. it'den bir developer da genelde sisteme yuklerdi modeli ve kullanilirdi. artik bu duzen degisti. veriyi ceken/yukleyen/temizleyen kisi data engineer, yeni degiskenler yaratan feature engineer, gorsellestimeyi powerbi yada data viz lead, analiz/model kurma isi data analsytte, modelin takibini mlops engineer'da ve modelin sisteme yuklenmesi machine learning engineer'da. bu arada data analystte uzmanligina gore degisiyor, atiyorum zaman serileri uzerinde calisicaksa time series data analyst, tahmin yapacaksa predictive anlayst, nlp yapilacaksa da nlp analyst gerekiyor. yani dalina gore degisiyor.

    bunlari neden anlatiyorum? matematik/istatistik cif dal yapmis ve avrupada ai/ml alaninda top 10 okuldan mezun olmus biri olarak is bulmakta zorlaniyorum.

    3 yildir avrupada data scientist olarak calisiyordum. ilk sirketim ben geldikten bir yil sonra yukarida anlattigim sisteme gecti ve data scientistleri isten cikardi. sirket icinde karli oldu, 10 kisiye 100k verecegine data engineer ve ml engineer'a 100k verip geri kalanlara 60k veriyor. ikinci sirketim iki yil sonra 10 kisilik data science departmanini 3 kisiye indirdi ve geri kalan 7 kisiyi hindistandan ise aldi. hindistandaki elemanlar isi yaparken avrupa ofisi de onlarin isini kontrol ediyor.

    bende son 6 ayimi is arayarak gecirdim. hala devam ediyorum. az degil bundan 3 yil once masterimi yeni bitirdigimde her hafta 3/4 farkli sirketten mesaj gelirdi. simdi haftada bir bile gelmiyor. feature engineer, powerbi lead, predictive analyst,time series analyst gibi bir suru ise basvuruyorum. onlarda eskiden data scientist olarak 100k alan simdi 60k'ya calismaz diye geri donmuyorlar.

    turkiyede sikko univeritelerden mezun mali denetmen, aktueryaci arkadaslarim su an ne is sikintisi cekiyor ne de gelir. hepsi takir takir avrupada is bulup geldi, bizim gibi python, r, powerbi, tableau, hadoop, spark, aws, azure vs vs vs bir suru program bilen big dataci arkadaslar surunuyor.

    bu arada sunu da ekleyeyim. evet artik generative ai yavas yavas data science alaninia azaltacak, eskiden 10 senior'a is yaptiran adam 3 senior, 7 junior ile bu isi bitirecek. ama asil yikimi cloud sistemleri yapacak. eskiden bir nlp analizi icin 2-3 gun harcardim artik aws, azure icerisinde yarim gunde herseyi hallediyorum. cloud ekosistemleri o kadar gelismis halde ki bir kac klik ile gunlerce yaptiginiz isi 3-4 saatte yapabiliyorsunuz.

    avrupaya gitme hayaliniz varsa hic bu alana girmeyin arkadaslar. oturun yazilimci olun. o kadar kasamazsaniz data engineer olun. kimseyi bozmak istemem ama ben ve arkadaslarim gibi top 10 okullarda okumus, fortune 100 sirketlerinde yillarca calismis adamlar bile artik is bulmakta zorlaniyorsa geri kalani dusunemiyorum bile.
  • ecnebilerin "a data scientist is a statistician who lives in san francisco" diye istihza ederek tanimladigi meslek. turkceye "san francisco'da yasayan istatistikcilere veri bilimci denir" seklinde cevirebiliriz.
  • mit’ nin edx üzerinden kayıt olunabilecek sertifikalı 4 kurs ( olasılık, istatistik, makine öğrenmesi ve hesaplamalı veri analizi) ve bir sınav içeren “ data science micromaster”ı oldukça kapsamlı, zorlayıcı ve kişiye katabilecekleri açısından da değerli. zannediyorum ki veri bilimi ve makine öğrenmesinin teorik temelleri bu programla ( artı olarak python ve lineer cebir bilgisi) halledilebilir.
hesabın var mı? giriş yap