Dünyanın önde gelen üniversitelerinden olan Harvard’ın veri bilimciler için düzenlediği on ücretsiz online kursun bilgilerini aşağıda bulabilirsiniz. (Not: Kurslar yenilenmektedir.)
1- Yeniden Üretilebilir Bilim için İlkeler, İstatistiksel ve Hesaplanabilir Araçlar
Zorluk seviyesi: Orta
Süre: 8 hafta
İçerik:
- Yeniden üretilebilir (reproducible) bilimin temelleri ve yeniden üretilebilir araştırmanın neden önemli olduğu
- Yeniden üretilebilirliği etkileyen kavramlar ve etkenler
- Veri kaynağı ve yeniden üretilebilir deneysel tasarım için gerekli temel unsurlar
- Yeniden üretilebilir veri analizi için istatistiksel yöntemler
NOT: Katılımcılar, yeniden üretilebilir araştırma yöntemlerinin etkisini gösteren birkaç vaka çalışmasına katılacaklardır.
Araçlar:
- Diller: R, Rstudio ve Python
- Hesaplama araçları: Git/GitHub, Emacs/RStudio/Spyder üzerinden
- Yeniden üretilebilir (reproducible) veri için: Veri depoları/Dataverse
- Dinamik rapor oluşturmak için: Rmarkdown/R Notebook/Jupyter/Pandoc
Ayrıntılar: https://www.edx.org/course/principles-statistical-and-computational-tools-for
2- Veri Bilimi: Doğrusal RegresyonZorluk seviyesi: Başlangıç
Süre: 8 hafta
İçerik:
- Galton doğrusal regresyonu nasıl geliştirdi
- Karışıklığa neden olan faktörlerin (confounding) temelleri ve algılama teknikleri
- R dilinin temelleri
- R dilinde doğrusal regresyon uygulayarak değişkenler arasındaki ilişkileri nasıl inceleyebileceğiniz
Ayrıntılar: https://www.edx.org/course/data-science-linear-regression
3- Veri Bilimi: Makine ÖğrenimiZorluk seviyesi: başlangıç
Süre: 8 hafta
İçerik:
- Makine öğrenmesinin temelleri
- Aşırı eğitmeyi (overtraining) önlemek için çapraz doğrulama (cross validation) kullanımı
- Popüler makine öğrenmesi algoritmaları
- Düzenlileştirme (regularization) temelleri
- Sıfırdan bir öneri sisteminin nasıl oluşturulacağı
Ayrıntılar: https://www.edx.org/course/data-science-machine-learning
4- Veri Bilimi: Görselleştirme
Zorluk seviyesi: Başlangıç
Süre: 8 hafta
İçerik:
- Veri görselleştirme ilkelerinin temelleri ve bunları ggplot2 kullanarak uygulamak
- Yaygın olarak kullanılan birkaç grafiğin (plot) zayıf yönleri ve neden onlardan kaçınmanız gerektiği
- Veriye dayalı bulguları açıklamak, analiz etmek ve kusurların tespiti
NOT: Değerli bilgileri ortaya çıkarmak ve kariyerinizi ilerletmek için verileri nasıl kullanacağınızı öğreneceksiniz
Ayrıntılar: https://www.edx.org/course/data-science-visualization
5- Veri Bilimi: OlasılıkZorluk seviyesi: Başlangıç
Süre: 8 hafta
İçerik:
- Rastgele değişkenler ve bağımsızlık da dahil olmak üzere olasılık teorisindeki önemli kavramlar ve Monte Carlo simülasyonu
- Beklenen değerlerin anlamı, standart hatalar ve R dilinde nasıl hesaplanacağı
- Merkezi Limit teoreminin temelleri ve önemi
Ayrıntılar: https://www.edx.org/course/data-science-probability
6- Veri Bilimi: Çıkarım ve ModellemeZorluk seviyesi: Başlangıç
Süre: 8 hafta
İçerik:
- Veriler hakkında tahminler yapmak için; popülasyonların, parametrelerin ve standart hataların hesaplamaları ve hata marjinlerini tanımlamak için gerekli kavramlar
- Veri toplamak için modeller nasıl kullanılır
- Bayesci (Bayesian) istatistiklerinin temelleri ve tahmine dayalı modelleme
Ayrııntılar: https://www.edx.org/course/data-science-inference-and-modeling
7- Veri Bilimi: R TemelleriZorluk seviyesi: Başlangıç
Süre: 8 hafta
İçerik:
- Temel R dili sözdizimi (syntax)
- Veri türleri, vektör aritmetiği ve indeksleme gibi temel R programlama kavramları
- R dilinde Dplyr ile sıralama, veri birleştirme (data wrangling) ve grafik oluşturma gibi işlemler nasıl yapılır
Ayrıntılar: https://www.edx.org/course/data-science-r-basics
8- Doğrusal Modellere Giriş ve Matris CebiriZorluk seviyesi: Orta
Süre: 4 hafta
İçerik:
- Gösterimler ve işlemler de dahil olmak üzere matris cebirinin temelleri
- Matris cebirinin veri analizine uygulanması
- Doğrusal modeller nasıl oluşturulur ve çalışır
- QR ayrışması
Ayrıntılar: https://www.edx.org/course/introduction-to-linear-models-and-matrix-algebra
9- İstatistik ve RZorluk seviyesi: Orta
Süre: 4 hafta
İçerik:
- Rastgele değişkenler, Dağılımlar, Çıkarım: P-değerleri ve güven aralıkları, Parametrik olmayan istatistikler hakkında derinlemesine bilgiler
- R kullanarak keşif veri analizi
- Verileri analiz etmek için R script (komut) dosyalarını kullanmak ve yeniden üretilebilir araştırmanın temelleri
NOT: Kavramlar ve uygulama arasında bağlantı kurmanıza yardımcı olacak örneklerle öğrenin
Ayrıntılar: https://www.edx.org/course/statistics-and-r
10- Yüksek Boyutlu Veri AnaliziZorluk seviyesi: Orta
Süre: 4 hafta
İçerik:
- Mesafenin matematiksel tanımı
- Yüksek boyutlu veri kümelerinin boyutunu azaltmak, çok boyutlu ölçekleme ve temel bileşen analizi ile bağlantısı için tekil değer ayrışmasının (SVD) kullanımı
- Makine öğrenmesinin temelleri
- Faktör analizinin temelleri ve “Batch” etkisi ile nasıl başa çıkılacağı
- Kümeleme ve Isı haritasının (Heatmaps) nasıl uygulanacağı
Ayrıntılar: https://www.edx.org/course/high-dimensional-data-analysis