Topluluk Öğrenme Algoritmalarından Torbalama Algoritması İle Gögüs Kanserinin Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Breast Cancer Using Bagging Algorithm from Ensemble Learning Algorithms

Giriş Topluluk (ensemble) öğrenme algoritmaları tahmine dayalı analitik çalışmalarda en başarılı yaklaşımlardan biridir. Bu algoritmalar somut bir problemi çözmek için bir araya gelen modeller setinden oluşmaktadır. Amaç modeller setinin ürettiği tahminleri birleştirerek doğruluğu (accuracy) artırmaktır. Topluluk algoritmaları kendi içerisinde üç grupta ele alınır. Torbalama (Bagging: Bootsrap Aggregating) Artırma (Boosting) İstif (Stacking) Topluluk (ensemble) öğrenme algoritmalarından…

Türkiye’deki COVID-19 Pandemisinin Büyüklüğü: Size of the Covid-19 Pandemics in Turkey

Dünyayı derinden etkileyen koronavirüs pandemisinin mevcut durumdaki büyüklüğünü ortaya koymaya yönelik geliştirdiğim epidemiyolojik dalga boyu modelleri Yale Üniversitesi destekli Uluslararası Tıp Arşivinde ön baskı olarak yayınlanmıştır. Bu modeller kullanılarak Türkiye’deki koronavirüs salgınının büyüklüğü dalga boyu uzunluğu olarak hesaplanmıştır. Analizde kullanılan vaka sayılarına ilişkin veri seti Sağlık Bakanlığı resmi web sitesinden edinilmiştir. Elde edilen bulgular Şekil…

Temel Bileşenler Analizi Üzerine Bir Vaka Çalışması: A Case Study on Principal Component Analysis (PCA)

Büyük veri setleri birçok disiplinde giderek yaygınlaşmaktadır. Bu tür veri kümelerini yorumlamak için, verilerdeki bilgilerin çoğu korunacak şekilde boyutsallıklarını yorumlanabilir bir şekilde önemli ölçüde azaltmak için yöntemlere ihtiyaç vardır. Bu amaç için birçok teknik geliştirilmiştir, ancak temel bileşenler analizi (PCA) en eski ve en yaygın kullanılanlardan biridir. Fikri basittir – mümkün olduğunca çok ‘değişkenliği’ korunurken…

R Programlama Diliyle Sınıflandırma Problemlerinin Çözümünde Karar Ağacı Algoritmaları Üzerine Bir Vaka Çalışması: A Case Study on Decision Tree Algorithms in Solving Classification Problems with R Programming Language

Giriş Günümüzde veri madenciliği uygulamalarının yaygınlaşması ve büyük veri kavramının öne çıkmasıyla birlikte analiz metotları da değişmiştir. Bugüne kadar genellikle bulut (cloud) veri tabanları üzerindeki veri setleri indirilerek analize konu ediliyordu. Ancak gelişen teknoloji veri madenciliği yöntemlerinde de önemli değişiklikler ve bazı soruları beraberinde getirmiştir. Bu sorulardan bazıları şöyledir: Online veya offline olarak dokümanlarda analize…

R Programlama Diliyle Sınıflandırma Problemlerinin Çözümünde Küme Algoritmaları Üzerine Bir Vaka Çalışması: A Case Study on Cluster Algorithms in Solving Classification Problems with R Programming Language

Giriş Küme geçmeden önce temel kavramları açıklamak konunun anlaşılması açısından önem taşıdığından ilk olarak kısaca bu kavramlara yer verilmiştir. Küme, benzer özellikleri içinde barındıran topluluk olarak tanımlanabilir. Bu topluluk insan, hayvan, bitki topluluğu olabileceği gibi nesnelerin oluşturduğu topluluk da olabilir. Benzer özellikler taşıyan bu topluluklar diğer kümelerden farklılaşır. Kümeleme (clustering) analizini ise benzer özelliklere sahip…

R Programlama Diliyle Regresyon Problemlerinin Çözümünde Rastgele Orman Algoritması Üzerine Bir Vaka Çalışması: A Case Study on Random Forest (RF) Algorithm in Solving Regression Problems with R Programming Language

Giriş Rastgele Orman (RF) algoritması , 2001 yılında Breiman tarafından karar ağaçlarının bir kombinasyonu olarak önerilmiştir. RF en iyi “her ağaç, bağımsız olarak örneklenen ve ormandaki tüm ağaçlar için aynı dağılıma sahip rastgele bir vektörün değerlerine bağlı olacak şekilde ağaç belirleyicilerinin kombinasyonu” olarak tanımlanan bir topluluk makine öğrenme algoritmasıdır. Topluluk algoritması gerek regresyon gerekse sınıflandırma…

R Programlama Diliyle Sistematik Örnekleme Üzerine Bir Vaka Çalışması: A Case Study on Systematic Sampling with R Programming Language

Giriş Daha önce basit tesadüfi örnekleme (simple random sampling) üzerine burada çalışmalar yapılmıştı. İlgilenecekler için aşağıda yararlanılan kaynaklar kısmında bu çalışmaların linklerine yer verilmiştir. Bu çalışmada ise örnek bir uygulama üzerinden ve olabildiğince yalın bir dille sistematik örnekleme yapılacak ve R programlama dili kullanılacaktır. Ancak R programlama dili bilmeyenler için Microsoft Excel kullanarak sistematik örnekleme…

Microsoft Excel’de Sistematik Örnekleme Üzerine Bir Vaka Çalışması: A Case Study on Systematic Sampling in Microsoft Excel

Giriş Daha önce basit tesadüfi örnekleme (simple random sampling) üzerine burada çalışmalar yapılmıştı. İlgilenecekler için aşağıda yararlanılan kaynaklar kısmında bu çalışmaların linklerine yer verilmiştir. Bu çalışmada ise örnek bir uygulama üzerinden ve olabildiğince yalın bir dille sistematik örnekleme yapılacaktır. Sistematik örnekleme, 1’den N’e kadar olan popülasyon birimlerinden ilk seçimin tesadüfi bir şekilde seçilmesinden sonra örneklem…

Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak t Dağılım Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for Calculation of Confidence Interval (CI) Based on t Distribution Table Using Simple Random Sampling Method without Replacement

Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Bu çalışmada…

Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak Z Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for the Calculation of Confidence Interval (CI) Based on Z Table Using Simple Random Sampling Method without Replacement

Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Bu çalışmada…

R Programlama Diliyle Sınıflandırma Problemlerinin Çözümünde Rastgele Orman Algoritması Üzerine Bir Vaka Çalışması: A Case Study on Random Forest (RF) Algorithm in Solving Classification Problems with R Programming Language

Giriş Rastgele Orman (RF) algoritması , 2001 yılında Breiman tarafından karar ağaçlarının bir kombinasyonu olarak önerilmiştir. RF en iyi “her ağaç, bağımsız olarak örneklenen ve ormandaki tüm ağaçlar için aynı dağılıma sahip rastgele bir vektörün değerlerine bağlı olacak şekilde ağaç belirleyicilerinin kombinasyonu” olarak tanımlanan bir topluluk makine öğrenme algoritmasıdır. Topluluk algoritması gerek regresyon gerekse sınılandırma…

Ordinal Lojistik Regresyon Üzerine Bir Vaka Çalışması: A Case Study on Ordinal Logistic Regression

Lojistik regresyon analizi yöntemlerinden biri olan ordinal (sıralı) regresyon analiz yöntemi, bağımlı değişkenin ya da cevap değişkeninin ordinal (sıralı) kategorik olduğu durumlarda bağımlı değişkenler (dependent variables) ile bağımsız değişken veya değişkenler (independent variables) arasındaki ilişkiyi ortaya koyan regresyon analiz yöntemidir. Burada bağımlı değişkenin ordinal olmasından kasıt kategorik değişkenin bir sıra veya derece belirtmesi anlaşılmalıdır. Ordinal…