Öne çıkan

Tabakalı Örnekleme Üzerine Bir Simülasyon Çalışması: A Simulation Study on Stratified Sampling

Öncelikle nicel araştırmalarda hedef popülasyon (target population) hakkında çıkarımlarda bulunmak istiyorsak mutlaka olasılıklı örnekleme yöntem veya yöntemlerinin kullanılması gerektiğini belirtelim. Çünkü yapılan tezlerde, yayınlanan bazı makalelerde ya da araştırma raporlarında bu konuya yeterince önem verilmediği ve yada konunun yeterince bilinmediği görülmektedir. Bu durum yapılan bilimsel çalışmanın niteliğinin sorgulanmasına neden olmaktadır.

Olasılıklı örneklemede temel felsefe popülasyonu oluşturan her popülasyon biriminin örnekleme seçilme şansının eşit olmasıdır. Olasılıklı örnekleme yöntemlerinden biri olan tabakalı örnekleme (stratified sampling)’de, popülasyon ya da evren, tabaka adı verilen üst üste binmeyen gruplara bölünür ve her tabaka içindeki bazı tasarımlarla bir örneklem seçilir. Tabakalı örnekleme tasarımları, popülasyondaki her örnekleme birimi için bilinen belirli bir özelliğe dayalı olarak bir popülasyonun tabakalara bölünmesini ve ardından her bir tabakadan bağımsız olarak örneklemlerin seçilmesini içerir. Bu tasarım, farklı tabakalarda örnekleme yöntemlerine esneklik kazandırır ve her tabaka göreceli olarak kendi içerisinde homojen birimlerden oluştuğunda, hedef parametrelerin tahminlerinde iyi kesinlik (precision) elde edilir.

Tabakalı örnekleme tasarımı, popülasyonun belirli bölümlerinin kolayca hedeflenmesini de sağlar. Örneğin, coğrafi bölgeler, habitat türü, yükseklik veya toprak türü gibi bilinen bazı değişkenler aracılığıyla benzer bölgelere ayrılabilir. Bir başka örnek, bir fabrikada monte edilen kusurlu ürünlerin oranlarını belirlemek olabilir. Bu durumda, örnekleme, üretim hatları, fabrika vb. faktörlere göre tabakalandırılabilir. Hatta COVID-19 pandemisinden örnek vermek gerekirse illeri COVID-19 vaka sayılarına göre 4 farklı şekilde tabakalandırabiliriz. Örneğin, mavi rengin az riskli, sarı rengin orta riskli, turuncu rengin yüksek riskli ve kırmızı rengin çok yüksek riskli iller olmak üzere Türkiye’yi 4 farklı tabakaya ayırabiliriz.

Tabakalı örnekleme genellikle tabakalar arasında eşit tahsis ile yapılır. Bu, örneklemdeki tabaka oranlarının popülasyondaki karşılık gelen oranları temsil etmediği anlamına gelir. Bu sorunu çözmek için, her tabaka için o tabaka büyüklüğünün toplam popülasyona oranı (sampling fraction (f)=n/N) olarak tanımlanan tabaka ağırlıkları dikkate alınarak örneklem büyüklüklerinin belirlenmesi gerekir. Bu yapıldığında, her tabaka için tahminler yanlılık (bias) içermez ve ilgili tabaka büyüklükleri ile çarpılan tabaka ağırlıkları (diğer bir ifadeyle f) tabaka büyüklükleri toplamına eşit olan popülasyon (N) tahminleri de yansız olur. Her tabaka için tarafsız bir tahmincinin varlığı, aynı tasarım için tabakadaki tüm olası örneklemler üzerindeki tahminlerin ortalamasının, tahmin edilen gerçek parametreye eşit olduğu anlamına gelir. Tabaka ağırlıkları doğru bir şekilde hesaplanmazsa, tahminde yanlılığa neden olur. Genel olarak, uygun tabakalı bir örneklemin ağırlıklı ortalaması, popülasyondan basit tekrarsız tesadüfi örnekleme (SRSWOR) ile çekilen örneklemin aritmetik ortalamasından daha az değişkenliğe yani varyansa sahiptir. Tabaka ağırlıkları, tabakalı veriler için varyans tahmininde de kullanılabilir.

Tabakalı örneklemenin mantıklı olacağı birkaç ek örnek düşünebilir misiniz? Tabakalı örneklemede amaç, tabakalar içinde homojenliği yani varyansı azaltmaktır. Tabakalar arasında ise heterojenlik söz konusudur. Tabakalı örnekleme çeşitli avantajları nedeniyle çoğu büyük ölçekli araştırmada kullanılmaktadır.

Tabakalı örneklemenin avantajları nelerdir?

  1. Alt popülasyonların tahmini: Nüfus özelliklerinin tahminlerinin sadece tüm popülasyon için değil, aynı zamanda farklı alt popülasyonları için gerekli olduğu durumlarda, bu tür alt popülasyonlar tabaka olarak ele alınmalıdır. Örneğin, ulusal bir işsizlik anketinde, hükümet tüm ülke için ve il düzeyinde işsizlik rakamlarını tahmin etmekle ilgilenebilir. Bu durumda her il bir tabaka olarak alınabilir.
  2. İdari uygunluk: Araştırmayı yürüten kurum, araştırmanın verimli bir şekilde denetlenebilmesi için nüfusu tabakalı hale getirebilir. Örneğin kurum, her tabaka için ayrı ayrı araştırma yapmak üzere ayrı denetmenler atayabilir.
  3. Örneklemin popülasyonu temsil kapasitesi: Tabakalı örneklemede, tabakaların oluşturulması ve örneklemlerin farklı tabakalara atanması, örneklemin çalışılan özelliklere göre popülasyonu temsil edebileceği şekilde yapılabilir. Örneğin, Türkiye’de farklı etnik grupları temsil eden bir okuldan öğrenci örneklemini seçmek istersek, okulun tamamından basit tesadüfi örnekleme (SRSWOR) ile seçilen örneklem temsil edici olmayabilir. Bu durumda, tabaka olarak farklı etnik gruplarını kullanan tabakalı bir örneklemenin, tüm okuldan alınan bir SRSWOR örnekleminden daha temsili bir örneklem olması beklenir.
  4. Etkinlik: Tabakalı örneklemede, her bir tabakanın çalışılan özelliğe göre homojen hale gelmesini sağlayacak şekilde tabakalar oluşturarak tahminlerin etkinliği artırılabilir. İlgili tabakalara uygun örnekleme şemaları, tahmin edicilerin etkinliklerini artırabilir.
  5. İyileştirilmiş veri kalitesi: Farklı tabakalarda farklı araştırmacılar kullanılarak iyileştirilmiş veri kalitesi elde edilebilir. Örneğin, yerel dilleri bilen araştırmacılar kırsal alanlarda görevlendirilebilirken, kentsel alanlarda İngilizce bilen araştırmacılar daha avantajlı olabilir.
  6. Maliyet: Araştırmada gözlem başına maliyet, popülasyon unsurlarının uygun tabakalara ayrılmasıyla azaltılabilir.

Tabakalı örneklemede notasyonlar şöyledir:

L = tabaka sayısı
Nh = her h. tabakadaki popülasyon büyüklüğü
nh = her h. tabakadan çekilen örneklem büyüklüğü
N = popülasyondaki toplam birim sayısı ya da popülasyon büyüklüğü, yani N1 + N2 + … + NL

Kafamızda canlanması adına tabakalı örnekleme yöntemi Şekil 1 üzerinde gösterilmiştir. Şekil 1’de SRSWOR ifadesi basit tesadüfi tekrarsız örnekleme anlamına gelmekte olup bu örnekleme tekniğinin literatürdeki kısaltılışıdır. Şekil 1 tabakalı örneklemeyi ortaya koysa da biraz bahsetmekte fayda vardır. Popülasyon veya evrenden belirlediğimiz birimlerden tabakalara atanmış popülasyon birimleri üzerinden seçim yaparız. Burada tabaka örneklem (n) büyüklükleri eşit tahsis şeklinde olabileceği gibi orantılı tahsis şeklinde de olabilir. Ancak bu iki yaklaşımdan orantılı olanı tabaka örneklemlerinin popülasyondaki tabakaları temsil etmesi açısından daha iyidir ve tabakalar içerisindeki varyansı eşit seçime göre daha da azaltırsınız. Tabaka örneklem büyüklüklerini belirledikten sonra sıra popülasyon tabakalarından örneklem tabakalarına örneklem birimlerinin seçiminde hangi olasılıklı örnekleme yöntemini benimseyeceğimize gelmektedir. Şekil 1’de görüleceği üzere burada araştırma tasarımına bağlı olarak basit tesadüfi tekrarsız örnekleme veya sistematik olasılıklı yöntemlerinden biri seçilebilir. Çalışmanın sonunda yararlanılan kaynaklar kısmında bu iki örnekleme yöntemleri üzerine R programla dili ve Microsoft Excel kullanarak uygulama olarak yaptığım örnek çalışmaların linklerine yer verilmiştir. Buradan bu iki olasılıklı örnekleme yöntemini uygulamalar üzerinden yakından inceleyebilirsiniz.

Şekil 1: Tabakalı Örnekleme Yöntemi

Örnek Uygulama

Tabakalı örneklemeden bahsettikten sonra şimdi uygulama aşamasına geçebiliriz. Uygulamada kullanılan popülasyon veri seti beden kitle endeksi (BKİ) değerlerini içeren ve 1000 (N) gözlemden oluşan sentetik veri setidir. Olasılıklı örneklem yöntemlerinden basit tekrarlı tesadüfi örnekleme yöntemiyle 7 ve 50 aralığında BKİ değerleri üretilmiştir. BKİ değerleri üretilirken Sağlık Bakanlığı resmi web sitesindeki BKİ alt ve üst referans değerlerinden yararlanılmıştır. Burada belirlenen BKİ alt ve üst limitleri şöyledir:

Parametre DeğeriKategori
18,5 kg/m2’nin altında isezayıf
18,5-24,9 kg/m2 arasında isenormal kilolu
25-29,9 kg/m2 arasında isefazla kilolu
30-34,9 kg/m2 arasında iseI.Derece obez
35-39,9 kg/m2 arasında iseII.Derece obez
40 kg/m2 üzerinde iseIII.Derece morbid obez
Kaynak: https://www.sbn.gov.tr/BKindeksi.aspx

Yukarıdaki tablodaki göstergelerden oluşturulan popülasyon (N) veri seti üzerinden tabakalı örnekleme yapılmıştır. Söz gelimi araştırma kapsamında bu tabakalarda yer alan bireylerle yüz yüze görüşme (face to face interview) yapılarak bu bireylerin beslenme ve sağlıklı yaşam alışkanlıkları araştırılsın. Çalışmanın sonunda tabakalı örnekleme çalışması simülasyonu paylaşılmıştır. Bu simülasyonda tabaka örneklem büyüklüğünün belirlenmesinden örneklem seçimine kadar pek çok konu bulunmaktadır. Zaten simülasyonu inceleyince konuyu çok yüksek ihtimalle ayrıntılı bir şekilde öğrenmiş olacaksınız. Tablo 1’de BKİ (Beden Kitle Endeksi) değerleri kategorize edilmiş ve tabaka olarak alınmıştır. Tabaka sayımız yani L=6, popülasyon büyüklüğü (N) ise 1000’dir.

Tablo 1: Tabakalar (L=6) ve Büyüklükleri

TabakaN
Zayıf257
Normal Kilolu161
Fazla Kilolu119
I.Derece Obez114
II.Derece Obez122
III.Derece Morbid Obez227
Toplam1000

Tabaka örneklemlerinin popülasyonu ve popülasyon tabakalarını daha iyi temsil etmesini istediğimiz için orantılı tahsis yöntem ile tabaka örneklem büyüklüklerini belirliyoruz. Ancak tabaka örneklem büyüklüğüne geçmeden önce popülasyon büyüklüğünün bilindiğinden hareketle popülasyondan çekilecek örneklem büyüklüğünü aşağıda yazılan eşitlikle hesaplayalım.

Aşağıdaki eşitlikte kullanılan parametreler içerisinde

N=Popülasyon büyüklüğünü

n=Örneklem büyüklüğünü

p= Olayın görülüş olasılığını

q= (1-p) = Olayın görülmeme olasılığını

t= t tablo değerini

d= Tolerans seviyesini

göstermektedir.

Örneklem büyüklüğünün hesaplanmasında bilinen parametreler aşağıdakiler olsun:

N=1000

p=0,05

q=0,05

t=1,96

d=0,05

Verilenlere göre popülasyondan çekilecek örneklem büyüklüğünü hesaplayalım.

Bu çalışmada söz gelimi popülasyondan çekeceğimiz örneklem büyüklüğü (n) yaklaşık 278’dir. Tabakaların örneklem büyüklüklerini hesaplamak için bu aşamada yapılacak ilk işlem tabaka ağırlığı (w)’nın hesaplanmasıdır. Tabaka ağırlığı, n/N eşitliği ile hesaplanmaktadır. Bu çalışmada belirlenen tabaka ağırlığı (w) = n/N=277,7/1000=0,2777‘dir.

Daha sonra bu ağırlık katsayısı ile tabaka büyüklüğü (Ni) çarpılarak tabaka örneklem büyüklükleri belirlenmektedir. Bu durumda tabakalara göre hesaplanan örneklem büyüklükleri Tablo 2’de verilmiştir. Burada somutlaştırmak adına Zayıf tabakasının örneklem büyüklüğünü hesaplayalım.

  • Zayıf tabakası (n1) için örneklem büyüklüğü n1=(257x 0,2777=71‘dir. Bu işlem diğer tabakalara da uygulanırsa Tablo 1’de en sağ sütundaki sonuçlar elde edilmiş olur.
  • Tabaka örneklem büyüklükleri belirlendikten sonra sıra tabaka örneklem (n) büyüklüklerine göre tabakalardan örneklem birimlerini seçmeye gelmiştir. Bu aşamada olasılıklı örnekleme yöntemlerinden biri olan basit tesadüfi tekrarsız örnekleme (SRSWOR) veya sistematik örnekleme yöntemini kullanabilirsiniz. Bu çalışmada kullanılan olasılıklı örnekleme yöntemi SRSWOR’dur. Bu örnekleme yönteminde tabakalardaki popülasyon birimlerinin her birine tabaka örneklemlerine eşit seçilme şansı veriyoruz.

Tablo 2: Tabakalar (L=6) ve Tabaka Örneklem (n) Büyüklükleri

TabakaNÖrneklem (n) Büyüklüğü
Zayıf25771,0
Normal Kilolu16145
Fazla Kilolu11933
I.Derece Obez11432
II.Derece Obez12234
III.Derece Morbid Obez22763
Toplam1000278

Bahsedilenler Şekil 2 üzerinde de özetlenmiştir.

Şekil 2: Tabakalı Örnekleme Uygulaması

Örnek uygulamadaki yapılanları ve tabaka örneklem birimlerinin seçimini göstermesi adına örneklem büyüklüğü (n) 278’de sabitlenmiş olup, aşağıda Microsoft Excel uzantılı (xlsx) olarak paylaşılmıştır. Buradan bu dokümanı indirebilirsiniz.

Örnek uygulama üzerinden hazırladığım simülasyon çalışması da aşağıda Microsoft Excel uzantılı (xlsx) olarak paylaşılmıştır. Burada örneklem büyüklüğü (n) tesadüfi bir şekilde belirlenmekte olup, çalışmalarınıza da uyarlayabilirsiniz. Bu simülasyonda örneklem büyüklüğünü sizin belirlemenize gerek bulunmamaktadır. =RASTGELEARADA(300;750) fonksiyonu ile 300 ile 750 arasında tesadüfi bir şekilde örneklem büyüklüğü belirlenmektedir. Aynı zamanda çalışma içerisinde F9 tuşuna basılı tutarak simulasyondan basit tekrarsız tesadüfi örnekleme yöntemiyle yeni örneklem birimleri seçebilirsiniz. Özellikle bu simülasyon çalışmasının sahada ve akademide faaliyet gösteren çalışanlara çok faydalı olacağı düşünülmektedir. Bu çalışmanın içerisinde olasılıklı örneklem seçiminden örneklem büyüklüğünün belirlenmesi kadar pek çok konu mevcuttur.

Buradan simülasyon çalışmasını indirebilirsiniz.

Simülasyon çalışmasında bazı sayfalardaki formüller şifre ile korunmuştur. Değişiklik yapılması istenmesi durumundan sayfa korumasının kaldırılması için şifre olarak “tevfik” girilmesi yeterlidir. Özellikle bu simülasyon çalışmasının sahada ve akademide faaliyet gösteren çalışanlara çok faydalı olacağı düşünülmektedir. Bu çalışmanın içerisinde olasılıklı örneklem seçiminden örneklem büyüklüğünün belirlenmesine kadar pek çok konu mevcuttur. Bu simülasyonda örneklem büyüklüğünü tesadüfi bir şekilde belirlendiğinden sizin belirlemenize gerek bulunmamaktadır.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla…

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Öne çıkan

Z Tablosuna Göre Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for Calculating Confidence Interval by Z Table

Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Tanımlayıcı ve çıkarımsal istatistiklerin rolü nedir? Hipotez testlerinde yapılan hatalar nelerdir? Bu çalışmada bahsedilen bu sorulara cevaplar bulunacaktır. Bu amaçla olasılıklı örneklem yöntemlerinden biri olan ön yargısız (without bias) basit tesadüfi tekrarsız örneklem yöntemi kullanılmıştır. Basit tekrarlı örneklem yöntemi ile ise rastgele beden kitle endeksi verileri üretilmiştir. Üretilen bu sentetik veriler üzerinden deneysel güven aralığı çalışması hazırlanmıştır. Diğer programlama dilleri kullanılarak veya paket programlar üzerinde de bu çalışmanın yapılması her zaman mümkündür. Bunu da yapabilirdim ancak Microsoft Office Excel 2016 kullanılarak güven aralığı çalışması yapılmasının daha uygun olacağını düşündüm. Bunun nedeni excel üzerinde okuyucuya fonksiyon (formül) etkileşimleri gösterilerek konu hakkında daha fazla katkı sunulması amaçlanmasıdır. İki farklı güven aralığı çalışmasına yer verilmiştir. İlkinde güven aralığı çalışmasında elde edilen değerler sabitlenmiştir. İkincisi ise simülasyona izin verecek dinamik bir şekilde excel uzantılı dosya içerisinde sunulmuştur.Bunun nedeni seçilen örneklemlerdeki parametre ve güven aralıkları değişimlerinin karşılaştırmalı ve dinamik olarak sunulmak istenmesidir.

Tanımlayıcı istatistiklerin rolü nedir?

Adından da anlaşılacağı gibi, tanımlayıcı istatistikler (descriptive statistics) bir veri kümesini tanımlar. Burada, bir araştırmacının bir veri seti hakkında bilmek isteyebileceği üç şeyi nasıl belirleyeceğimizi tartışıyoruz:

  1. Merkezi eğilim noktaları,
  2. Değişkenlik miktarı (varyans derecesi)
  3. İki veya daha fazla değişkenin birbiriyle ilişkilendirilme derecesi.

Merkezi Eğilim Ölçüleri

Merkezi bir eğilim noktası, verilerin etrafında döndüğü bir noktadır, belirli bir değişkenle ilgili verilerin etrafında dolaştığı bir orta sayıdır. İstatistik dilinde, böyle bir noktayı belirleme tekniklerine atıfta bulunmak için merkezi eğilim ölçüleri terimini kullanıyoruz. Merkezi eğilimin yaygın olarak kullanılan üç ölçüsü mod, medyan (ortanca) ve ortalamadır ve her biri kendi özelliklerine ve uygulamalarına sahiptir.

Mod, en sık meydana gelen tek sayı veya puandır. Ortanca, bir puan setinin sayısal merkezidir. Ortalama ise belirli bir değişken için puanların aritmetik ortalamasıdır. Hesaplamak için tüm puanların toplamını hesaplıyoruz (her gerçekleştiğinde her puanı ekliyoruz) ve ardından toplam puan sayısına bölüyoruz.

Ortalama ayrıca istatistiksel analizlerde ve araştırma raporlarında en yaygın olarak kullanılan merkezi eğilim ölçüsüdür. Bununla birlikte, yalnızca aralık veya oran verileri için uygundur, çünkü yalnızca sayılar belirli bir ölçek boyunca eşit aralıkları yansıttığında bir ortalamayı hesaplamak matematiksel olarak mantıklıdır.

Medyan, sıralı verilerde daha uygundur. Medyan, bir araştırmacı bir yönde veya diğerinde oldukça çarpık bir veri kümesiyle uğraşırken de sıklıkla kullanılır. Medyanlar genellikle aile geliri ve finansal varlıkların düzeylerinde merkezi eğilimi yansıtmak için kullanılır; çoğu aile geliri ve hane halkı varlıkları ölçeğin alt ucunda kümelenmiştir ve yalnızca çok azı bu aralıkta yayılmıştır. Buradan medyanın uç değerlerden etkilenmediği anlaşılmaktadır.

Her durumda, temel bir ilke geçerlidir: Verilerin konfigürasyonu, o özel durum için en uygun merkezi eğilim ölçüsünü belirler. Veriler normal dağılım gösteren bir eğriye yaklaşan bir dağılıma yakınsarsa, bir merkezi eğilim ölçüsü gerektirirler. Eğer bir ogive-eğri niteliğine sahiplerse (bir büyüme durumunun özelliği), başka bir ölçüt gerekir. Birden fazla zirveye sahip olan çok modlu bir dağılım, yine de üçüncü bir yaklaşımı gerektirebilir; örneğin, araştırmacı onu iki veya daha fazla mod açısından tanımlayabilir. Araştırmacı, ancak verilerin özelliklerinin dikkatli ve bilinçli bir şekilde değerlendirilmesinden sonra en uygun istatistiği seçebilir.

Bu nedenle, veri analizlerinde istatistik kullanan araştırmacılar için temel bir kuralı vurgulamalıyız: Verilerin doğası istatistiksel tekniği belirler, tersi bir durum geçerli değildir. Tıpkı doktorun belirli hastalıklar ve bozukluklar için hangi ilaçların mevcut olduğunu bilmesi gerektiği gibi, araştırmacının da belirli araştırma taleplerine hangi istatistiksel tekniklerin uygun olduğunu bilmesi gerekir. Tablo A, her bir ölçünün uygun olduğu çeşitli veri türleri ile birlikte merkezi eğilim ölçüleri ve kullanımlarının bir özetini sunmaktadır.

Tablo A: Farklı Veri Türleri İçin Merkezi Eğilim Ölçülerini Kullanma

Merkezi Eğilim ÖlçüsüNasıl Belirlenir (N = puan sayısı)Uygun Olduğu Veriler
ModEn sık meydana gelen puan belirlenir.● Nominal, sıra, aralık ve oran ölçek türündeki veriler
● Çok modlu dağılımlar (bir dağıtımın birden fazla zirvesi olduğunda iki veya daha fazla mod tanımlanabilir)
MedyanPuanlar en küçükten en büyüğe sıralanır ve orta puan (N tek sayı olduğunda) veya iki orta puan arasındaki orta nokta (N çift sayı olduğunda) belirlenir.● Sıra, aralık ve oran ölçekleriyle ilgili veriler
● Oldukça çarpık veriler
Aritmetik ortalamaTüm puanlar toplanır ve toplamları toplam puan sayısına (N) bölünür.● Aralık ve oran ölçekleriyle ilgili veriler
● Normal dağılım gösteren veriler
Geometrik OrtalamaTüm puanlar birlikte çarpılır ve çarpımlarının N’inci kökü hesaplanır.● Oran ölçekleriyle ilgili veriler
● Bir büyüme (ogive) eğrisine yakın olan veriler (Örneğin, büyüme verileri)

Kaynak: Leedy ve Ormrod (2021). Practical Research: Planning and Design

Değişkenlik Ölçüleri: Dağılım ve Sapma

Veri merkezi eğilim noktası etrafında ne kadar çok kümelenirse, belirli bir veri noktasının nerede olduğuna dair doğru bir tahminde bulunma olasılığı o kadar artar. Şekil A’da gösterildiği gibi, ortalamaya yakın kümelenirlerse veriler daha benzerdir. Onları dağıtın ve tekdüzeliklerinin bir kısmını kaybederler; daha çeşitli, daha heterojen hale gelirler. Belirli veri noktaları ortalamadan uzaklaştıkça, kendilerini “ortalama” yapan kaliteyi giderek daha fazla kaybederler.

Şekil A: Değişkenlikte Farklılaşan Dağılımlar

Kaynak: Leedy ve Ormrod (2021). Practical Research: Planning and Design

Değişkenliğin en basit, en açık göstergesi, verilerin en düşük değerden en yüksek değere yayılmasını gösteren aralıktır:

Aralık = En yüksek puan – En düşük puan.

Aralığın hesaplanması kolay olmasına rağmen, değişkenliğin bir ölçüsü olarak sınırlı kullanışlılığa sahiptir ve aşırı üst veya alt sınırlar serideki diğer değerlerden atipik ise yanıltıcı olabilir.

Diğer değişkenlik ölçüleri, başlangıç noktası olarak daha az uç değerler kullanır. Böyle bir ölçü, çeyrekler arası aralıktır. Dağılımı dört eşit parçaya bölersek, 1. çeyrek grup üyelerinin % 25’inin altında olduğu bir noktada yer alır. 2. Çeyrek, grubu iki eşit parçaya böler ve medyan ile aynıdır. 3. çeyrek, değerlerin % 75’inin altında olduğu bir noktada yer alır. Çeyrekler aralığı, Çeyrek 3 (75. yüzdelik nokta) eksi Çeyrek 1’e (25. yüzdelik nokta) eşittir:

Çeyrekler arası aralık = 3. Çeyrek – 1. Çeyrek

Böylece, çeyrekler arası aralık bize dağılımdaki vakaların % 50’si için aralığı verir. Çeyrekler medyan ile ilişkili olduğundan, merkezi eğilim ölçüsü olarak medyanı kullanan herhangi bir araştırmacı, çeyrek sapmayı da değişkenlik için olası bir istatistiksel ölçü olarak dikkate almalıdır. Sıralı verilerle veya çok çarpık verilerle çalışırken, bazı araştırmacılar, en düşük ve en yüksek sayıların yanı sıra Çeyrek 1, ortanca (aynı zamanda Çeyrek 2’dir) ve Çeyrek 3’ten oluşan beş göstergeyi raporlar.

Şimdi bunun yerine ortalamayı başlangıç noktası olarak kullanalım. Her bir puanın ortalamadan ne kadar uzakta olduğunu belirlediğimizi hayal edin. Yani, her puan ile ortalama arasındaki farkı hesaplıyoruz (bu farka sapma diyoruz). Tüm bu farkları toplarsak (artı ve eksi işaretlerini göz ardı ederek) ve ardından toplamı puan sayısına bölersek (bu, puan ortalaması farklılıklarının sayısını da yansıtır), herhangi bir puan ile ortalama arasındaki farkların ortalamasını alırız. Bu işlem bazen ortalama sapma (AD) olarak adlandırılır. Ortalama sapma eşitliği:

Burada | X – M |, artı ve eksi işaretleri dikkate alınmadan X-M anlamına gelir. Diğer bir deyişle, her bir puan ile ortalama arasındaki farkın mutlak değeridir.

Ortalama sapma kolayca anlaşılır ve bu nedenle bazı anlamlar içerir. Başka bir istatistiksel prosedür düşünülmediğinde kabul edilebilir. Birincil zayıflığı, mutlak değerleri kullanmasıdır. Bunun yerine, hesapladığımız puanda artı ve eksi işaretlerini tutarsak ne olacağını hayal edin. Ortalamanın solunda bulunan (ve dolayısıyla ortalamadan daha küçük bir değere sahip olan) herhangi bir sayı için, sayı ile ortalama (X-M) arasındaki fark negatif bir sayı olacaktır. Buna karşılık, ortalamanın sağında bulunan herhangi bir sayı, pozitif bir X-M değeri verir. Tüm olumlu ve olumsuz sapmaları bir araya getirdiğimizde, birbirlerini tamamen dengeleyecekler, esasen birbirlerini “iptal edecekler” ve genel bir sıfır toplamı vereceklerdi. Ortalama sapma, artıları ve eksileri göz ardı ederek bu sorunu ortadan kaldırır. Yine de bu oldukça şüpheli bir prosedürdür. Sevmediğimiz şeyleri görmezden gelmek ne sağlam matematik ne de sağlam araştırma uygulamasıdır.

Ortalama sapma formülünden farklı olarak, standart sapma formülü, mutlak değerle negatifleri pozitiflere dönüştürür. Daha spesifik olarak formül, puan-ortalama farklılıklarının her birinin karesinin alınmasını gerektirir. Örneğin, (X-M)2.

Aritmetikte, negatif bir sayıyı kendisiyle çarptığımızda, sonuç pozitif bir sayıdır. Elbette aynı şey pozitif bir sayının karesini almak için de geçerlidir; dolayısıyla, pozitif farklılıkları dengelemek için negatif puan – ortalama farkı bu durumda yoktur.

Standart bir sapmayı hesaplamak için (sırasıyla bir popülasyon parametresi ve örneklem istatistiği için σ veya s olarak sembolize edilir), ortalama sapmanın hesaplanmasına benzer bir prosedür izliyoruz. Bununla birlikte, puanın mutlak değerlerini elde etmek yerine – ortalama farklar, bu farkların her birinin karesini alırız. Daha sonra tüm farkların toplamını (Σ) hesaplıyoruz, bu toplamı puan sayısına böleriz ve son olarak yeni elde edilen bölümün karekökünü buluruz. Bu nedenle, popülasyon standart sapmanın formülü aşağıdaki gibidir:

Bu görselin boş bir alt özelliği var; dosya ismi: image-5.png

Standart sapma, istatistiksel prosedürlerde en yaygın olarak kullanılan değişkenliğin ölçüsüdür. Birçok istatistiksel prosedür, standart sapmaya ek olarak veya bunun yerine ikinci, ilgili bir değişkenlik ölçüsü kullanır. Bu istatistik, basitçe standart sapmanın karesi olan varyans olarak bilinir:

Bu görselin boş bir alt özelliği var; dosya ismi: image-8.png

Normal ve normal olmayan dağılımların karakteristikleri nelerdir?

Genel olarak normal dağılım veya normal eğri olarak adlandırılan bu model için çan eğrisi terimini de görebilirsiniz. Normal dağılımın birkaç ayırt edici özelliğe sahiptir:

  • Yatay olarak simetriktir. Bir taraf, diğer tarafın aynadaki yansımasıdır, yani eğri simetriktir.
  • En yüksek noktası orta noktasıdır. Daha fazla insan (veya araştırmanın odağı olan diğer birimler), eğri boyunca başka herhangi bir noktada olduğundan daha tam ortada yer alır. İstatistiksel terimlerle, merkezi eğilimin yaygın olarak kullanılan üç ölçüsü, mod, medyan ve ortalama (tümü kısaca açıklanacak) bu noktada birbirine eşittir.
  • Nüfusun tahmin edilebilir yüzdeleri, eğrinin her iki bölümünde bulunur. Eğriyi standart sapmasına göre bölersek (ayrıca kısaca açıklanacaktır), popülasyonun belirli yüzdelerinin her iki kısmında yer aldığını biliyoruz. Özellikle, popülasyonun yaklaşık % 34,1’i ortalama ile ortalamanın altındaki bir standart sapma arasındadır ve diğer % 34,1’i ortalama ile ortalamanın üzerindeki bir standart sapma arasındadır. Nüfusun yaklaşık % 13,6’sı ortalamanın altında bir ila iki standart sapma arasında yer alırken, diğer % 13,6’sı ortalamanın üzerinde bir ve iki standart sapma arasında yer alır. Kalan % 4,6, dağılımın her bir ucunda % 2,3 ile ortalamadan iki veya daha fazla standart sapma uzaktadır. Bu model Şekil B’de gösterilmektedir. Normal dağılımın herhangi belirli bir bölümünde yer alan nüfus oranları, çoğu giriş istatistik kitabında bulunabilir.

Şekil B: Normal Dağılımın İki Kısmındaki Yüzdeler

Kaynak: Leedy ve Ormrod (2021). Practical Research: Planning and Design

Ancak bazen veriler normal bir dağılımı yansıtmaz. Örneğin, dağılımları orantısız veya çarpık olabilir. “Çarpıklık”, dağılımın biraz daha bir tarafa uzanan kısmıdır. Tepe orta noktanın solunda yer alıyorsa, dağılım pozitif olarak çarpıktır; tepe orta noktanın sağında yer alıyorsa, dağılım negatif olarak çarpıktır. Ya da belki bir dağılım alışılmadık derecede sivri veya düzdür, öyle ki dağılımın her bir bölümündeki yüzdeler Şekil B’de gösterilenlerden önemli ölçüde farklıdır. Burada, bir leptokürtik dağılımı yansıtan alışılmadık şekilde sivri bir dağılımla ve alışılmadık derecede düzleşen platikürtik bir dağılım olan basıklıktan bahsediyoruz (Bkz. Şekil C).

Şekil C: Normal Dağılımdan Ayrılışlar

Kaynak: Leedy ve Ormrod (2021). Practical Research: Planning and Design

Parametrik ve parametrik olmayan istatistikler arasında neden seçim yaparız?

İstatistiksel prosedürler seçiminiz, bir dereceye kadar verilerinizin yapısına ve bunların normal dağılımı ne ölçüde yansıttığına bağlı olmalıdır. Parametrik istatistikler olarak bilinen bazı istatistikler, söz konusu popülasyonun doğası hakkında belirli varsayımlara dayanmaktadır. En yaygın varsayımlardan ikisi şunlardır:

  • Veriler aralık veya oran ölçeğinde olmalıdır.
  • Veriler normal bir dağılım göstermelidir (örneğin, dağılımın merkezi bir yüksek noktası vardır ve ciddi şekilde çarpık, leptokurtik veya platikurtik değildir).

Bu varsayımlardan herhangi biri ihlal edildiğinde, parametrik istatistiklerden elde edilen sonuçlar hatalı olabilir.

Buna karşılık, parametrik olmayan istatistikler bu tür varsayımlara dayalı değildir. Örneğin, bazı parametrik olmayan istatistikler, doğası gereği aralıktan ziyade sıralı olan veriler için uygundur. Diğerleri, bir popülasyon bir yönde veya diğerinde oldukça çarpık olduğunda yararlı olabilir.

“Veriler hakkında herhangi bir varsayımda bulunmaktan (ve muhtemelen ihlal etmekten) kaçınmak için neden her zaman parametrik olmayan istatistikleri kullanmıyorsunuz?” diye düşünüyor olabilirsiniz. Nedeni basit: En karmaşık ve güçlü çıkarımsal istatistiklerimiz parametrik istatistiklere dayanmaktadır. Parametrik olmayan istatistikler, genel olarak, yalnızca nispeten daha basit analizler için uygundur.

İyimser bir not olarak, bazı istatistiksel prosedürlerin belirli varsayımlar açısından sağlam (robust) olduğunu belirtmeliyiz. Yani, bir varsayım karşılanmadığında bile genellikle geçerli sonuçlar verirler. Örneğin, belirli bir prosedür normal dağılımda olduğu gibi leptokürtik veya platikürtik dağılım için de geçerli olabilir, yani aralık verilerinden ziyade sıralı verilerle bile geçerli olabilir.

Çıkarımsal istatistiklerin rolü nedir?

Çıkarımsal (inferential) istatistikler, nispeten küçük örneklemlerden büyük popülasyonlar hakkında çıkarımlar yapmamızı sağlar. Daha spesifik olarak, çıkarımsal istatistiklerin iki ana işlevi vardır:

  1. Rastgele bir örneklemden bir popülasyon parametresini tahmin etmek,
  2. İstatistiksel temelli hipotezleri test etmek

Özellikle nicel araştırma yaptığımızda çoğu kez, örneklemin alındığı daha büyük popülasyon hakkında bilgi edinmek için bir örneklem kullanıyoruz. Tipik olarak, çalıştığımız örneklem için çeşitli istatistikleri hesaplıyoruz. Çıkarımsal istatistikler bize bu örneklem istatistiklerin genel popülasyonun parametrelerine ne kadar yakın olduğunu söyleyebilir. Örneğin, genellikle merkezi eğilim (örneğin, ortalama veya μ), değişkenlik (örneğin, standart sapma veya σ) ve oran (P) ile ilgili popülasyon parametrelerini tahmin etmek isteriz. Popülasyondaki bu değerler, örneklemdeki M veya X, s ve p parametreleri ile karşılaştırılır.

Buradaki sorun, örneklem istatistikleri temelinde popülasyon yani evren parametrelerini belirlemektir. Popülasyon parametrelerinin istatistiksel tahminleri, örneklemin tesadüfi seçildiği (mutlaka olasılıklı örnekleme yöntemi olmalı) ve toplam popülasyonu temsil ettiği varsayımına dayanmaktadır. Yalnızca tesadüfi, temsili bir örneklem olduğunda, istatistiklerimizin popülasyon parametrelerini ne kadar yakından tahmin ettiğine dair makul tahminlerde bulunabiliriz. Bir örneklem rastgele olmadığı ve dolayısıyla temsili olmadığı ölçüde – seçimi bir şekilde önyargılı olduğu ölçüde – hesapladığımız istatistikler, örneklemin alındığı popülasyonu yansıtmaz.

Popülasyonlardan gelen tesadüfi örneklemler – lütfen burada tesadüfi kelimesine dikkat edin – seçildikleri popülasyonlarla kabaca aynı özellikleri gösterir. Bu nedenle, örneklemimizin ortalama yüksekliğinin, genel popülasyonun ortalamasıyla yaklaşık olarak aynı olmasını beklemeliyiz. Ancak tam olarak aynı olmayacaktır.

Farklı örneklemler – her biri aynı popülasyondan rastgele seçilse bile – neredeyse kesinlikle o popülasyon hakkında biraz farklı tahminler verecektir. Popülasyon ortalaması ile örneklem ortalaması arasındaki fark, tahminimizde bir hata oluşturur. Popülasyonun tam olarak ne anlama geldiğini bilmediğimiz için tahminimizde ne kadar hata olduğunu da bilmiyoruz. Ancak üç şey biliyoruz:

  1. Sonsuz sayıda rastgele örneklemlerden elde edebileceğimiz ortalamalar normal bir dağılım oluşturur.
  2. Örneklemlerin ortalamalarının ortalaması, örneklemlerin alındığı popülasyonun ortalamasına eşittir (μ). Başka bir deyişle, popülasyon ortalaması, tüm örneklem ortalamalarının ortalamasına eşittir.
  3. Örneklem ortalamalarının dağılımının standart sapması, genel popülasyon için ölçülen değişkenin – tüm ortalamalarını hesapladığımız değişken – standart sapmasıyla doğrudan ilgilidir.

Nokta tahminleri mi yoksa aralık tahminleri mi?

Popülasyon parametrelerini tahmin etmek için örneklem istatistikleri kullanırken, iki tür tahmin yapabiliriz: nokta tahminleri ve aralık tahminleri.

Nokta tahmini, popülasyon parametresinin makul bir tahmini olarak kullanılan tek bir istatistiktir; örneğin, popülasyon ortalamasına yakın bir yaklaşım olarak örneklem ortalamasını kullanabiliriz. Nokta tahminlerinin kesin olma gibi görünen faydası olsa da, aslında bu kesinlik yanıltıcıdır. Bir nokta tahmini tipik olarak popülasyondaki eşdeğeriyle tam olarak uyuşmaz.

Daha doğru bir yaklaşım – yine de % 100 güvenilir olmasa da – parametrelerin aralık tahminlerini belirlemektir. Özellikle, bir popülasyon parametresinin muhtemelen içinde bulunduğu bir aralığı belirleriz ve gerçekte orada olma olasılığını belirtiriz. Bu tür bir aralığa genellikle güven aralığı denir, çünkü tahmine belirli bir olasılık seviyesi ekler. Yani, güven aralığı, tahmin edilen aralığın popülasyon parametresini içerdiğine dair belirli bir güven seviyesidir.

Hipotez testlerindeki hatalar nelerdir?

Elbette, belirli bir sonucun tek başına tesadüflerin sonucu olmadığına karar verdiğimizde hata yapmamız mümkündür. Aslında, herhangi bir sonuç muhtemelen tesadüflere bağlı olabilir; Örneğimiz, rastgele seçilmesine rağmen, sadece çekilişin şansı aracılığıyla atipik özellikleri gösteren bir şans olabilir. Aslında bir sonucun şans eseri olduğu halde bir sonucun şans eseri olmadığı sonucuna varırsak, yani eğer boş hipotezi yanlış bir şekilde reddedersek Tip I hatası yapıyoruz (alfa hatası da denir).

Başka bir durumda ise bir sonucun aslında tesadüflerden kaynaklandığı sonucuna varabiliriz. Böyle bir durum, aslında yanlış olan boş bir hipotezi reddetmeyi başaramadığımız durumdur. Bu durum, beta hatası olarak da bilinen Tip II hatasıdır. Örneğin, yeni bir ilacın, insanların kanındaki düşük yoğunluklu lipoprotein kolesterolü (“kötü” kolesterol türü) azaltmadaki etkilerine karşı plasebonun göreli etkilerini test ettiğimizi hayal edin. Belki de yeni ilacı alan kişilerin ortalama olarak, plasebo alanlara göre daha düşük bir kolesterol seviyesine sahip olduğunu görürüz, ancak fark küçüktür. Sadece şansa bağlı olarak 100 üzerinden 25 kez böyle bir farkın ortaya çıkabileceğini keşfederiz ve bu nedenle boş hipotezi muhafaza ederiz. Gerçekte, ilaç, kolesterolü bir plasebodan daha fazla düşürüyorsa, Tip II hatası yapmış oluruz.

İstatistiksel hipotez testi tamamen bir olasılık meselesidir ve her zaman Tip I veya Tip II hata yapma şansımız vardır. Önem düzeyimizi, örneğin 0,05’ten 0,01’e veya belki daha da düşük bir düzeye düşürerek Tip I hata yapma olasılığını azaltabiliriz. Bununla birlikte, bunu yapma sürecinde, Tip II hata yapma olasılığımızı artırıyoruz – aslında yanlış olan boş bir hipotezi reddetmekte başarısız olacağız. Tip II hata olasılığını azaltmak için, anlamlılık düzeyimizi (α) artırmamız gerekir; bu, sıfır hipotezini reddetme olasılığını artırdığı için, aynı zamanda Tip I hata olasılığını da artırır. Açıkçası, o zaman Tip I ve Tip II hataları arasında bir denge vardır: Birini yapma riskini her azalttığınızda, diğerini yapma riskini artırırsınız.

Yeni bir araştırmacı için önemsiz sonuçlar elde etmek son derece sinir bozucu olabilir – istatistiksel bir bakış açısıyla, sadece tesadüflere bağlı olanlar. Aşağıda, Tip II hata yapma olasılığını azaltmak ve böylece yanlış bir sıfır hipotezini doğru bir şekilde reddetme olasılığını artırmak için dört öneri bulunmaktadır. Başka bir deyişle, bunlar istatistiksel bir testin gücünü artırmak için önerilerdir:

  • Mümkün olduğu kadar büyük bir örneklem kullanın. Örneklem ne kadar büyükse, hesapladığınız istatistikler gerçek popülasyon parametrelerinden o kadar az farklılık gösterir.
  • Değerlendirme araçlarınızın geçerliliğini ve güvenilirliğini en üst düzeye çıkarın. Bir araştırma çalışmasındaki değerlendirme araçları nadiren mükemmel (% 100) geçerliliğe ve güvenilirliğe sahiptir, ancak bazı araçlar diğerlerinden daha geçerli ve güvenilirdir. Yüksek geçerlilik ve güvenilirliğe sahip araçları veya diğer değerlendirme stratejilerini kullanan araştırma projelerinin istatistiksel olarak anlamlı sonuçlar vermesi daha olasıdır.
  • Mantıksal olarak savunulabilir ve lojistik olarak pratikse, bağımlı değişkeninizin tekrarlanan ölçümlerini elde edin. Diğer şeyler eşit ya da sabit olduğunda, her katılımcı için belirli bir davranış veya özelliğin tekrarlanan ölçümleri istatistiksel analizlerin gücünü artırır. Tekrarlanan ölçümler, (a) her bir katılımcı için genel değerlendirme puanlarının güvenilirliğini artırarak ve/veya (b) değerlendirme puanlarındaki olası değişkenlik kaynakları olarak konular arasındaki farklılıkları istatistiksel olarak kontrol ederek istatistiksel gücü artırır.
  • Mümkün olduğunca parametrik olmayandan ziyade parametrik istatistikleri kullanın. Genel bir kural olarak, parametrik olmayan istatistiksel prosedürler parametrik tekniklerden daha az güçlüdür. “Daha az güçlü” ile parametrik olmayan istatistiklerin tipik olarak, araştırmacının boş bir hipotezi reddetmesini sağlayan sonuçlar elde etmek için daha büyük örnekler gerektirdiğini kastediyoruz. Verilerin özellikleri parametrik istatistik varsayımlarını karşıladığında bu istatistikleri kullanmanızı tavsiye ederiz.

Güven aralığı nedir?

Maliyetlerin yüksekliği, uzun zaman alması, güncel ve derinlemesine veri elde edilmesi gibi temel öncelikler esas alınarak sıklıkla kişiler ya da kurumlar popülasyonun tamamının yerine bu popülasyonu temsil eden örneklem üzerinde araştırma yapmayı tercih ederler. Ancak seçilen örneklemin popülasyonun tamamını temsil etmesi isteniyorsa yeterli örneklem büyüklüğü (n) belirlenerek mutlaka olasılıklı örneklem yöntemlerinden biri veya birkaçı birlikte kullanılmalıdır. Popülasyonun tamamı yerine bu popülasyondan seçilen örneklem söz konusu olunca örneklem popülasyonu ne kadar temsil ediyor sorusu ortaya çıkmaktadır. Güven aralığı ise aslında tam da bize bunu söylemektedir. Güven aralığı, popülasyon ortalamasının tahmincisi olup, bize örneklem ortalamalarının popülasyon ortalamasından ne kadarlık bir sapma olduğunu göstermektedir. Güven aralığının bir alt limit (lower bound)’i ve üst limit (upper bound)’i vardır. Bu alt ve üst limitlerin olması güven aralığına adını vermektedir. Yani örneklemden elde edilen güven aralıkları popülasyon ortalamasını mutlaka içerecektir. Burada güven aralığındaki alt ve üst limitin yorumlanması önem arz etmektedir. Alt ve üst limitler arasında fark ne kadar az ise, diğer bir deyişle güven aralığı genişliği (CI Width) ne kadar dar ise örneklem ortalaması popülasyon ortalamasına o kadar yakın ve popülasyon ortalamasını o kadar doğru tahmin ediyor demektir. Tersi bir durum, örneklem ortalamasının popülasyon ortalamasından uzaklaşması anlamı taşımaktadır ki, bu durum örneklemin popülasyonu kötü temsili anlamına gelmektedir.

Örneğin bir okulda 70 öğrenciden oluşan tesadüfi bir örneklem seçildi ve seçilen her öğrenciye bir matematik testi uygulandı. Matematik testi puanları için % 95 güven aralığı oluştururken alt limitimiz 56,302 puan, üst limitimiz 84,422 puan olsun. Yani 56,302<popülasyon ortalaması< 84,422 olsun. Bu durumda bizim güven aralığı yorumumuz şöyle olacaktır: Bu okuldaki tüm öğrencilerin popülasyonundaki ortalama matematik puanının 56,302 ile 84,422 arasında olduğuna % 95 eminiz demektir. Tersinden düşünürsek % 5 emin değiliz anlamı da çıkmaktadır. Bu % 5’lik hata, bizim Tip I (alfa hatası olarak da bilinir) hatamızı göstermektedir.

Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır?

Genel olarak, güven aralığını hesaplamak için adım adım ele alınması gereken parametreler Şekil 1’de verilmiştir.

Şekil 1: Güven Aralığı Hesaplama Adımları

Şekil 1’de görüleceği üzere ilk olarak popülasyondan çekilen örneklemin ortalaması hesaplanır. Ortalama ise aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Eşitlik örneklem ortalamasının hesaplanmasına yönelik olduğu için “X” parametresi kullanılmıştır. Örneklem ortalaması bütün gözlem değerlerinin toplamının toplam gözlem sayısına bölünmesi ile elde edilir. Eşitlikte küçük “n” örneklem büyüklüğünü ifade etmektedir.

Eğer popülasyon ortalamasını hesaplamış olsaydık eşitlikte n yerine büyük “N” e yer verecektik. Burada N popülasyondaki gözlem sayısını ifade etmektedir. Popülasyon ortalaması (μ) ise bütün gözlem değerlerinin toplamının toplam gözlem sayısı (N)’na bölünmesi ile elde edilmekte olup, aşağıdaki eşitlik yardımıyla hesaplanır.

Örnekleme ait standart sapmanın hesaplanmasında ise aşağıdaki eşitlikten faydalanılır. Burada standart sapma ile aslında örneklem ortalamasından ne kadarlık bir sapma olduğunu gösteriyoruz. Adım adım örneklem standart sapması şöyle hesaplanır:

  1. Örneklemdeki gözlem değerlerinin ortalaması hesaplanır.
  2. Her bir gözlemin gözlem ortalamasından farkı alınır.
  3. Her bir gözleme ait hesaplanan farkın karesi hesaplanır.
  4. Her bir gözleme ait hesaplanan farkların karesi toplanır.
  5. Elde edilen fark kareleri toplamı örneklemdeki gözlem sayısının bir eksiğine bölünür.
  6. Elde edilen değerin karesi hesaplanır.

Popülasyon standart sapmasının hesaplanması ise örneklem standart sapmasına benzer olup tek fark karekök içindeki eşitliğin paydasında büyük “N” e, diğer bir deyişle popülasyondaki toplam gözlem sayısına yer verilmesidir. Yukarıda örneklem standart sapmasındaki işlemler popülasyon standart sapması için de yapılır.

Element varyansı ise örneklem standart sapmasının karesi olup, aşağıdaki eşitlik yardımıyla hesaplanmaktadır.

Eğer örneklemin popülasyon içinde yüzdesi (f=(n/N) x 100) %5’ten büyükse örneklem varyansının hesaplanması ve bunun üzerinden standart hata hesaplanması yoluna gidilmelidir. Örneklem varyansı ise aşağıdaki eşitlik yardımıyla hesaplanır.

Popülasyon varyansı ise popülasyon standart sapmasının karesinin alınması ile hesaplanır. Aşağıdaki eşitlik yardımıyla popülasyon varyansı hesaplanır.

Standart hata (se), diğer bir ifade ile ortalamanın standart hatası aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Örneklemin standart sapması (s)’nın karekök içerisindeki örneklem gözlem sayısı (n)’na bölünmesi bize ortalamanın standart hatası (standard error of the mean)’nı verir. Standart hatayı aynı zamanda örneklem varyansının karekökünü alarak da hesaplayabiliriz. Örneklem büyüklüğünün artırılması merkezi limit teoremi (central limit teorem)’ne dayalı olarak standart hatayı azaltır ve bu istenen bir durumdur. Böylece, örneklem dağılımı standart normal dağılıma (ortalaması 0, standart sapması 1) evrilir.

Güven aralığı nasıl hesaplanır?

Güven aralığının belirlenmesini sağlayan eşitliklere yer verildikten sonra sırasıyla şimdi çok yalın bir şekilde güven aralığı eşitliğini alt ve üst limitten başlayarak verelim. Bu çalışmada güven aralığı, ortalaması ve standart sapması bilinen bir popülasyon üzerinden hesaplanmıştır.

Güven aralığının alt ve üst limitini verdikten sonra bir bütün olarak güven aralığı (confidence interval) eşitliğini verelim. Eşitliğin ortasında yer verilen μ popülasyon ortalamasını göstermektedir. Daha önce de belirtildiği üzere güven aralıklarıyla aslında popülasyon ortalamasını tahmin ediyoruz.

Güven aralığının alt ve üst, diğer bir deyişle iki kuyruklu (two tailed) alfa katsayıları aşağıdaki şekil üzerinde verilmiştir. Z tablosu ortalaması 0, standart sapması 1 olan standart normal dağılımı kullanmaktadır. Standart normal dağılım eğrisi şeklinden dolayı can eğrisi (bell curve) olarak da adlandırılmaktadır. Eğrinin altında alanın toplamı 1’e eşittir. Burada belirlenen güven düzeyi % 95’tir. Bu güven düzeyi s

osyal bilimler dışında özellikle sağlık bilimlerinde % 95’in üzerine çıkabilmektedir daha kesin çıkarımlar (inferences) alınmak istendiğinden.

Güven aralığı eşitliğinde görüleceği üzere güven aralığının hesaplanması için gerekli parametreler örneklemin ortalaması, standart hatası (se) ve Z tablo değeridir. Burada Z tablo yerine pekala t tablo değeri de alınabilirdi. Ancak örneklem büyüklüğümüz bu çalışma kapsamında 30’un üzerinde (n>30) olduğu için Z tablosu kullanılmıştır. Ancak isteğe bağlı olarak çalışmada 30’un altında örneklem büyüklüğü (n) belirlenerek t tablo değeri hesaplanabilir. Diğer taraftan, genel olarak sosyal bilimlerdeki istatistiksel analiz ve araştırmalarda güven düzeyleri % 95 olarak alınmaktadır. Ancak bu çalışmada % 90 güven düzeyi benimsenmiştir. Güven düzeyinin % 90 olarak alınması % 10’luk hata payının (alfa hastasının ya da Tip I hatanın) önceden kabul edildiğini göstermektedir. Çalışmanın sonunda paylaştığım simülasyon çalışmasında % 95 üzeri ve altı güven düzeyleri için de güven aralıkları simüle edilebilmektedir.

Sırası gelmişken belirtmekte fayda olduğuna inanıyorum. Güven aralığının kamuoyunda ve literatürde sık sık yanlış yorumlandığı ve adlandırıldığı görülmektedir. Diğer bir deyişle, güven aralığı (confidence interval) ile güven düzeyi (confidence level) karıştırılmaktadır. Burada güven aralığı eğer yüzde olarak ifade edilmişse bu güven düzeyini, yüzde olarak ifade edilmemişse güven aralığını ifade etmektedir. % 95 güven düzeyine sahip olmak, sonuçlarınızın herkese anket yapmış gibi neredeyse aynı olduğundan emin olduğunuz anlamına gelir.

Güven aralığını etkileyen faktörler nelerdir?

Güven aralığını etkileyen faktörler şöyle sıralanabilir:

  1. Örneklem büyüklüğü: örneklem büyüklüğü (n) artıkça elde edilen cevapların popülasyonu doğrulama olasılığı o kadar artar. Diğer bir deyişle, örneklem büyüklüğünün artması güven aralığını daraltır. Ancak bu artış lineer olmayabilir.
  2. Örneklem seçiminde kullanılan yöntem: eğer örneklem olasıklı örneklem yöntemleri kullanılmadan ya da bu yöntemler kullanılsa bile hatalı örneklem seçimi yapılmışsa güven aralıklarını etkileyebilir. Dolayısıyla popülasyon parametresi olan ortalamalar doğru bir şekilde tahmin edilmemiş olur.
  3. Örneklem büyüklüğü sabit tutulduğunda güven düzeyi (% 95’ten % 99’a yükselmesi) yükseldikçe güven aralığı genişler.
  4. Örneklem ortalaması arttıkça güven aralığının genişliği aynı kalır. Dolayısıyla, örneklem ortalaması aralığın genişliğinde bir rol oynamaz.
  5. Örneklem standart sapmasının azalması varyansın azalması anlamına geldiğinden hata oranı düşer. Bu durum güven aralığının daralmasına ve daha yüksek doğruluk (accuracy) ile popülasyon ortalamasının tahmini anlamına gelmektedir.

Güven aralığından yeterince bahsettikten sonra şimdi uygulama aşamasına geçebiliriz. Uygulamada kullanılan popülasyon veri seti beden kitle endeksi (BKİ) değerlerini içeren ve 1000 (N) gözlemden oluşan sentetik veri setidir. Olasılıklı örneklem yöntemlerinden basit tekrarlı tesadüfi örnekleme yöntemiyle 7 ve 50 aralığında BKİ değerleri üretilmiştir. BKİ değerleri üretilirken Sağlık Bakanlığı resmi web sitesindeki BKİ alt ve üst referans değerlerinden yararlanılmıştır. Burada belirlenen BKİ alt ve üst limitleri şöyledir:

Parametre DeğeriKategori
18,5 kg/m2’nin altında isezayıf
18,5-24,9 kg/m2 arasında isenormal kilolu
25-29,9 kg/m2 arasında isefazla kilolu
30-34,9 kg/m2 arasında iseI.Derece obez
35-39,9 kg/m2 arasında iseII.Derece obez
40 kg/m2 üzerinde iseIII.Derece morbid obez
Kaynak: https://www.sbn.gov.tr/BKindeksi.aspx

İlk olarak popülasyondan tekrarsız basit tesadüfi örneklem yöntemi kullanarak her birinin örneklem büyüklüğü sırasıyla 456, 758 ve 434 olan 3 farklı örneklem çekilmiştir. Çekilen örneklemleri popülasyondaki ID koduyla birlikte excel (xlsx) formatında aşağıdaki linkten indirebilirsiniz.

Güven aralıklarını vermeden önce popülasyona ait temel parametrelerinin verilmesinin faydalı olduğu düşünülmektedir. Bu amaçla popülasyon parametre değerleri Tablo 1’te sunulmuştur.

Tablo 1: Popülasyon (N) Parametreleri

Popülasyon ParametreleriDeğer
Ortalama (µ)28,5
Varyans149,9
Standart Sapma12,2
N1000,0

Örneklem gruplarına ait üretilen güven aralıkları ise Tablo 2’de verilmiştir. Tablo 2’ye göre öne çıkan bulgular şöyledir:

  • Ortalamasının 28,07 ortalamanın standart hatasının (se) 0,22 olduğu örneklem 2 grubu popülasyon ortalamasını en doğru tahmin eden örnek grubu olarak öne çıkmıştır. Bu grupta güven aralığı genişliği (0,85) diğer gruplara göre daha dar olup güven aralığı (CI) “27,71 ≤ µ ≤28,43” şeklindedir. Buradan örneklem beden kitle endeksi ortalamasının % 90 olasılıkla veya güven aralığında 27,71 ile 28,43 arasında olduğunu söyleyebiliriz. Örneklem 2 grubunu ise güven aralığı genişliği (CI width) 0,71 olan örneklem 2 grubu izlemiştir. Burada güven düzeyi sabit, ancak örneklem büyüklüğü değiştiğinde bu tür bir yargıya vardığımızı özellikle ifade etmek gerekir.

Tablo 2: Örneklem Grubuna Göre Güven Aralıkları

Örneklem ParametreleriÖrneklem 1Örneklem 2Örneklem 3
Ortalama (m)28,6128,0728,60
Element Varyans (s^2)151,16147,84150,99
Standart Sapma (s)12,2912,1612,29
Örneklem büyüklüğünün popülasyon içindeki oranı (f)0,460,760,43
Finite population correction(fpc) (1-f): Popülasyon düzeltmesi0,540,240,57
Örneklem varyansı (var(x))0,180,050,20
Standart Hata (se)0,420,220,44
Nispi hata (Coefficient of Variation) (CV)1,480,771,55
Alfa (a/2) değeri (güven aralığının olasılık değeri)0,0500,0500,050
Z tablo değeri1,641,641,64
Güven Aralığı Alt Limit (Lower boundary of CI)27,9127,7127,87
Güven Aralığı Üst Limit (Upper boundary of CI)29,3028,4329,33
Güven Aralığı Genişliği (CI Width)1,400,711,46
Güven aralığı gösterimi (CI)27,91 ≤ µ ≤29,327,71 ≤ µ ≤28,4327,87 ≤ µ ≤29,33

Tablo 2’deki güven aralıkları genişlikleri baz alınarak örneklem gruplarına göre güven aralıkları Tablo 3’te verilmiştir. Görüleceği üzere güven aralığı genişliği en dar olan örneklem grubu 0,71 ile örneklem 1 grubudur. Buradan şöyle bir yorum yapabiliriz: güven düzeyi sabit tutulduğunda örneklem büyüklüğü (n) artıkça standart hata (se) düşer, buna bağlı olarak güven aralığı (CI width) daralır. Eğer biz burada güven düzeyini % 90’dan % 95’e veya % 99’a çıkarmış olsaydık güven aralığı genişleyecekti. Çalışmanın sonunda paylaştığım simülasyonda bunların tamamını test edebilirsiniz.

Tablo 3: Örneklem Gruplarına Göre Güven Aralığı Genişlikleri

Özet Çıkarımlar

1. Güven düzeyi sabit tutulduğunda örneklem büyüklüğü (n) artıkça standart hata (se) azalmakta ve buna bağlı olarak güven aralığı (CI) daralmaktadır. 
2. Örneklem büyüklüğü sabit tutulup güven düzeyi artırıldıkça ise güven aralığı genişlemektedir.
3. Örneklem büyüklüğü ve güven düzeyi yükseltildiğinde örneklem büyüklüğüne bağlı olarak güven aralığı daralmakta ve daha kesin sonuçlar alacağımızı göstermektedir. Tabi burada örneklem büyüklüğünün artması tip II hatayı yani beta hastasını azaltırken, diğer taraftan tip 1 hata olarak adlandırılan alfa hatası da azalmaktadır. Ancak genel olarak tip I hata ile tip II hata arasında ters orantı vardır. Yani birini azaltırken diğeri artış göstermektedir. Örneğimizde güven düzeyini 0,90’dan 0,99’a çıkarmamız tip I hatayı azaltmaktadır. Örneklem büyüklüğünü artırmamız ise aynı zamanda testin gücünü de gösteren beta hatasını azaltmaktadır. Ancak bu adımlardan birini artırırken diğeri sabit tutmak ister istemez hatalardan birini azaltırken diğerini de artırmaktadır. Burada önemli olan bir dengenin kurulmasıdır.

Burada Z tablosu üzerinden yapılan güven aralığı deneysel çalışmasının excel uzantılı dosyasını aşağıda linkten indirebilirsiniz.

Z tablosu üzerinden Güven aralığının hesaplanmasına yönelik olarak hazırladığım simülasyonu ise aşağıdaki linkten indirebilirsiniz. Simülasyon çalışmasında bazı sayfalardaki formüller şifre ile korunmuştur. Değişiklik yapılması istenmesi durumundan sayfa korumasının kaldırılması için şifre olarak “tevfik” girilmesi yeterlidir. Özellikle bu simülasyon çalışmasının sahada ve akademide faaliyet gösteren çalışanlara faydalı olacağı düşünülmektedir. Bu çalışmanın içerisinde olasılıklı örneklem seçiminden örneklem büyüklüğünün ve güven düzeylerinin belirlenmesi kadar pek çok konu mevcuttur. Bu simülasyonda örneklem büyüklüğünü sizin belirlemenize gerek bulunmamaktadır.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla…

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Öne çıkan

R’da Poisson ve Negatif Binom Regresyon Yöntemleri Üzerine Bir Vaka Çalışması: A Case Study on Poisson and Negative Binomial Regression Methods in R

Giriş

Regresyon analizi yöntemlerinden biri olan poisson regresyon analiz yöntemi, bağımlı değişkenin ya da cevap değişkeninin
nicel kesikli ve pozitif (sayma sayıları) olduğu bağımlı değişkenler (dependent variables) ile bağımsız değişken veya değişkenler (independent variables) arasındaki ilişkiyi ortaya koyan regresyon analiz yöntemidir.

Genel olarak bağımlı değişkenin veri tipi yapılacak analiz yöntemlerinde belirleyici rol oynamaktadır. Dolayısıyla veri tiplerinin anlaşılması burada önemlidir. Veri tipleri kendi içerisinde Şekil 1’de görüleceği üzere 4 farklı alt sınıfta ele alınabilir.

Şekil 1: Veri Tipleri

Nitel Veri (Qualitative Data)

Şekil 1’de verilen sunulan nitel veri tipi ölçülemeyen ve kategori belirten veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar dikkate alınarak sırasıyla örnek vererek ele alalım.

  1. Nominal veri: İki veya daha fazla cevap kategorisi olan ve sıra düzen içermeyen veri tipi olup, bu veri tipine medeni durum (evli, bekar) ve sosyal güvenlik türü (Bağkur, SSK, Yeşil Kart, Özel Sigorta) örnek gösterilebilir.
  2. Ordinal veri: İki veya daha fazla kategorisi olan ancak sıra düzen belirten veri türüdür. Bu veri tipine örnek olarak eğitim düzeyleri (İlkokul, ortaokul, lise, üniversite ve yüksek lisans), yarışma dereceleri (1. , 2. ve 3.) ve illerin gelişmişlik düzeyleri (1. Bölge, 2. Bölge, 3. Bölge, 4. Bölge, 5. Bölge ve 6. Bölge) verilebilir.

Veri tiplerinden bahsedildikten sonra bu veri tiplerinin cevap değişkeni (bağımlı değişken) olduğu durumlarda seçilecek regresyon analiz yöntemini ele alalım. Temel olarak cevap değişkeni ölçülebilir numerik değişken ise regresyon, değilse sınıflandırma analizi yapıyoruz. Eğer cevap değişkeni nitel ise aslında sınıflandırma problemini çözmek için analizi kullanıyoruz. Cevap değişkeni, diğer bir deyişle bağımlı değişken numerik ise bağımsız değişken veya değişkenlerin çıktı (output) / bağımlı değişken (dependent variable) / hedef değişken (target variable) veya değişkenlerin üzerindeki etkisi tahmin etmeye çalışıyoruz. Buradaki temel felsefeyi anlamak son derece önemlidir. Çünkü bu durum sizin belirleyeceğiniz analiz yöntemi de değiştirecektir. Bağımlı (dependent) değişkenin tipine göre kullanılan regresyon analiz yöntemleri Şekil 2’de genel hatlarıyla verilmiştir.

Şekil 2: Cevap Değişkeninin Veri Tipine Göre Regresyon Analiz Yöntemleri

Bu görselin boş bir alt özelliği var; dosya ismi: image-3.png

Modeller oluşturulurken temel amaç, bias ve varyans dengesinin kurulmasıdır. Bu uyumu sağlarsak iyi model uyumu (good-fit) elde etmiş oluruz. Makine öğrenme ve derin öğrenme problemlerinin çözümünde modelleme hatalarına bağlı olarak varyans ve bias değişiklik göstermektedir. Bu iki durum şöyle ele alınabilir:

  1. Eksik model uyumu (under-fitting): Kurulan modelde elde edilen tahmin değerleri gözlem verisine yeterince uyum göstermediğinde ortaya çıkar. Bu durumda varyans düşükken bias yüksektir. Buradan şunu anlamak gerekir: gözlem verisi ile tahmin edilen veri arasındaki fark büyükse, diğer bir deyişle kurulan modelle bağımlı değişken iyi tahmin edilemiyorsa bu durumda under-fitting oluşur. Under-fitting sonraki kısımlarında anlatılan sınıflandırma ve regresyon hata metrikleri ile kolaylıkla ortaya konulabilir.
  2. Aşrı model uyumu (over-fitting): Kurulan modelde eğitilen veri seti (training data set)’yle gözlem verisine aşırı uyum gösterdiğinde ortaya çıkar. Bu durumda varyans yüksekken bias düşüktür.

Bahsedilen bu iki durumu kafamızda daha da canlı tutmak için bias ve varyans ilişkisi Şekil 2’de verilmiştir. Şekil’de biz modeli kurgularken olması gereken durumu gösteren Düşük Varyans-Düşük Bias uyumunu, diğer bir ifadeyle yüksek kesinlik (precision)-yüksek doğruluk (accuracy) hedefliyoruz. Diğer bir deyişle kurguladığımız model (Şekil 2 1 nolu model) ile gözlem değerlerini olabildiğince en yüksek doğruluk oranı ile tahmin ederken aynı zamanda varyansı düşük (yüksek kesinlik (precision)) tutmayı hedefliyoruz. Buna başardığımızda aslında iyi model uyumunu (good-fit) sağlamış ve iyi bir model kurmuş oluyoruz. Eksik model uyumu (under-fitting)’nda ise Şekil 2’de 3 nolu modelde görüleceği üzere elde edilen tahmin değerleri gözlem değerleri (kırmızı alan)’nden uzaklaşmakla birlikte hala tahmin değerleri ile gözlem değerleri arasında farklar, diğer bir deyişle varyans düşüktür. Aşırı model uyumu (over-fitting)’da ise Şekil 2’de 2 nolu modelde görüleceği üzere varyans yüksek iken bias düşüktür. 2 nolu modelde doğru değerler (gözlem değerleri)’i kurulan modelde yüksek doğrulukla (düşük bias=yüksek doğruluk (accuracy) tahmin edilse de gözlem değerleri ile tahmin değerleri arasındaki varyans yüksektir.

Şekil 2: Bias-Varyans İlişkisi

Veri Tipleri

Yükseltme algoritmaları ile sınıflandırma problemi çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi nitel ve kategoriktir. Ancak, bu yöntem ile regresyon problemini çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi niceldir. Veri tipleri kendi içerisinde 4 farklı alt sınıfta ele alınabilir. Bu veri tipleri alt sınıflarıyla birlikte Şekil 3’te verilmiştir.

Şekil 3: Veri Tipleri

Nicel Veri (Quantitative Data)

Şekil 3’te sunulan nicel veri tipi ölçülebilen veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar dikkate alınarak sırasıyla örnek verelim.

  1. Sürekli veri (Continous data): Tam sayı ile ifade edilmeyen veri tipi olup, zaman, sıcaklık, beden kitle endeksi, boy ve ağırlık ölçümleri bu veri tipine örnek verilebilir.
  2. Kesikli veri (Discrete Data): Tam sayı ile ifade edilebilen veri tipi olup, bu veri tipine proje sayısı, popülasyon sayısı, öğrenci sayısı örnek verilebilir.

Nitel Veri (Qualitative Data)

Şekil 3’te verilen nitel veri tipi ölçülemeyen ve kategori belirten veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar şöyledir:

  1. Nominal veri: İki veya daha fazla cevap kategorisi olan ve sıra düzen içermeyen veri tipi olup, bu veri tipine medeni durum (evli, bekar) ve sosyal güvenlik türü (Bağkur, SSK, Yeşil Kart, Özel Sigorta) örnek gösterilebilir.
  2. Ordinal veri: İki veya daha fazla kategorisi olan ancak sıra düzen belirten veri türüdür. Bu veri tipine örnek olarak eğitim düzeyleri (İlkokul, ortaokul, lise, üniversite ve yüksek lisans), yarışma dereceleri (1. , 2. ve 3.) ve illerin gelişmişlik düzeyleri (1. Bölge, 2. Bölge, 3. Bölge, 4. Bölge, 5. Bölge ve 6. Bölge) verilebilir.

Veri tiplerinden bahsedildikten sonra bu veri tiplerinin cevap değişkeni (bağımlı değişken) olduğu durumlarda seçilecek analiz yöntemini ele alalım. Temel olarak cevap değişkeni ölçülebilir numerik değişken ise regresyon, değilse sınıflandırma analizi yapıyoruz. Cevap değişkeni, diğer bir deyişle bağımlı değişken numerik ise bağımsız değişken veya değişkenlerin çıktı (output) / bağımlı değişken (dependent variable) / hedef değişken (target variable) veya değişkenlerin üzerindeki etkisini tahmin etmeye çalışıyoruz. Buradaki temel felsefeyi anlamak son derece önemlidir. Çünkü bu durum sizin belirleyeceğiniz analiz yöntemini de değiştirecektir.

Kullanılan analiz yöntemi ile kurulan modelde ya sınıflandırma problemini ya da regresyon problemini çözdüğümüzü ifade etmiştik. Ancak kurulan modellerde çözülen problemin sınıflandırma ya da regresyon oluşuna göre performans değerlendirmesi farklılaşmaktadır. Sınıflandırma problemlerinde kullanılan hata metrikleri ile regresyon hata metrikleri aynı değildir. Bu bağlamda ilk olarak sınıflandırma problemlerinin çözümünde kullanılan hata metriklerini ele alalım.

Sınıflandırma Problemlerinde Hata Metrikleri

Karışıklık matrisi (confusion matrix) olarak olarak adlandırılan bu matris sınıflandırma problemlerinin çözümünde hata metriklerini ortaya koyarak kurulan modelin veya modellerin hata oranını değerlendirmektedir. Hata matrisinin makine ve derin öğrenme metotlarının değerlendirilmesinde sıklıkla kullanıldığı görülmektedir. Tablo 1’de hata metriklerinin hesaplanmasına esas teşkil eden karışıklık matrisi (confisioun matrix) verilmiştir. Bu tabloyla sınıflandırma hataları hesaplanabilmektedir. Tabloda yer verilen Tip 1 hata (Type 1 error) istatistikte alfa hatasını göstermektedir. Tip 1 hata H0 hipotezi (null hpypothesis) doğru olduğu halde reddedilmesidir. Tabloda Tip 2 hata (Type II error) olarak adlandırılan hata ise istatistikte Beta hatası olarak da bilinmektedir. Tip 2 hata ise H0 hipotezi (null hpypothesis) yanlış olduğu halde kabul edilmesidir.

Tablo 1: Karışıklık Matrisi (Confusion Matrix)

Kaynak: Stanford Üniversitesi

Tablo 1’de TP: Doğru Pozitifleri, FN: Yanlış Negatifleri, FP: Yanlış Pozitifleri ve TN: Doğru Negatifleri göstermektedir.

Şekil 3’te de yer verildiği üzere literatürde sınıflandırma modellerinin performansını değerlendirmede aşağıdaki hata metriklerinden yaygın bir şekilde yararlanıldığı görülmektedir. Sınıflandırma problemlerinin çözümüne yönelik Yükselme (Boosting: AdaBoost) algoritması kullanarak R’da yapmış olduğum çalışmanın linkini ilgilenenler için aşağıda veriyorum.

Topluluk Öğrenme Algoritmalarından Yükseltme Algoritması İle Gögüs Kanserinin Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Breast Cancer Using Boosting Algorithm from Ensemble Learning Algorithms

  • Doğruluk (Accuracy): TP+TN / TP+TN+FP+FN eşitliği ile hesaplanır. Modelin genel performansını ortaya koyar. Bu sınıflandırma metriği ile aslında biz informal bir şekilde dile getirirsek doğru tahminlerin toplam tahminler içindeki oranını hesaplamış oluyoruz.
  • Kesinlik (Precision): TP / TP+FP eşitliği ile hesaplanır. Doğru tahminlerin ne kadar kesin olduğunu gösterir.
  • Geri çağırma (Recall)TP / TP+FN eşitliği ile hesaplanır. Gerçek pozitif örneklerin oranını verir.
  • Özgünlük (Specificity): TN / TN+FP eşitliği ile hesaplanır. Gerçek negatif örneklerin oranını gösterir.
  • F1 skoru : 2TP / 2TP+FP+FN eşitliği ile hesaplanır. Dengesiz sınıflar için yararlı hibrit bir metrik olup, kesinlik (precision) ve geri çağırma (recall) skorlarının ağırlıklı ortalamasını ifade etmektedir.
  • ROC (Receiver operating characteristic): Yukarıda karışıklık matrisinde belirtilen parametrelerden yararlanılarak hesaplanır. ROC eğrisi olarak da adlandırılmaktadır. ROC eğrileri, herhangi bir tahmin modelinin doğru pozitifler (TP) ve negatifler (TN) arasında nasıl ayrım yapabileceğini görmenin güzel bir yoludur. Sınıflandırma modellerin perfomansını eşik değerler üzerinden hesaplar. ROC iki parametre üzerinden hesaplanır. Doğru Pozitiflerin Oranı (TPR) ve Yanlış Pozitiflerin Oranı (FPR) bu iki parametreyi ifade eder. Burada aslında biz TPR ile Geri Çağırma (Recall), FPR ile ise 1-Özgünlük (Specificity)‘ü belirtiyoruz.
  • Cohen Kappa: Kategorik cevap seçenekleri arasındaki tutarlılığı ve uyumu gösterir. Cohen, Kappa sonucunun şu şekilde yorumlanmasını önermiştir: ≤ 0 değeri uyumun olmadığını, 0,01–0,20 çok az uyumu, 0,21-0,40 az uyumu, 0,41-0,60 orta, 0,61-0,80 iyi uyumu ve 0,81–1,00 çok iyi uyumu göstermektedir. 1 değeri ise mükemmel uyum anlamına gelmektedir.

Sınıflandırma hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Problemlerinde Hata Metrikleri

Regresyon modellerinin performansını değerlendirmede literatürde aşağıdaki hata metriklerinden yaygın bir şekilde yararlanılmaktadır. Regresyon metrikleri eşitliklerinin verilmesi yerine sade bir anlatımla neyi ifade ettiği anlatılacaktır. Böylece formüllere boğulmamış olacaksınız.

  • SSE (Sum of Square Error): Tahmin edilen değerler ile gözlem değerleri arasındaki farkların kareleri toplamını ifade eder.
  • MSE (Mean Square Error): Ortalama kare hatası olarak adlandırılan bu hata tahmin edilen değerler ile gözlem değerleri arasındaki farkların karelerinin ortalamasını ifade eder.
  • RMSE (Root Mean Square Error): Kök ortalama kare hatası olarak adlandırılan bu hata ortalama kare hatasının karekökünü ifade etmektedir.
  • MAE (Mean Absolute Error): Ortalama mutlak hata olarak adlandırılan bu hata türü ise tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerlerinin ortalamasını ifade etmektedir.
  • MAPE (Mean Absolute Percentage Error): Ortalama mutlak yüzdesel hata olarak adlandırılan bu hata türünde ilk olarak tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerleri hesaplanır. Daha sonra hesaplanan farkları mutlak değerleri mutlak değerleri alınan gözlem değerlerine bölünür. En son durumda ise elde edilen bu değerlerin ortalaması alınır.
  • Bias: Tahmin edilen değerler ile gözlem değerleri arasındaki farkların ortalamasıdır. Bu yönüyle ortalama mutlak hata (MAE)’ya benzemektedir.

Regresyon hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Metrikleri İndir

Çalışma kapsamında R programlama dili içerisinde bulunan “warpbreaks” veri setinde bağımlı değişken olan breaks (mola sayısı) tahmin edilmiştir. Veri seti kullanılarak poisson ve negatif binom regresyon yöntemleriyle regresyon problemi çözülecektir.

Metodoloji ve Uygulama Sonuçları

Poisson Regresyon Yöntemi

Poisson regresyon, lojistik regresyonlar modellerinin genelleştirilmiş şeklidir. Fakat lojistik regresyonda bağımlı değişkenler kategorilerden oluşan belirli cevap seçenekleri ile sınırlıdır.

Regresyon modellerinden poisson ve negatif binom regresyon modelleri regresyon modellerinin özel bir türü olup, bağımlı değişkenin nicel pozitif ve aynı zamanda kesikli olduğu durumlarda kullanılır. Yapılan Covid-19 testlerinin sayısı, vaka sayısı, ölüm sayısı gibi değişken istatistikleri bu modellerde kullanılabilecek değişkenlere örnek verilebilir. Bu modellerde amaç nicel kesikli ve pozitif bağımlı değişkenin bağımsız değişkenlerle tahmin edilmesidir.

Poisson regresyon analizi, bağımlı değişkenin Poisson dağılımı gösterdiğinden hareket etmektedir. Poisson dağılımı Fransız matematikçi Siméon Denis Poisson tarafından geliştirilmiştir. Poisson dağılımı, bir olayın belirli bir zaman veya mekan aralığında kaç kez meydana geldiğini modellemek için kullanılmaktadır.

Poisson dağılımı sağa çarpık (right skew) bir görünüm sergilemekte olup, olasılık dağılım fonksiyonu aşağıdaki eşitlikte verilmiştir. Bu dağılım sürekli dağılımlardan biri olan normal dağılımın aksine kesikli dağılım türlerinden biridir.

Eşitlikte e= Euler’in sabitini ifade etmektedir. Bu katsayı yaklaşık 2,71828’e eşittir. Eşitlikte yer verilen lambda (λ) belirli zaman aralığında meydana gelen vakaların ortalama sayısını göstermektedir. x ise eşitlikte hedeflenen vaka sayısını belirtmektedir.  x = 0, 1, 2, …, n > 0 ve 0 < p ≤ 1. Varsayımsal bir örnek vererek konuyu biraz somutlaştıralım.

Örnek: Bir organize sanayi bölgesinde gıda sektöründe üretim yapan firmanın deposunda stoklanan ürünlerin 0,04’nin bozuk olduğu bilinmektedir. Bu depodan tesadüfi seçilen 80 birimden en az 5 tanesinin bozuk olma olasılığını Poisson dağılımından yararlanarak hesaplayalım.

Burada,

  • p= 0,04
  • Lambda (λ) = 80*0,04=3,2

Yukarıda belirtilen Poisson kütle olasılık eşitliğinde verilenleri yerine koyarsak

Yapılan işlemi aşağıdaki R kod bloğunda da verelim adım adım hesaplama adımlarını görebilmek açısından.

e<-2.71828 #Euler'in sabiti
sıfır<-(e^-3.2*(3.2)^0)/factorial(0)
bir<-(e^-3.2*(3.2)^1)/factorial(1)
iki<-(e^-3.2*(3.2)^2)/factorial(2)
uc<-(e^-3.2*(3.2)^3)/factorial(3)
dort<-(e^-3.2*(3.2)^4)/factorial(4)
poissonfonksiyon<-sum(sıfır, bir,iki,uc,dort)#f(x): Poisson olasılık dağılım fonksiyonu
round(1-poissonfonksiyon,5)
#Sonuç=0.21939

Lambda (λ) Poisson dağılımı , R’da dpois, ppois ve qpois fonksiyonları ile temsil edilir. dpois yoğunluğu, ppois dağılım fonksiyonunu, qpois çeyreklik fonksiyonu, rpois ise tesadüfi ve tekrarsız atanan sayıları gösterir. İlk olarak rpois fonksiyonunu kullanarak poisson dağılımına uygun lambda değeri 1, popülasyon büyüklüğü (N) 10000 olan gözlem üretelim. Daha sonra poisson regresyon ve dağılımı varsayımlarından biri olan gözlemlerin varyansının gözlemlerin ortalamasına eşit veya yakın olması varsayımını aşağıda yazılan R kod bloğu ile test edip histogramını çizelim.

poisorneklem<-rpois(n=10000, lambda=1)#poisson dağılımına uygun örneklem çekmek
hist(poisorneklem, xlab="", main="Poisson Dağılımı", col="red")
mean(poisorneklem);var(poisorneklem)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen Poisson dağılımına ilişkin histogram aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen Poisson dağılımına ilişkin ortalama 1.0175, varyans ise 1.012895 olup, görüleceği üzere birbirine çok yakındır.

Şimdi de poisson dağılımına uygun olarak aynı popülasyon büyüklüğüne sahip ancak farklı lambda değerleriyle karşılaştırmalı olarak poisson dağılıma grafik üzerinde bakalım. Aşağıda yazılan R kod bloğu ile popülasyon büyüklüğü (N) 1000, lambda düzeyleri ise sırasıyla 1, 1,5, 2, 2,5, 3 ve 3,5 olan poisson eğrileri verilmiştir.

set.seed(61)#Sonuçları sabitlemek için
orneklem<-1000#(N=n)
nd1<-density(rpois(orneklem, lambda=1))
nd2<-density(rpois(orneklem, lambda=1.5))
nd3<-density(rpois(orneklem, lambda=2))
nd4<-density(rpois(orneklem, lambda=2.5))
nd5<-density(rpois(orneklem, lambda=3))
nd6<-density(rpois(orneklem, lambda=3.5))
par(oma = c(0.1, 0.1, 0.1, 0.1))#legendin tablodaki yerini düzenlemek için.
plot(nd1,                                  
     xlim = c(0,8),
     ylim = c(0,0.8),
     cex=0.8,
     lwd = 2,
     main = "Poisson Dağılımı")
lines(nd2, col = "orange", lwd = 2)             
lines(nd3, col = "grey", lwd = 2)             
lines(nd4, col = "brown", lwd = 2)  
lines(nd5, col = "green", lwd = 2)  
lines(nd6, col = "red", lwd = 2)  
legend("topright",                                    
       legend = c("λ= 1",
                  "λ= 1.5",
                  "λ= 2",
                  "λ= 2.5",
                  "λ= 3",
                  "λ= 3.5"),
       col = c("black", "orange", "grey", "brown","green","red" ),
       lty = 1)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen farklı lambda değerlerine sahip poisson dağılım eğrileri aşağıdaki grafikte verilmiştir. Genel olarak grafikten düşük lambda değerlerine sahip eğrilerin poisson dağılımının da bir özelliği olarak sağa çarpık (right skew) bir görünüm çizdiği görülmektedir. Ancak lambda değerleri artıkça eğriler normal dağılım eğrisine evrilmektedir.

Poisson eğrilerine daha yakından bakacak olursak eğrilerin izlediği seyri daha da iyi anlayabiliriz. Yazılan R kod bloğu ile Poisson eğrilerine ilişkin grafikler ayrı ayrı verilmiştir.

set.seed(6)
orneklem<-1000
l1<-ggdensity(rpois(orneklem, lambda=1),main="λ=1")
l2<-ggdensity(rpois(orneklem, lambda=1.5),main="λ=1.5", col="orange")
l3<-ggdensity(rpois(orneklem, lambda=2),main="λ=2", col="grey")
l4<-ggdensity(rpois(orneklem, lambda=2.5),main="λ=2.5", col="brown")
l5<-ggdensity(rpois(orneklem, lambda=3),main="λ=3", col="green")
l6<-ggdensity(rpois(orneklem, lambda=3.5),main="λ=3.5", col="red")
ggarrange(l1,l2,l3,l4,l5,l6)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen grafikler aşağıda verilmiştir.

Adı geçmişken normal dağılımdan biraz bahsedebilir. Normal dağılım sürekli olasılık dağılımlardan biri olup, eğrisi can eğrisine benzemektedir. Birazdan R’da rnorm fonksiyonu kullanılarak ilk olarak ortalaması 0, standart sapması 1 olan standart normal dağılım eğrisi çizilecektir. Daha sonra rnorm içerisinde yer alan parametreler değiştirilerek normal dağılım eğrilerindeki farklılaşmalar gösterilecektir. Aşağıdaki yazılan R kod bloğu ile ortalaması 0, standart sapması 1 olan normal dağılım eğrisi çizilmiştir.

set.seed(2)
ggdensity(rnorm(orneklem, mean=0, sd=1), main="Standart Normal Dağılım (Ortalama=0 ve Standart Sapma=1)", col="red")+
theme_pander()

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen standart normal dağılım eğrisi aşağıdaki grafikte verilmiştir. Büyük sayı yasası (Law of large numbers)’na göre popülasyondan çekilen örneklem büyüklüğü artıkça örneklem ortalamaları popülasyon ortalamasına yaklaşır. Sözgelimi yaşları bilinen yaklaşık 83 milyonluk ülke nüfusundan çekilen 10 milyonluk örneklemin ortalama değeri, çekilen 2 milyonluk örneklemin ortalama değerinden popülasyon ortalamasına daha yakındır ve bu aslında bir anlamda 10 milyonluk örneklem 2 milyonluk örnekleme göre popülasyonu daha iyi temsil ediyor demektir.

Şimdi de aşağıda yazılan R kod bloğu ile farklı ortalama (Ort) ve standart sapma (SS) değerlerine sahip normal dağılıma uygun eğriler çizerek normal dağılım dağılım eğrilerindeki farklılaşmaları görelim.

set.seed(61)
orneklem<-1000
nd1<-density(rnorm(orneklem, mean=0, sd=1))
nd2<-density(rnorm(orneklem, mean=1, sd=1))
nd3<-density(rnorm(orneklem, mean=2, sd=3))
nd4<-density(rnorm(orneklem, mean=3, sd=4))
nd5<-density(rnorm(orneklem, mean=4, sd=5))
nd6<-density(rnorm(orneklem, mean=5, sd=6))
plot(nd1,                               
     xlim = c(- 10, 10),
     main = "Normal Dağılım", lwd = 2)
lines(nd2, col = "orange", lwd = 2)             
lines(nd3, col = "grey", lwd = 2)           
lines(nd4, col = "brown", lwd = 2)  
lines(nd5, col = "green", lwd = 2)  
lines(nd6, col = "red", lwd = 2)  
legend("topleft",                                   
       legend = c("Ort = 0; SS = 1",
                  "Ort = 1; SS = 1",
                  "Ort = 2; SS = 3",
                  "Ort = 3; SS = 4",
                  "Ort = 4; SS = 5",
                  "Ort = 5; SS = 6"),
       col = c("black", "orange", "grey", "brown","green","red" ),
       lty = 2)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra farklı ortalama ve standart sapma değerlerine sahip normal dağılım eğrileri aşağıdaki grafikte verilmiştir. Şekilde siyah eğri standart normal dağılım eğrisini göstermektedir. Burada özellikle standart sapma artıkça eğrilerin normal dağılımdan uzaklaştığını görmekteyiz. Bu duruma şöyle bir yorum da getirilebilir, standart sapmanın artması varyansı ve dolayısıyla hatayı da artıracağından eğri sağa ve sola yayılım gösterir. Eğrinin altındaki alanın toplamı her durumda 1’e eşittir.

Normal dağılım eğrilerine daha yakından bakacak olursak eğrilerin izlediği seyri daha da iyi anlayabiliriz. Yazılan R kod bloğu ile normal dağılım eğrilerine ilişkin grafikler ayrı ayrı verilmiştir.

set.seed(16)
orneklem<-1000
l1<-ggdensity(rnorm(orneklem, mean=0, sd=1),main="Ort=0, SS=1")
l2<-ggdensity(rnorm(orneklem, mean=1, sd=1),main="Ort=1, SS=1", col="orange")
l3<-ggdensity(rnorm(orneklem, mean=2, sd=3),main="Ort=2, SS=3", col="grey")
l4<-ggdensity(rnorm(orneklem, mean=3, sd=4),main="Ort=3, SS=4", col="brown")
l5<-ggdensity(rnorm(orneklem, mean=4, sd=5),main="Ort=4, SS=5", col="green")
l6<-ggdensity(rnorm(orneklem, mean=5, sd=6),main="Ort=5, SS=6", col="red")
ggarrange(l1,l2,l3,l4,l5,l6)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen normal dağılım grafikleri aşağıda verilmiştir. İlk grafik standart normal dağılım grafiğidir.

Şimdi çizilen bu normal dağılım grafiklerin aşağıda yazılan R kod bloğu ile gerçekten normal dağılıma uyum uymadığını q-q grafikleri ve shapiro wilk testleri ile konrol edelim.

#q-q grafikler
set.seed(16)
q1<-ggqqplot(rnorm(orneklem, mean=0, sd=1), main="Ort=0, SS=1")
q2<-ggqqplot(rnorm(orneklem, mean=1, sd=1), main="Ort=1, SS=1", col="orange")
q3<-ggqqplot(rnorm(orneklem, mean=2, sd=3), main="Ort=2, SS=3", col="grey")
q4<-ggqqplot(rnorm(orneklem, mean=3, sd=4), main="Ort=3, SS=4", col="brown")
q5<-ggqqplot(rnorm(orneklem, mean=4, sd=5), main="Ort=4, SS=5", col="green")
q6<-ggqqplot(rnorm(orneklem, mean=5, sd=6), main="Ort=5, SS=6", col="red")
ggarrange(q1,q2,q3,q4,q5,q6)
#Shapiro Wilk Normalite testleri
s1<-rnorm(orneklem, mean=0, sd=1)
s2<-rnorm(orneklem, mean=1, sd=1)
s3<-rnorm(orneklem, mean=2, sd=3)
s4<-rnorm(orneklem, mean=3, sd=4)
s5<-rnorm(orneklem, mean=4, sd=5)
s6<-rnorm(orneklem, mean=5, sd=6)
st<-tibble(s1,s2,s3,s4,s5,s6)
istatistik<-apply(st, 2, function(x) shapiro.test(x)$statistic)
pdegeri<-apply(st, 2, function(x) shapiro.test(x)$p.value)
round(rbind(istatistik,pdegeri),3)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen q-q grafikleri aşağıda verilmiştir. q-q grafiklere bakıldığında örneklem dağılımının teorik normal dağılımın eğrisi boyunca ilerlediği ve bu eğriden sapma göstermediği görülmektedir.

Yukarıdaki R kod bloğunda Shapiro Wilk testlerine ilişkin R kod bloğu çalıştırılmasıyla elde edilen sonuçlar aşağıda verilmiştir. Elde sonuçlara göre bütün dağılım veri setlerinde p >0,05 olduğu için verinin istatistiksel olarak normal dağılım gösterdiğini rahatlıkla söyleyebiliriz. Yukarıdaki q-q grafikleri de bunu doğrular niteliktedir.

              s1    s2    s3    s4    s5    s6
istatistik 0.998 0.998 0.998 0.999 0.999 0.999
pdegeri    0.246 0.418 0.162 0.878 0.900 0.799

Negatif binom regresyon yöntemi

Negatif bir binom dağılımı, Poisson dağılımlarının özel bir türüdür. Poisson olasılık dağılımı gibi kesikli bir olasılık dağılımıdır. Negatif binom dağılımı kitle fonksiyonu aşağıdaki denklemle ifade edilebilir. İkili sonuçları olan Bernoulli deneylerinde geçerli olan varsayımlar negatif binom dağılımı için de geçerlidir. Bağımsız Bernoulli deneylerinde ilk başarı önemliyken, negatif binom dağılımında r tane başarı elde durumu söz konusudur. Negatif binom dağılımı geometrik dağılımının genelleştirilmiş bir şeklidir.

x = 0, 1, 2, …n > 0 ve 0 < p ≤ 1. Eşitlikte p başarı olasılığını göstermektedir. Varsayımsal bir örnek vererek konuyu biraz somutlaştıralım.

Örnek: Covid-19 hastalığına maruz kalan sigara kullanan 65 yaşındaki bireyin bu hastalığa yakalanma olasılığı 0,70 ise bu hastalığa maruz kalan aynı yaşta 20. bireyin bu hastalığa yakalanan 8. birey olma olasılığı nedir?

Burada,

  • p=0,70 (hastalığa maruz kalma olasılığı)
  • x=20 (hastalığa maruz kalan 20. birey)
  • r=8 (hastalığa yakalanan 8. birey)

Yukarıda belirtilen negatif binom eşitliğinde verilenleri yerine koyarsak

Yapılan işlemi aşağıdaki R kod bloğunda da verelim kullanılan fonksiyonun görülebilmesi açısından.

options(scipen=999)#Sonuçların bilimsel gösterimden eşitliği kurtarmak için
round(choose(19,7)*(1-0.7)^(20-8)*(0.7)^8,5)#burada choose () fonksiyonu kombinasyon hesaplamasında kullanılmıştır.
#Sonuç:0.00154

R’da rnbinom fonksiyonu ile belirtilen negatif binom dağılıma göre rastgele seçilen 1 veya daha fazla sayı üretilmektedir. rnbinom(n, size, prob, mu) fonksiyonu negatif binom dağılımına göre tekrarsız seçilen örneklem büyüklüğünü göstermektedir. Fonksiyondaki size parametresi, diğer bir ifadeyle shape parametresi hedeflenen başarılı denemelerin sayısını, mu ise ortalamasını göstermektedir. İlk olarak rnbinom fonksiyonunu kullanarak negatif binom dağılımına uygun gözlem sayısı 10000, hedeflenen başarılı denemelerin sayısı 20, ortalamanın ise 5 olduğu varsayımından hareketle aşağıda yazılan R kod bloğu ile histogramı çizilmiştir.

nbd<-tibble(Sayi=rnbinom(n=10000, size=20, mu=5))
ggplot(nbd, aes(x=Sayi)) + 
geom_histogram(aes(y=..density..),bins=100,binwidth=.3, fill="red")+
geom_density(alpha=.3, fill="blue")+
xlab("")+
ylab("Yoğunluk")+
ggtitle("Negatif Binom Dağılımı Yoğunluk ve Histogram")
#Alternatif olarak sadece yoğunluk grafiği verecek olursak
ggdensity(rnbinom(n=10000, size=20, mu=5), xlab="",ylab="Yoğunluk", main="Negatif Binom Dağılımı Yoğunluk Grafiği", col="red")+
theme_economist()

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen Negatif binom dağılımına ilişkin histogram ve yoğunluk aşağıdaki grafik üzerinde verilmiştir.

Alternatif olarak daha net görebilmek adına sadece yoğunluk grafiği verecek olursak R kod bloğundaki ilgili alan çalıştırıldığında aşağıdaki grafik elde edilmiş olacaktır. Burada amaç biraz da grafiği farklı bir temayla sunmak :).

Şimdi de Negatif Binom dağılımına uygun olarak aynı popülasyon büyüklüğü (N) sahip ancak farklı size ve ortalama (mu) değerleriyle karşılaştırmalı olarak negatif binom dağılıma grafik üzerinde bakalım. Aşağıda yazılan R kod bloğu ile popülasyon büyüklüğü (N) 1000 olan

  1. mu = 4, size = 10
  2. mu = 8, size = 20
  3. mu = 12, size = 30
  4. mu = 16, size = 40
  5. mu = 20, size = 50
  6. mu = 24, size = 60

değerlerine sahip negatif binom eğrileri çizilmiştir.

set.seed(61)
orneklem<-1000
nb1<-density(rnbinom(orneklem, mu = 4, size = 10))
nb2<-density(rnbinom(orneklem, mu = 8, size = 20))
nb3<-density(rnbinom(orneklem, mu = 12, size = 30))
nb4<-density(rnbinom(orneklem, mu = 16, size = 40))
nb5<-density(rnbinom(orneklem, mu = 20, size = 50))
nb6<-density(rnbinom(orneklem, mu = 24, size = 60))
par(oma = c(1, 0.1, 0.1, 0.1))
plot(nb1,                               
     xlim = c(0,20),
     ylim = c(0,0.25),
     main = "Negatif Binom Dağılımı")
lines(nb2, col = "orange", lwd = 2)             
lines(nb3, col = "grey", lwd = 2)             
lines(nb4, col = "brown", lwd = 2)  
lines(nb5, col = "green", lwd = 2)  
lines(nb6, col = "red", lwd = 2)  
legend("topright",                                   
       legend = c("Size= 10",
                  "Size= 20",
                  "Size= 30",
                  "Size= 40",
                  "Size= 50",
                  "Size= 60"),
       col = c("black", "orange", "grey", "brown","green","red"),
       lty = 1)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra farklı mu ve size sapma değerlerine sahip negatif binom olasılık dağılım eğrileri aşağıdaki grafikte verilmiştir.

Negatif binom olasılık dağılım eğrilerine daha yakın plandan bakacak olursak eğrilerin izlediği seyri daha da iyi anlayabiliriz. Yazılan R kod bloğu ile Negatif Binom dağılım eğrilerine ilişkin grafikler ayrı ayrı verilmiştir.

set.seed(26)
orneklem<-1000
nby1<-ggdensity(rnbinom(orneklem, mu = 4, size = 10),main="m = 4, s = 10", col="orange")
nby2<-ggdensity(rnbinom(orneklem, mu = 8, size = 20),main="m = 8, s = 20",col="orange")
nby3<-ggdensity(rnbinom(orneklem, mu = 12, size = 30),main="m = 12, s = 30", col="grey")
nby4<-ggdensity(rnbinom(orneklem, mu = 16, size = 40),main="m = 16, s = 40", col="brown")
nby5<-ggdensity(rnbinom(orneklem, mu = 20, size = 50),main="m = 20, s = 50",col="green")
nby6<-ggdensity(rnbinom(orneklem, mu = 24, size = 60),main="m = 24, s = 60", col="red")
ggarrange(nby1,nby2,nby3,nby4,nby5,nby6)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen grafikler aşağıda verilmiştir. Elde edilen bulgular mu ve size değerleri yükseldikçe dağılım normal dağılıma evrildiğini göstermektedir.

Poisson regresyon modeli aşağıdaki eşitlikteki gibi ifa edilebilir. Yöntemde regresyon katsayıları maksimum olasılık ya da maksimum olabilirlik yöntemi (MLE) kullanılarak hesaplanır.

Negatif binom regresyon modeli ise aşağıdaki eşitlikteki gibi gösterilebilir. Bu modelde Poisson regresyon yöntemine benzer olarak regresyon katsayıları maksimum olasılık (maksimum likehood) yöntemi kullanılarak tahmin edilir.

Kurulan regresyon analiz modellerinde güvenilir bir regresyon modeli kurmak için örneklem büyüklüğünün asgari şartları karşılaması gerekmektedir. Buna göre;

  • Kurulan regresyon modelinin tamamını değerlerdirmek için önerilen minimum örneklem büyüklüğü 50 + 8k‘tır. k burada bağımsız değişkenlerin sayısını göstermektedir. Örneğin bağımsız değişkenlerin sayısı 10 ise minimum örneklem büyüklüğü 50 + 8 X 10 eşitliğinden 130’dur.
  • Eğer bireysel olarak bağımsız değişkenler değerlendirilecek ise minimum örneklem büyüklüğü 104 + k‘tır. Örneğin bağımsız değişkenlerin sayısı 10 ise minimum örneklem büyüklüğü 104 + 8 eşitliğinden 112’dir.
  • Diğer taraftan örneklem büyüklüğü ve bağımsız değişkenin sayısına göre Cohen’in kriterini kullanarak etki büyüklüğünü hesaplayabiliriz. Cohen’in etki büyüklüğü örneklem büyüklüğü ve bağımsız değişken sayısı artıkça etki büyüklüğü azalış göstermektedir. Bu durum istenen bir durumdur. Cohen’in etki büyüklüğü R= k / (N-1) formülü ile hesaplanmaktadır. k burada bağımsız değişken sayısını, N ise örneklem / popülasyon büyüklüğünü / gözlem sayısını göstermektedir. Yukarıdaki veriler kullanılarak örnek vermek gerekirse 8 / ( 112-1) =0,07‘dir. R katsayısının 0 olması etki olmadığı anlamına gelmektedir ki, bu durumda örneklem büyüklüğünün ve değişken sayısının kurulan regresyon modelinde optimal noktaya ulaştığı anlamına gelir.

Veri seti

“warpbreaks” veri setinde bağımlı değişken olan breaks (mola sayısı) tahmin edilmiştir. Diğer bir ifadeyle, bu çalışmada regresyon problemi çözmüş olacağız. Veri setindeki toplam gözlem sayısı 54, değişken sayısı ise 3’tür. Bu veri setine R programlama yazılımında “warpbreaks” olarak yer verilmiştir. Veri setindeki gözlem sayısı yukarıda verilen asgari örneklem sayılarını karşılamasa da literatürde parametrik testler için önerilen örneklem büyüklüğü ya da gözlem sayısı 30 ve üzeri olduğu için burada kullanılmıştır. Veri setinde değişkenlerin adları anlaşılması adına Türkçe olarak düzenlenmiştir. Veri setinde yer alan değişkenler ve değişkenlerin veri tipleri şöyledir:

  1. molasayisi (breaks): Veri tipi nicel ve kesikli sayma sayılarından oluşmaktadır.
  2. yuntipi (wool): Veri tipi nitel ve kategorik olup, A ve B kategorilerinden oluşmaktadır.
  3. gerginlik (tension): Veri tipi nitel ve kategorik olup, Düşük, Orta ve Yüksek kategorilerinden oluşmaktadır.

Bu kapsamda cevap değişkeni (bağımlı değişken) olan “molasayisi” geri kalan 2 bağımsız değişken kullanılarak tahmin edilecektir. Analizde kullanılan veri setini aşağıdaki linkten indirebilirsiniz.

Şimdi veri setini tanıdıktan sonra adım adım (step by step) analize başlayabiliriz. Analizde R programlama dili kullanarak analiz adımları R kod bloklarında verilmiştir.

Yüklenecek R kütüphaneleri

rm(list=ls())
kütüphaneler = c("dplyr","tibble","tidyr","ggplot2","formattable","readr","readxl","xlsx", "pastecs","fpc", "DescTools","e1071", "DMwR","caret", "viridis","GGally","ggpurr","effect","psych","writexl","ggfortify","explore","MASS")
 
sapply(kütüphaneler, require, character.only = TRUE)

Ver setinin okunması ve değişkenlerin Türkçe olarak revize edilmesi

veri<-warpbreaks %>% as_tibble() %>% rename(molasayisi=breaks, yuntipi=wool, gerginlik=tension)%>% mutate(gerginlik=recode_factor(gerginlik, L="Dusuk", M="Orta", H="Yuksek"))

Ver setinin xlsx dosyasına yazdırılması

write_xlsx(veri, "veriseti.xlsx")#xlsx dosyası için

Veri setinin görselleştirilmesi ve tanımlayıcı istatistikler

#veri setindeki değişkenlerin görselleştirilmesi
veri %>% explore_all()
 
#veri setindeki ilk 10 gözlem
formattable(head(veri,10))

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki ilk 10 gözlem aşağıdaki tabloda verilmiştir.

Kategorik değişkenlere göre mola sayılarının dağılımı

ggplot(veri)+
  geom_col(aes(x = molasayisi, y = yuntipi, fill = gerginlik))+
facet_wrap(~gerginlik)+
  theme(axis.text.x = element_text(angle = 90))

Cevap değişkeni Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki kategorik değişkenlere göre mola sayısının dağılımı aşağıdaki grafikte verilmiştir. Aşağıdaki grafik değişkenlere bir bütün olarak yaklaşmanıza katkı sağlamış olacaktır.

Nicel değişkenlerin normal dağılıma uyup uymadığının kontrol edilmesi

Bu kısımda normalitenin testinde her ne kadar Shapiro-Wilk testi kullanılsa da Kolmogorow-Smirnov testinin de kullanılabileceğini ifade etmede fayda bulunmaktadır. Ayrıca verinin normal dağılıma uyup uymadığı kutu diyagramlarda uç değerlere bakılarak ve Cook’un mesafesine bakılarak da görülebilir. Diğer taraftan çarpıklık ve basıklık değerleri de verinin normal dağılıma uyup uymadığı noktasında bizlere önemli ipuçları verebilir, bunları hatırlatmakta fayda var.

#Q-Q plot ile molasayisi değişkeninin normal dağılıma uyumu incelenmiştir.
ggqqplot(veri$molasayisi, ylab = "Mola Sayısı", color="red")
#Normalite testi
shapiro.test(veri$molasayisi)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra molasayisi değişkeninin normal dağılıma uyup uymadığını ortaya koymak için çizilen Q-Q grafiği aşağıda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra bağımlı değişkenin normal dağılıma uyup uymadığını ortaya koymak için çizilen Q-Q grafiği aşağıda verilmiştir.

Normalitenin testi için kullanılan Shapiro-Wilk testi sonuçları ise aşağıda verilmiştir. Elde edilen bulgular, p değeri 0,05’ten küçük olduğu için molasayisi değişkeni normal dağılım göstermemektedir.

	Shapiro-Wilk normality test
data:  veri$molasayisi
W = 0.89251, p-value = 0.0001581

Poisson olasılık dağılımına göre değişkenin ortalaması ve varyansı birbirine eşit veya çok yakın olmalıdır. Aşağıda yazılan R kod bloğunda bağımlı değişken olan mola sayısının ortalama ve varyansların eşit veya birbirine yakın olup olmadığına bakalım. Elde edilen bulgulardan şu anki durumda varyans (174.2041) değerinin ortalama (28.14815) değerinin çok üzerinde olduğunu göstermektedir. Bu durum kurulacak modelde aşırı yayılım (overdispersion) endişesini artırmakla birlikte bağımlı değişkenin poisson dağılımda varyansın ortalamaya eşit veya ona yakın olması kuralını ihlal edilmesi anlamına da gelmektedir.

mean(veri$molasayisi);var(veri$molasayisi)#Ortalama ve Varyans Sırasıyla: 28.14815, 174.2041

Aşağıda yazılan R kod bloğu ile bağımlı değişkenin Poisson ve negatif binom dağılımına uyup uymadığına bakmak için hem histogramını çizelim hem de uyum iyiliği (goodness of fit) testlerini yapalım.

#Bağımlı değişkenin histogramı
ggplot(veri, aes(x=molasayisi))+geom_bar(bins=100,binwidth=.5, fill="red")+
xlab("")+
ylab("Sıklık")+
ggtitle("Mola Sayısı Değişkeni Histogramı")+
theme_replace()
#uyum iyiliği testleri
library(vcd)
#poisson dağılımı uyum iyiliği testi
ozet<-table(veri$molasayisi)
uyum <- goodfit(ozet, type = "poisson", method = "MinChisq")
summary(uyum)
#negatif binom dağılımı uyum iyiliği testi
ozet<-table(veri$molasayisi)
uyum <- goodfit(ozet, type = "nbinomial", method = "MinChisq")
summary(uyum)

Yukarıdaki R kod bloğunun ilgili satırı çalıştırıldığında bağımlı değişken olan mola sayısının histogramı aşağıda verilmiştir. Elde edilen grafik mola sayısının poisson dağılımına çok da uyum göstermemiş görünüyor.

Histogram bize net bilgi vermediği için R kod bloğundaki ilgili satırlarda sırasıyla ilk olarak Poisson dağılımı uyum iyiliği test sonuçları aşağıda verilmiştir. Elde edilen sonuçlar istatistiksel olarak anlamlı olduğu için mola sayısı değişkeni Poisson dağılımına uygun değildir (p<0,05).

 Goodness-of-fit test for poisson distribution
           X^2 df P(> X^2)
Pearson 167868 69        0

Değişkenimizin Poisson dağılıma uyum sağlamadığını biliyoruz. Bu yüzden R kod bloğunda ilgili satırı çalıştırarak değişkenin negatif binom dağılımına uygun olup olmadığını test edelim.Elde edilen bulgular istatistiksel olarak anlamlı olmadığı için mola sayısı değişkeni negatif binom dağılımına uygundur (p>0,05).

	 Goodness-of-fit test for nbinomial distribution
             X^2 df  P(> X^2)
Pearson 50.92181 68 0.9394755

Poisson regresyon modelinin kurulması

Kurulan Poisson regresyon modelinde bağımlı değişken molasayisi, diğer değişkenler ise bağımsız olup, regresyon modeline ilişkin R kod bloğu aşağıda verilmiştir.

model1 <-glm(molasayisi ~., data = veri, family = poisson)
summ(model1)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen regresyon model özeti aşağıda verilmiştir. Çıktıda yer verilen AIC (Akaike information criterion) parametresi kurulan tek bir modelin değerlendirilmesinde çok fazla anlam ifade etmemekle birlikte BIC (Akaike information criterion) parametresinde olduğu gibi ne kadar düşük olursa kurulan modelin o kadar gözlem verisine uyum sağladığını göstermektedir. Bu açıdan bakıldığında aslında bu iki parametrenin kurulan birden fazla modelin performansının değerlendirilmesinde kullanılması daha uygundur.

Call:  glm(formula = molasayisi ~ ., family = poisson, data = veri)
Coefficients:
    (Intercept)         yuntipiB    gerginlikOrta  gerginlikYuksek  
         3.6920          -0.2060          -0.3213          -0.5185  
Degrees of Freedom: 53 Total (i.e. Null);  50 Residual
Null Deviance:	    297.4 
Residual Deviance: 210.4 	AIC: 493.1
[1] 1
MODEL INFO:
Observations: 54
Dependent Variable: molasayisi
Type: Generalized linear model
  Family: poisson 
  Link function: log 
MODEL FIT:
χ²(3) = 86.98, p = 0.00
Pseudo-R² (Cragg-Uhler) = 0.80
Pseudo-R² (McFadden) = 0.15
AIC = 493.06, BIC = 501.01 
Standard errors: MLE
----------------------------------------------------
                         Est.   S.E.   z val.      p
--------------------- ------- ------ -------- ------
(Intercept)              3.69   0.05    81.30   0.00
yuntipiB                -0.21   0.05    -3.99   0.00
gerginlikOrta           -0.32   0.06    -5.33   0.00
gerginlikYuksek         -0.52   0.06    -8.11   0.00
----------------------------------------------------

Aşağıda yazılan R kod bloğunda kurulan 1 nolu modelde yayılım (dispersion) olup olmadığına bakalım.

formattable(tibble(Artik_Sapma          = deviance(model1),
     Artik_Serbestlik_Derecesi = df.residual(model1),
     Yayilim_Degeri=deviance(model1)/df.residual(model1),
     Kikare_p_Degeri              = pchisq(deviance(model1), df.residual(model1), lower = F)))
#alternatif adım adım
deger<-deviance(model1)#210.39
sd<-model1$df.residual#artıkların serbestlik derecesi
asiriyayilim<-deger/sd# artıkların serbestlik derecesine bölünmesi sonucu elde edilen değer 1'den büyükse kurulan model veriye uymadığını göstermekte ve aşırı yayılım (overdispersion) olduğunu göstermektedir.
asiriyayilim #4.207838 yani Pearson X2/50 = 4.207838

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen yayılım (dispersion) değeri aşağıda verilmiştir. Literatürde artıkların serbestlik derecesine bölünmesi sonucu elde edilen değer 1’den büyükse kurulan model veriye uymadığını göstermekte ve aşırı yayılım (overdispersion) olduğunu göstermektedir. Elde edilen bulgulara göre yayılım değeri 1’in çok üzerinde olduğu ve istatistiksel olarak anlamlı olduğu için burada aşırı yayılımın olduğunu söyleyebiliriz (Pearson X2/50 = 4.207838, p<0,05). Bu durumda eğer aşırı yayılım varsa negatif binom regresyon yönteminin denenmesi gerekmektedir.

Negatif binom regresyon modelinin kurulması

1 nolu modelde aşırı yayılım olduğu tespit edilmesinden dolayı yazılan aşağıdaki R kod bloğunda 2 nolu negatif binom regresyon modeli kurulmuştur.

model2 <-glm.nb(molasayisi ~., data = veri)
summary(model2)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen negatif binom regresyon model özeti aşağıda verilmiştir.

Call:
glm.nb(formula = molasayisi ~ ., data = veri, init.theta = 9.944385436, 
    link = log)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.0144  -0.9319  -0.2240   0.5828   1.8220  
Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
(Intercept)       3.6734     0.0979  37.520  < 2e-16 ***
yuntipiB         -0.1862     0.1010  -1.844   0.0651 .  
gerginlikOrta    -0.2992     0.1217  -2.458   0.0140 *  
gerginlikYuksek  -0.5114     0.1237  -4.133 3.58e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for Negative Binomial(9.9444) family taken to be 1)
    Null deviance: 75.464  on 53  degrees of freedom
Residual deviance: 53.723  on 50  degrees of freedom
AIC: 408.76
Number of Fisher Scoring iterations: 1
              Theta:  9.94 
          Std. Err.:  2.56 
 2 x log-likelihood:  -398.764 

Şimdi kurulan 2 nolu modelde aşırı yayılım olup olmadığını aşağıda yazılan R kod bloğu ile test edelim.

model2 <-glm.nb(molasayisi ~., data = veri)
formattable(tibble(Artik_Sapma          = deviance(model2),
     Artik_Serbestlik_Derecesi = df.residual(model2),
     Yayilim_Degeri=deviance(model2)/df.residual(model2),
     Kikare_p_Degeri              = pchisq(deviance(model2), df.residual(model2), lower = F)))

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen yayılım (dispersion) değeri aşağıda verilmiştir. Elde edilen bulgulara göre yayılım değeri yaklaşık 1 ve istatistiksel olarak anlamlı olmadığı için burada aşırı yayılımın olmadığı, aksine eşit yayılım olduğunu söyleyebiliriz.

Model karşılaştırmaları

Kurulan modelleri AIC ve BIC değerleri açısından karşılaştıralım. AIC ve BIC değerlerinin düşük olması tahmin edilen değerlerle gözlem verilerine uyum açısından istenen bir durum olduğu daha önce belirtilmişti. Elde edilen sonuçlar Model 2’nin AIC ve BIC değerleri daha düşük olduğundan Model 1’e göre daha iyi tahmin sonuçları ortaya koyduğu söylenebilir.

model1 <-glm(molasayisi ~., data = veri, family = poisson)
model2 <-glm.nb(molasayisi ~., data = veri)
stargazer(model1,model2, scale=F,  type="text", digits=3)
#alternatif
export_summs(model1, model2, scale = F, results = 'asis')

Yukarıdaki R kod bloğu çalıştırıldıktan sonra kurulan modellere ilişkin karşılaştırmalı raporlar aşağıda tablolarda verilmiştir. Ortaya konulan bulgular AIC ve BIC parametrelerinde olduğu gibi 2 nolu model 1 nolu modele göre daha az hata üretmektedir. Dolayısıyla bu bulgulara bakarak 2 nolu modelin daha iyi olduğu ileri sürülebilir.

==============================================
                      Dependent variable:     
                  ----------------------------
                           molasayisi         
                    Poisson       negative    
                                  binomial    
                      (1)           (2)       
----------------------------------------------
yuntipiB           -0.206***      -0.186*     
                    (0.052)       (0.101)     
                                              
gerginlikOrta      -0.321***      -0.299**    
                    (0.060)       (0.122)     
                                              
gerginlikYuksek    -0.518***     -0.511***    
                    (0.064)       (0.124)     
                                              
Constant           3.692***       3.673***    
                    (0.045)       (0.098)     
                                              
----------------------------------------------
Observations          54             54       
Log Likelihood     -242.528       -200.382    
theta                         9.944*** (2.561)
Akaike Inf. Crit.   493.056       408.764     
==============================================
Note:              *p<0.1; **p<0.05; ***p<0.01

Yukarıdaki R kod kod bloğunda ilgili alan çalıştırılınca BIC değerlerinin ve pseudo R^2 olduğu alternatif bir rapor da üretebiliriz. Bu tamamen karar vericiye bağlıdır.

─────────────────────────────────────────────────────
                       Model 1          Model 2      
                  ───────────────────────────────────
  (Intercept)             3.69 ***         3.67 ***  
                         (0.05)           (0.10)     
  yuntipiB               -0.21 ***        -0.19      
                         (0.05)           (0.10)     
  gerginlikOrta          -0.32 ***        -0.30 *    
                         (0.06)           (0.12)     
  gerginlikYuksek        -0.52 ***        -0.51 ***  
                         (0.06)           (0.12)     
                  ───────────────────────────────────
  N                      54               54         
  AIC                   493.06           408.76      
  BIC                   501.01           418.71      
  Pseudo R2               0.80             0.29      
─────────────────────────────────────────────────────
  *** p < 0.001; ** p < 0.01; * p < 0.05.            
Column names: names, Model 1, Model 2

Kurulan regresyon modellerine göre regresyon katsayıları

Aşağıda yazılan R kod bloğu ile regresyon katsayı büyüklükleri kurulan modellere göre karşılaştırmalı olarak verilmiştir.

#normalize edilmemiş katsayı büyüklükleri
plot_summs(model1, model2, scale = F, exp = TRUE)+
ggtitle("Modellere Göre Regresyon Katsayıları")
#normalize edilmiş katsayı büyüklükleri
plot_summs(model1, model2, scale = F, exp = TRUE) +
ggtitle("Modellere Göre Normalize Edilmiş Regresyon Katsayıları")

Yukarıdaki R kod bloğunun ilk satırının çalıştırılmasından sonra kurulan regresyon modellerine göre elde edilen regresyon katsayıları aşağıdaki grafikte verilmiştir. Burda Model 1 Poisson regresyon modeli, Model 2 ise negatif regresyon modeli olduğunu tekrar hatırlatmakta fayda var.

Yukarıdaki R kod bloğunun ikinci satırının çalıştırılmasından sonra kurulan regresyon modellerine göre elde edilen normalize edilmiş regresyon katsayıları aşağıdaki grafikte verilmiştir.

Bağımsız değişkenler ile bağımlı değişken arasındaki etkileşim düzeyleri

Kurulan 2 nolu model (negatif binom regresyon)’de bağımsız değişkenlerin her birinin bağımlı değişken üzerindeki etkisini ölçümlemeye yönelik aşağıda yazılan R kod bloğu ile karşılaştırmalı olarak verilmiştir.

plot(Effect(focal.predictors = c("gerginlik", "yuntipi"),model2), main="Gerginlik ve Yün Tipi Değişkenlerinin Etkisi")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen değişkenlerin etki düzeyleri aşağıdaki grafikte verilmiştir. Burada, yün tipi A olduğu zaman mola sayısındaki artış B’ye göre daha yüksektir. Diğer taraftan, gerginlik seviyesi yükseldikçe mola sayısında düşüş olduğu görülmektedir. Her iki bağımsız değişken birlikte değerlendirildiğinde yün tipinin A ve gerginlik seviyesinin Düşük olduğu durumda mola sayısı en yüksek seviyesine ulaşmıştır.

Yapılan bu çalışma ile özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına bir katkı sunulması amaçlanmıştır.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla.

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Öne çıkan

R’da Çoklu Doğrusal Regresyon Üzerine Bir Vaka Çalışması: A Case Study on Multiple Linear Regression (MLR) in R

Giriş

Regresyon analizi yöntemlerinden biri olan multiple (çoklu) regresyon analiz (MRA) yöntemi, bağımlı değişkenin ya da cevap değişkeninin
nicel sürekli veya kesikli olduğu bağımlı değişkenler (dependent variables) ile bağımsız değişken veya değişkenler (independent variables) arasındaki ilişkiyi ortaya koyan regresyon analiz yöntemidir.
Veri tipleri kendi içerisinde 4 farklı alt sınıfta ele alınabilir. Bu veri tipleri Şekil 1’de verilmiştir.

Şekil 1: Veri Tipleri

Nitel Veri (Qualitative Data)

Şekil 1’de verilen sunulan nitel veri tipi ölçülemeyen ve kategori belirten veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar dikkate alınarak sırasıyla örnek vererek ele alalım.

  1. Nominal veri: İki veya daha fazla cevap kategorisi olan ve sıra düzen içermeyen veri tipi olup, bu veri tipine medeni durum (evli, bekar) ve sosyal güvenlik türü (Bağkur, SSK, Yeşil Kart, Özel Sigorta) örnek gösterilebilir.
  2. Ordinal veri: İki veya daha fazla kategorisi olan ancak sıra düzen belirten veri türüdür. Bu veri tipine örnek olarak eğitim düzeyleri (İlkokul, ortaokul, lise, üniversite ve yüksek lisans), yarışma dereceleri (1. , 2. ve 3.) ve illerin gelişmişlik düzeyleri (1. Bölge, 2. Bölge, 3. Bölge, 4. Bölge, 5. Bölge ve 6. Bölge) verilebilir.

Veri tiplerinden bahsedildikten sonra bu veri tiplerinin cevap değişkeni (bağımlı değişken) olduğu durumlarda seçilecek regresyon analiz yöntemini ele alalım. Temel olarak cevap değişkeni ölçülebilir numerik değişken ise regresyon, değilse sınıflandırma analizi yapıyoruz. Eğer cevap değişkeni nitel ise aslında sınıflandırma problemini çözmek için analizi kullanıyoruz. Cevap değişkeni, diğer bir deyişle bağımlı değişken numerik ise bağımsız değişken veya değişkenlerin çıktı (output) / bağımlı değişken (dependent variable) / hedef değişken (target variable) veya değişkenlerin üzerindeki etkisi tahmin etmeye çalışıyoruz. Buradaki temel felsefeyi anlamak son derece önemlidir. Çünkü bu durum sizin belirleyeceğiniz analiz yöntemi de değiştirecektir. Bağımlı (dependent) değişkenin tipine göre kullanılan regresyon analiz yöntemleri Şekil 2’de genel hatlarıyla verilmiştir.

Şekil 2: Cevap Değişkeninin Veri Tipine Göre Regresyon Analiz Yöntemleri

Bu görselin boş bir alt özelliği var; dosya ismi: image-3.png

Modeller oluşturulurken temel amaç, bias ve varyans dengesinin kurulmasıdır. Bu uyumu sağlarsak iyi model uyumu (good-fit) elde etmiş oluruz. Makine öğrenme ve derin öğrenme problemlerinin çözümünde modelleme hatalarına bağlı olarak varyans ve bias değişiklik göstermektedir. Bu iki durum şöyle ele alınabilir:

  1. Eksik model uyumu (under-fitting): Kurulan modelde elde edilen tahmin değerleri gözlem verisine yeterince uyum göstermediğinde ortaya çıkar. Bu durumda varyans düşükken bias yüksektir. Buradan şunu anlamak gerekir: gözlem verisi ile tahmin edilen veri arasındaki fark büyükse, diğer bir deyişle kurulan modelle bağımlı değişken iyi tahmin edilemiyorsa bu durumda under-fitting oluşur. Under-fitting sonraki kısımlarında anlatılan sınıflandırma ve regresyon hata metrikleri ile kolaylıkla ortaya konulabilir.
  2. Aşrı model uyumu (over-fitting): Kurulan modelde eğitilen veri seti (training data set)’yle gözlem verisine aşırı uyum gösterdiğinde ortaya çıkar. Bu durumda varyans yüksekken bias düşüktür.

Bahsedilen bu iki durumu kafamızda daha da canlı tutmak için bias ve varyans ilişkisi Şekil 2’de verilmiştir. Şekil’de biz modeli kurgularken olması gereken durumu gösteren Düşük Varyans-Düşük Bias uyumunu, diğer bir ifadeyle yüksek kesinlik (precision)-yüksek doğruluk (accuracy) hedefliyoruz. Diğer bir deyişle kurguladığımız model (Şekil 2 1 nolu model) ile gözlem değerlerini olabildiğince en yüksek doğruluk oranı ile tahmin ederken aynı zamanda varyansı düşük (yüksek kesinlik (precision)) tutmayı hedefliyoruz. Buna başardığımızda aslında iyi model uyumunu (good-fit) sağlamış ve iyi bir model kurmuş oluyoruz. Eksik model uyumu (under-fitting)’nda ise Şekil 2’de 3 nolu modelde görüleceği üzere elde edilen tahmin değerleri gözlem değerleri (kırmızı alan)’nden uzaklaşmakla birlikte hala tahmin değerleri ile gözlem değerleri arasında farklar, diğer bir deyişle varyans düşüktür. Aşırı model uyumu (over-fitting)’da ise Şekil 2’de 2 nolu modelde görüleceği üzere varyans yüksek iken bias düşüktür. 2 nolu modelde doğru değerler (gözlem değerleri)’i kurulan modelde yüksek doğrulukla (düşük bias=yüksek doğruluk (accuracy) tahmin edilse de gözlem değerleri ile tahmin değerleri arasındaki varyans yüksektir.

Şekil 2: Bias-Varyans İlişkisi

Veri Tipleri

Yükseltme algoritmaları ile sınıflandırma problemi çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi nitel ve kategoriktir. Ancak, bu yöntem ile regresyon problemini çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi niceldir. Veri tipleri kendi içerisinde 4 farklı alt sınıfta ele alınabilir. Bu veri tipleri alt sınıflarıyla birlikte Şekil 3’te verilmiştir.

Şekil 3: Veri Tipleri

Nicel Veri (Quantitative Data)

Şekil 3’te sunulan nicel veri tipi ölçülebilen veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar dikkate alınarak sırasıyla örnek verelim.

  1. Sürekli veri (Continous data): Tam sayı ile ifade edilmeyen veri tipi olup, zaman, sıcaklık, beden kitle endeksi, boy ve ağırlık ölçümleri bu veri tipine örnek verilebilir.
  2. Kesikli veri (Discrete Data): Tam sayı ile ifade edilebilen veri tipi olup, bu veri tipine proje sayısı, popülasyon sayısı, öğrenci sayısı örnek verilebilir.

Nitel Veri (Qualitative Data)

Şekil 3’te verilen nitel veri tipi ölçülemeyen ve kategori belirten veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar şöyledir:

  1. Nominal veri: İki veya daha fazla cevap kategorisi olan ve sıra düzen içermeyen veri tipi olup, bu veri tipine medeni durum (evli, bekar) ve sosyal güvenlik türü (Bağkur, SSK, Yeşil Kart, Özel Sigorta) örnek gösterilebilir.
  2. Ordinal veri: İki veya daha fazla kategorisi olan ancak sıra düzen belirten veri türüdür. Bu veri tipine örnek olarak eğitim düzeyleri (İlkokul, ortaokul, lise, üniversite ve yüksek lisans), yarışma dereceleri (1. , 2. ve 3.) ve illerin gelişmişlik düzeyleri (1. Bölge, 2. Bölge, 3. Bölge, 4. Bölge, 5. Bölge ve 6. Bölge) verilebilir.

Veri tiplerinden bahsedildikten sonra bu veri tiplerinin cevap değişkeni (bağımlı değişken) olduğu durumlarda seçilecek analiz yöntemini ele alalım. Temel olarak cevap değişkeni ölçülebilir numerik değişken ise regresyon, değilse sınıflandırma analizi yapıyoruz. Cevap değişkeni, diğer bir deyişle bağımlı değişken numerik ise bağımsız değişken veya değişkenlerin çıktı (output) / bağımlı değişken (dependent variable) / hedef değişken (target variable) veya değişkenlerin üzerindeki etkisini tahmin etmeye çalışıyoruz. Buradaki temel felsefeyi anlamak son derece önemlidir. Çünkü bu durum sizin belirleyeceğiniz analiz yöntemini de değiştirecektir.

Kullanılan analiz yöntemi ile kurulan modelde ya sınıflandırma problemini ya da regresyon problemini çözdüğümüzü ifade etmiştik. Ancak kurulan modellerde çözülen problemin sınıflandırma ya da regresyon oluşuna göre performans değerlendirmesi farklılaşmaktadır. Sınıflandırma problemlerinde kullanılan hata metrikleri ile regresyon hata metrikleri aynı değildir. Bu bağlamda ilk olarak sınıflandırma problemlerinin çözümünde kullanılan hata metriklerini ele alalım.

Sınıflandırma Problemlerinde Hata Metrikleri

Karışıklık matrisi (confusion matrix) olarak olarak adlandırılan bu matris sınıflandırma problemlerinin çözümünde hata metriklerini ortaya koyarak kurulan modelin veya modellerin hata oranını değerlendirmektedir. Hata matrisinin makine ve derin öğrenme metotlarının değerlendirilmesinde sıklıkla kullanıldığı görülmektedir. Tablo 1’de hata metriklerinin hesaplanmasına esas teşkil eden karışıklık matrisi (confisioun matrix) verilmiştir. Bu tabloyla sınıflandırma hataları hesaplanabilmektedir. Tabloda yer verilen Tip 1 hata (Type 1 error) istatistikte alfa hatasını göstermektedir. Tip 1 hata H0 hipotezi (null hpypothesis) doğru olduğu halde reddedilmesidir. Tabloda Tip 2 hata (Type II error) olarak adlandırılan hata ise istatistikte Beta hatası olarak da bilinmektedir. Tip 2 hata ise H0 hipotezi (null hpypothesis) yanlış olduğu halde kabul edilmesidir.

Tablo 1: Karışıklık Matrisi (Confusion Matrix)

Kaynak: Stanford Üniversitesi

Tablo 1’de TP: Doğru Pozitifleri, FN: Yanlış Negatifleri, FP: Yanlış Pozitifleri ve TN: Doğru Negatifleri göstermektedir.

Şekil 3’te de yer verildiği üzere literatürde sınıflandırma modellerinin performansını değerlendirmede aşağıdaki hata metriklerinden yaygın bir şekilde yararlanıldığı görülmektedir. Sınıflandırma problemlerinin çözümüne yönelik Yükselme (Boosting: AdaBoost) algoritması kullanarak R’da yapmış olduğum çalışmanın linkini ilgilenenler için aşağıda veriyorum.

Topluluk Öğrenme Algoritmalarından Yükseltme Algoritması İle Gögüs Kanserinin Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Breast Cancer Using Boosting Algorithm from Ensemble Learning Algorithms

  • Doğruluk (Accuracy): TP+TN / TP+TN+FP+FN eşitliği ile hesaplanır. Modelin genel performansını ortaya koyar. Bu sınıflandırma metriği ile aslında biz informal bir şekilde dile getirirsek doğru tahminlerin toplam tahminler içindeki oranını hesaplamış oluyoruz.
  • Kesinlik (Precision): TP / TP+FP eşitliği ile hesaplanır. Doğru tahminlerin ne kadar kesin olduğunu gösterir.
  • Geri çağırma (Recall)TP / TP+FN eşitliği ile hesaplanır. Gerçek pozitif örneklerin oranını verir.
  • Özgünlük (Specificity): TN / TN+FP eşitliği ile hesaplanır. Gerçek negatif örneklerin oranını gösterir.
  • F1 skoru : 2TP / 2TP+FP+FN eşitliği ile hesaplanır. Dengesiz sınıflar için yararlı hibrit bir metrik olup, kesinlik (precision) ve geri çağırma (recall) skorlarının ağırlıklı ortalamasını ifade etmektedir.
  • ROC (Receiver operating characteristic): Yukarıda karışıklık matrisinde belirtilen parametrelerden yararlanılarak hesaplanır. ROC eğrisi olarak da adlandırılmaktadır. ROC eğrileri, herhangi bir tahmin modelinin doğru pozitifler (TP) ve negatifler (TN) arasında nasıl ayrım yapabileceğini görmenin güzel bir yoludur. Sınıflandırma modellerin perfomansını eşik değerler üzerinden hesaplar. ROC iki parametre üzerinden hesaplanır. Doğru Pozitiflerin Oranı (TPR) ve Yanlış Pozitiflerin Oranı (FPR) bu iki parametreyi ifade eder. Burada aslında biz TPR ile Geri Çağırma (Recall), FPR ile ise 1-Özgünlük (Specificity)‘ü belirtiyoruz.
  • Cohen Kappa: Kategorik cevap seçenekleri arasındaki tutarlılığı ve uyumu gösterir. Cohen, Kappa sonucunun şu şekilde yorumlanmasını önermiştir: ≤ 0 değeri uyumun olmadığını, 0,01–0,20 çok az uyumu, 0,21-0,40 az uyumu, 0,41-0,60 orta, 0,61-0,80 iyi uyumu ve 0,81–1,00 çok iyi uyumu göstermektedir. 1 değeri ise mükemmel uyum anlamına gelmektedir.

Sınıflandırma hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Problemlerinde Hata Metrikleri

Regresyon modellerinin performansını değerlendirmede literatürde aşağıdaki hata metriklerinden yaygın bir şekilde yararlanılmaktadır. Regresyon metrikleri eşitliklerinin verilmesi yerine sade bir anlatımla neyi ifade ettiği anlatılacaktır. Böylece formüllere boğulmamış olacaksınız.

  • SSE (Sum of Square Error): Tahmin edilen değerler ile gözlem değerleri arasındaki farkların kareleri toplamını ifade eder.
  • MSE (Mean Square Error): Ortalama kare hatası olarak adlandırılan bu hata tahmin edilen değerler ile gözlem değerleri arasındaki farkların karelerinin ortalamasını ifade eder.
  • RMSE (Root Mean Square Error): Kök ortalama kare hatası olarak adlandırılan bu hata ortalama kare hatasının karekökünü ifade etmektedir.
  • MAE (Mean Absolute Error): Ortalama mutlak hata olarak adlandırılan bu hata türü ise tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerlerinin ortalamasını ifade etmektedir.
  • MAPE (Mean Absolute Percentage Error): Ortalama mutlak yüzdesel hata olarak adlandırılan bu hata türünde ilk olarak tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerleri hesaplanır. Daha sonra hesaplanan farkları mutlak değerleri mutlak değerleri alınan gözlem değerlerine bölünür. En son durumda ise elde edilen bu değerlerin ortalaması alınır.
  • Bias: Tahmin edilen değerler ile gözlem değerleri arasındaki farkların ortalamasıdır. Bu yönüyle ortalama mutlak hata (MAE)’ya benzemektedir.

Regresyon hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Metrikleri İndir

Çalışma kapsamında R programlama dili içerisinde bulunan “mlbench” paketi içerisinde “BostonHousing” veri seti kullanılarak multiple regresyon yöntemiyle regresyon problemi çözülecektir. Bu amaçla bağımlı değişken olan ABD’nin Boston bölgesindeki konutların medyan fiyatları tahmin edilecektir.

Metodoloji ve Uygulama Sonuçları

Çoklu Doğrusal Regresyon Yöntemi

Regresyon modeli aşağıdaki eşitlikteki gibi ifa edilebilir.

Yi01X i12Xi2+…+βkXik +𝜀𝑖𝑗

Burada i=1,2,…n j=1,2,…k şeklinde tanımlanır.

Eşitlikte;
Yi: Bağımlı değişkeninin gözlenen i.inci
değerini
Xij: j.inci bağımsız değişkenin i.inci
düzeyindeki değerini
βj: j.inci regresyon katsayısını
εij: Hata terimini
k: Bağımsız değişken sayısını göstermektedir

Çoklu Doğrusal Regresyon Yöntemi Varsayımları

Çoklu doğrusal regresyon yöntemi gözlemlere en iyi uyum sağlayan regresyon doğrusunu çizmek için en küçük kareler yöntemini kullanır. Hesaplanan en küçük kareler regresyon denklemi regresyon doğrusu ile gözlemler arasındaki minimum kare hataları toplamına veya sapmalara sahiptir. Söylenenleri kafamızda daha da canlandırmak adına en küçük kareler yöntemi (method of least squares)’nin işleyişi Şekil 4’de verilmiştir.

Şekil 4: En Küçük Kareler Yöntemi (Method Of Least Squares)’nin İşleyişi

lsr-residual-diagram

Kaynak: https://www.jmp.com

Değişken tipleri: Bütün bağımsız değişkenler nicel veya kategorik olmalıdır. Bağımlı değişken ise nicel kesikli veya süreklidir.

Varyans: Bağımsız değişkenlerin varyansı 0 olmamalıdır.

Çoklu doğrusal ilişki (Multicollinearity): 2 veya daha çok bağımsız değişken arasında mükemmel (r= 1 veya -1) veya mükemmele yakın (-1 veya 1’e yakın) bir ilişki olmamalıdır. Yani değişkenler arasında çok yüksek bir korelasyon bulunmamalıdır. Eğer kurulan regresyon modelinde değişkenler arasında güçlü bir ilişki varsa değişkenlerin bireysel önem düzeyinin belirlenmesi zorlaşacaktır. Bu ilişkiyi belirlemenin bir yolu da değişkenler arasındaki korelasyonun korelasyon matrisi ile ortaya konulmasıdır. Tabi burada belirtilen korelasyon katsayıların 0,80 ve üzerinde olmasıdır. Yaygın olarak kullanılan ilişki belirleme yöntemi varyans enflasyon faktörü (variance inflation factor) kısa adıyla VIF’tir. VIF de korelasyon matrisi gibi bağımsız değişkenler arasındaki ilişkinin gücünü ortaya koymaktadır. VIF değeri 10’dan büyükse kurulan regresyon modelinde endişe kaynağı olarak görülmelidir. VIF 1 / 1-R2 eşitliği ile hesaplanmaktadır. VIF ölçüm parametresine bağlı olarak hesaplanan tolerans (tolerance) seviyesi de çoklu doğrusal ilişkiyi ortaya koymada yardımcı olabilmektedir. Tolerans seviyesi VIF parametresinin çarpmaya göre tersidir. Diğer bir ifadeyle 1 / VIF eşitliği ile hesaplanmaktadır. 0,1’in altındaki tolerans seviyeleri çoklu doğrusal ilişki açısından gözden geçirilmelidir. Çoklu doğrusal ilşkiyi ortaya koymanın bir yolu da kurulan modelden üretilen varyans oranları ve normalize edilmiş özvektör değerlerinin hesaplanmasıdır.

Homoskedastisite (Homoscedasticity): Bağımsız değişkenlerin her seviyesinde artıklar (residuals)’ın varyansı aynı / sabit kalmalıdır, diğer bir ifadeyle varyanslar homojen olmalıdır. Eğer varyanslar eşit değilse heteroskedastisite (heteroscedasticity) durumu ortaya çıkar. Bu iki durum aşağıdaki grafikte karşılaştırmalı olarak verilmiştir.

Şekil 4: Homoskedastisite ve Heteroskedastisite

Metrics Monday: When Is Heteroskedasticity (Not) a Problem? – Marc ...

Kaynak: https://marcfbellemare.com/

Otokorelasyon: Hataların bağımsızlığı anlamına da gelen otokorelasyon bir gözlemle ilişkili hataların, diğer gözlemlerin hataları arasında korelasyon olmaması gerektiğini ileri sürer. Otokorelasyon testi için artıkların hatalarına bakılır. Bu varsayım Durbin-Watson testi test edilebilir. Test istatistiği 0 ile 4 arasında değişmektedir. 2’den büyük bir değer negatif otokorelasyonu, 2’den küçük değer ise pozitif otokorelasyonu göstermektedir.

Doğrusallık (Linearity): Modellenen ilişkinin doğrusal olması gerektiğini öne sürer. Eğer doğrusal olmayan (non-linear) bir ilişki varsa bulguların genellenebilirliği açısından problem oluşturacaktır.

Kurulan regresyon analiz modellerinde güvenilir bir regresyon modeli kurmak için örneklem büyüklüğünün asgari şartları karşılaması gerekmektedir. Buna göre;

  • Kurulan regresyon modelinin tamamını değerlerdirmek için önerilen minimum örneklem büyüklüğü 50 + 8k‘tır. k burada bağımsız değişkenlerin sayısını göstermektedir. Örneğin bağımsız değişkenlerin sayısı 10 ise minimum örneklem büyüklüğü 50 + 8 X 10 eşitliğinden 130’dur.
  • Eğer bireysel olarak bağımsız değişkenler değerlendirilecek ise minimum örneklem büyüklüğü 104 + k‘tır. Örneğin bağımsız değişkenlerin sayısı 10 ise minimum örneklem büyüklüğü 104 + 8 eşitliğinden 112’dir.
  • Diğer taraftan örneklem büyüklüğü ve bağımsız değişkenin sayısına göre Cohen’in kriterini kullanarak etki büyüklüğünü hesaplayabiliriz. Cohen’in etki büyüklüğü örneklem büyüklüğü ve bağımsız değişken sayısı artıkça etki büyüklüğü azalış göstermektedir. Bu durum istenen bir durumdur. Cohen’in etki büyüklüğü R= k / (N-1) formülü ile hesaplanmaktadır. k burada bağımsız değişken sayısını, N ise örneklem / popülasyon büyüklüğünü / gözlem sayısını göstermektedir. Yukarıdaki veriler kullanılarak örnek vermek gerekirse 8 / ( 112-1) =0,07‘dir. R katsayısının 0 olması etki olmadığı anlamına gelmektedir ki, bu durumda örneklem büyüklüğünün ve değişken sayısının kurulan regresyon modelinde optimal noktaya ulaştığı anlamına gelir.

Veri seti

ABD’nin Boston bölgesinde konutların medyan fiyatları (hedef değişken) tahmin edilmiştir. Diğer bir ifadeyle, bu çalışmada regresyon problemi çözmüş olacağız. Analizde kullanılan veri seti ABD Nüfus Bürosu tarafından Boston bölgesindeki konutlarla ilgili olarak toplanan verilerden oluşmaktadır. Veri setindeki toplam gözlem sayısı 506, değişken sayısı ise 14’tür. Bu veri setine R programlama yazılımında “mlbench” paketi içerisinde “BostonHousing” olarak yer verilmiştir. Veri setinde yer alan değişkenler ve değişkenlerin veri tipleri şöyledir:

  1. crim: per capita crime rate by town. Veri tipi nicel ve süreklidir.
  2. zn: proportion of residential land zoned for lots over 25,000 sq.ft. Veri tipi nicel ve kesiklidir.
  3. indus: proportion of non-retail business acres per town. Veri tipi nicel ve süreklidir.
  4. chas: Charles River dummy variable (1 if tract bounds river; 0 otherwise). Veri tipi nitel ve nominal kategoriktir.
  5. nox: nitric oxides concentration (parts per 10 million): Veri tipi nicel ve süreklidir.
  6. rm: average number of rooms per dwelling. Veri tipi nicel ve süreklidir.
  7. age: proportion of owner-occupied units built prior to 1940. Veri tipi nicel ve süreklidir.
  8. dis: weighted distances to five Boston employment centres. Veri tipi nicel ve kesiklidir.
  9. rad: index of accessibility to radial highways. Veri tipi nicel ve süreklidir.
  10. tax: full-value property-tax rate per $10,000. Veri tipi nicel ve kesiklidir.
  11. ptratio: pupil-teacher ratio by town. Veri tipi nicel ve süreklidir.
  12. b: 1000(Bk – 0.63)^2 where Bk is the proportion of blacks by town. Veri tipi nicel ve süreklidir.
  13. lstat: % lower status of the population. Veri tipi nicel ve süreklidir.
  14. medv: Median value of owner-occupied homes in $1000’s. Veri tipi nicel ve süreklidir.

Bu kapsamda cevap değişkeni (bağımlı değişken) olan “medv” yani konut fiyatlarının medyan değeri geri kalan 13 bağımsız değişken kullanılarak çoklu doğrusal regresyon analiz yöntemiyle tahmin edilecektir. Analizde kullanılan veri setini aşağıdaki linkten indirebilirsiniz.

Boston Konut Fiyatları Veri Seti İndir

Şimdi veri setini tanıdıktan sonra adım adım (step by step) analize başlayabiliriz. Analizde R programlama dili kullanarak analiz adımları R kod bloklarında verilmiştir.

Yüklenecek R kütüphaneleri

rm(list=ls())

kütüphaneler = c("dplyr","tibble","tidyr","ggplot2","formattable","readr","readxl","xlsx", "pastecs","fpc", "DescTools","e1071", "DMwR","caret", "viridis","GGally","ggpurr","psych","writexl","ggfortify","explore","MASS","gbm")
 
sapply(kütüphaneler, require, character.only = TRUE)

Ver setinin okunması

data(BostonHousing)
veri<-BostonHousing

Ver setinin xlsx dosyasına yazdırılması

write_xlsx(veri, "Bostonkonutfiyatları.xlsx")#xlsx dosyası için

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri seti xlsx uzantılı dosyaya yazdırılmıştır. Elde edilen veri seti dosyası xlsx uzantılı olarak aşağıdan indirilebilir.Boston Konut Fiyatları Veri Setiİndir

Veri setinin görselleştirilmesi ve tanımlayıcı istatistikler

#veri setindeki ilk 3 değişkenin görselleştirilmesi
veri[,1:3] %>% explore_all()
#veri setindeki 4,5,6 ve 7. değişkenlerin görselleştirilmesi
veri[,4:7] %>% explore_all()
#veri setindeki 8,9 ve 10. değişkenlerin görselleştirilmesi
veri[,8:10] %>% explore_all()
#veri setindeki 11,12,13 ve 14. değişkenlerin görselleştirilmesi
veri[,11:14] %>% explore_all()
 
#veri setindeki ilk 10 gözlem
formattable(head(veri,10))

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki ilk 3 değişkenin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 4,5,6 ve 7. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 8,9 ve 10. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 11, 12, 13 ve 14. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra Boston Konut Fiyatları veri setindeki ilk 10 gözlem aşağıdaki tabloda verilmiştir.

Değişkenler arasındaki korelasyonun hesaplanması

Kategorik değişkenlerin korelasyon katsayılarını hesaplamak için yazılan R kod bloğu aşağıdadır. Değişkenler arasındaki korelasyonu hesaplamak için Kikare ve Anova testleri kullanılmıştır. Korelasyon katsayısı hesaplanacak her iki değişkenin de nitel ve nominal olmasından dolayı Kikare, korelasyon katsayısı hesaplanacak değişkenlerden biri nicel kesikli ve diğeri nominal olduğundan Anova testleri yapılmıştır. Korelasyon katsayısı hesaplanacak değişkenlerden biri ordinal (sıralı) olsaydı bu durumda Spearman korelasyon (SpearmanRho) katsayısının hesaplanması gerekecekti. Diğer taraftan, eğer her iki değişken nicel (sürekli ve kesikli) olsaydı bu durumda Pearson korelasyon katsayısını hesaplayacaktık.

#Pearson korelasyon matrisi 
cor.plot(veri[,-4], main="Korelasyon Matrisi")#grafik formatında
kormatris<-cor(veri[,-4])#matris formatınta
kormatris
findCorrelation(kormatris, cutoff=0.8,names=TRUE, exact = TRUE)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra nicel ve kesikli değişkenlere ait Pearson korelasyon matrisi aşağıdaki şekilde verilmiştir. Değişken çiftleri nicel (sürekli ve kesikli) olduğu için Pearson korelasyon katsayılarını hesapladık.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen korelasyon katsayıları matris formatında aşağıda verilmiştir.

              crim         zn      indus        nox         rm        age
crim     1.0000000 -0.2004692  0.4065834  0.4209717 -0.2192467  0.3527343
zn      -0.2004692  1.0000000 -0.5338282 -0.5166037  0.3119906 -0.5695373
indus    0.4065834 -0.5338282  1.0000000  0.7636514 -0.3916759  0.6447785
nox      0.4209717 -0.5166037  0.7636514  1.0000000 -0.3021882  0.7314701
rm      -0.2192467  0.3119906 -0.3916759 -0.3021882  1.0000000 -0.2402649
age      0.3527343 -0.5695373  0.6447785  0.7314701 -0.2402649  1.0000000
dis     -0.3796701  0.6644082 -0.7080270 -0.7692301  0.2052462 -0.7478805
rad      0.6255051 -0.3119478  0.5951293  0.6114406 -0.2098467  0.4560225
tax      0.5827643 -0.3145633  0.7207602  0.6680232 -0.2920478  0.5064556
ptratio  0.2899456 -0.3916785  0.3832476  0.1889327 -0.3555015  0.2615150
b       -0.3850639  0.1755203 -0.3569765 -0.3800506  0.1280686 -0.2735340
lstat    0.4556215 -0.4129946  0.6037997  0.5908789 -0.6138083  0.6023385
medv    -0.3883046  0.3604453 -0.4837252 -0.4273208  0.6953599 -0.3769546
               dis        rad        tax    ptratio          b      lstat
crim    -0.3796701  0.6255051  0.5827643  0.2899456 -0.3850639  0.4556215
zn       0.6644082 -0.3119478 -0.3145633 -0.3916785  0.1755203 -0.4129946
indus   -0.7080270  0.5951293  0.7207602  0.3832476 -0.3569765  0.6037997
nox     -0.7692301  0.6114406  0.6680232  0.1889327 -0.3800506  0.5908789
rm       0.2052462 -0.2098467 -0.2920478 -0.3555015  0.1280686 -0.6138083
age     -0.7478805  0.4560225  0.5064556  0.2615150 -0.2735340  0.6023385
dis      1.0000000 -0.4945879 -0.5344316 -0.2324705  0.2915117 -0.4969958
rad     -0.4945879  1.0000000  0.9102282  0.4647412 -0.4444128  0.4886763
tax     -0.5344316  0.9102282  1.0000000  0.4608530 -0.4418080  0.5439934
ptratio -0.2324705  0.4647412  0.4608530  1.0000000 -0.1773833  0.3740443
b        0.2915117 -0.4444128 -0.4418080 -0.1773833  1.0000000 -0.3660869
lstat   -0.4969958  0.4886763  0.5439934  0.3740443 -0.3660869  1.0000000
medv     0.2499287 -0.3816262 -0.4685359 -0.5077867  0.3334608 -0.7376627
              medv
crim    -0.3883046
zn       0.3604453
indus   -0.4837252
nox     -0.4273208
rm       0.6953599
age     -0.3769546
dis      0.2499287
rad     -0.3816262
tax     -0.4685359
ptratio -0.5077867
b        0.3334608
lstat   -0.7376627
medv     1.0000000

Korelasyon katsayılarının kontrol edilmesi

Bu kısımda pearson korelasyon katsayılarının 0,80 üzerinde olup olmadığı kontrol edilmiş olup, buna ilişkin yazılan R kod bloğuna aşağıda yer verilmiştir.

kormatris<-cor(veri[,-4])
findCorrelation(kormatris, cutoff=0.8,names=TRUE, exact = TRUE)

Yukarıdaki R kod bloğunun run edilmesi ile elde edilen sonuç aşağıda verilmiştir. Tablodan tax değişkeninin korelasyon katsayısının tamamının 0.80’in üzerinde olduğu (r=0,92) olduğu görülmektedir. Bu değişken ilk modelde yer alacaktır ancak kurulacak ikinci modelde yer almayacaktır.

[1] "tax"

Nicel değişkenlerin normal dağılıma uyup uymadığının kontrol edilmesi

#Q-Q plot ile crim değişkeninin normal dağılıma uyumu incelenmiştir.
v1<-ggqqplot(veri$crim, ylab = "crim", color="red")

#Q-Q plot ile zn değişkeninin normal dağılıma uyumu incelenmiştir.
v2<-ggqqplot(veri$zn, ylab = "zn", color="red")

#Q-Q plot ile indus değişkeninin normal dağılıma uyumu incelenmiştir.
v3<-ggqqplot(veri$indus, ylab = "indus", color="red")

#Q-Q plot ile nox değişkeninin normal dağılıma uyumu incelenmiştir.
v4<-ggqqplot(veri$nox, ylab = "crim", color="red")

#Q-Q plot ile rm değişkeninin normal dağılıma uyumu incelenmiştir.
v5<-ggqqplot(veri$rm, ylab = "rm", color="red")

#Q-Q plot ile age değişkeninin normal dağılıma uyumu incelenmiştir.
v6<-ggqqplot(veri$age, ylab = "age", color="red")

#Q-Q plot ile dis değişkeninin normal dağılıma uyumu incelenmiştir.
v7<-ggqqplot(veri$dis, ylab = "dis", color="red")

#Q-Q plot ile rad değişkeninin normal dağılıma uyumu incelenmiştir.
v8<-ggqqplot(veri$rad, ylab = "rad", color="red")

#Q-Q plot ile tax değişkeninin normal dağılıma uyumu incelenmiştir.
v9<-ggqqplot(veri$tax, ylab = "tax", color="red")

#Q-Q plot ile ptratio değişkeninin normal dağılıma uyumu incelenmiştir.
v10<-ggqqplot(veri$ptratio, ylab = "ptratio", color="red")

#Q-Q plot ile b değişkeninin normal dağılıma uyumu incelenmiştir.
v11<-ggqqplot(veri$b, ylab = "b", color="red")

#Q-Q plot ile lstat değişkeninin normal dağılıma uyumu incelenmiştir.
v12<-ggqqplot(veri$lstat, ylab = "lstat", color="red")

#Q-Q plot ile medv değişkeninin normal dağılıma uyumu incelenmiştir.
v13<-ggqqplot(veri$medv, ylab = "medv", color="red")

ggarrange(v1,v2,v3,v4)#ilk dört değişken

ggarrange(v5,v6,v7,v8)#2. ilk dört değişken

ggarrange(v9,v10,v11,v12, v13)#3. ilk beş değişken

Yukarıdaki R kod bloğunun çalıştırılmasından sonra ilk gruba ait dört değişkeninin normal dağılıma uyup uymadığını ortaya koymak için çizilen Q-Q grafiği aşağıda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra ikinci grup ilk dört değişkeninin normal dağılıma uyup uymadığını ortaya koymak için çizilen Q-Q grafiği aşağıda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra üçüncü gruba ait ilk beş değişkeninin normal dağılıma uyup uymadığını ortaya koymak için çizilen Q-Q grafiği aşağıda verilmiştir.

Çoklu regresyon modelinin kurulması

Kurulan çoklu regresyon modelinde bağımlı değişken medv, diğer değişkenler ise bağımsız olup, regresyon modeline ilişkin R kod bloğu aşağıda verilmiştir.

model1 <- glm(medv ~. , data = veri)
summ(model1)

#alternatif
model1 <- lm(medv ~. , data = veri)
summary(model1)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen regresyon model özeti aşağıda verilmiştir. Çıktıda yer verilen AIC (Akaike information criterion) parametresi kurulan tek bir modelin değerlendirilmesinde çok fazla anlam ifade etmemekle birlikte BIC (Akaike information criterion) parametresinde olduğu gibi ne kadar düşük olursa kurulan modelin o kadar gözlem verisine uyum sağladığını göstermektedir. Bu açıdan bakıldığında aslında bu iki parametrenin kurulan birden fazla modelin performansının değerlendirilmesinde kullanılması daha uygundur.

MODEL INFO:
Observations: 506
Dependent Variable: medv
Type: Linear regression 

MODEL FIT:
χ²(13) = 31637.51, p = 0.00
Pseudo-R² (Cragg-Uhler) = 0.74
Pseudo-R² (McFadden) = 0.19
AIC = 3027.61, BIC = 3091.01 

Standard errors: MLE
-------------------------------------------------
                      Est.   S.E.   t val.      p
----------------- -------- ------ -------- ------
(Intercept)          36.46   5.10     7.14   0.00
crim                 -0.11   0.03    -3.29   0.00
zn                    0.05   0.01     3.38   0.00
indus                 0.02   0.06     0.33   0.74
chas1                 2.69   0.86     3.12   0.00
nox                 -17.77   3.82    -4.65   0.00
rm                    3.81   0.42     9.12   0.00
age                   0.00   0.01     0.05   0.96
dis                  -1.48   0.20    -7.40   0.00
rad                   0.31   0.07     4.61   0.00
tax                  -0.01   0.00    -3.28   0.00
ptratio              -0.95   0.13    -7.28   0.00
b                     0.01   0.00     3.47   0.00
lstat                -0.52   0.05   -10.35   0.00
-------------------------------------------------

Estimated dispersion parameter = 22.52 

Kurulan modelin özetinde eğer güven aralıklarını da verecek olursak aşağıdaki R kod bloğu ile bu mümkündür.

summ(model1, confint = TRUE, digits = 3)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde çoklu regresyon model çıktısına güven aralıkları ile birlikte aşağıda yer verilmiştir.

MODEL INFO:
Observations: 506
Dependent Variable: medv
Type: Linear regression 

MODEL FIT:
χ²(13) = 31637.511, p = 0.000
Pseudo-R² (Cragg-Uhler) = 0.741
Pseudo-R² (McFadden) = 0.186
AIC = 3027.609, BIC = 3091.007 

Standard errors: MLE
-----------------------------------------------------------------
                       Est.      2.5%     97.5%    t val.       p
----------------- --------- --------- --------- --------- -------
(Intercept)          36.459    26.457    46.462     7.144   0.000
crim                 -0.108    -0.172    -0.044    -3.287   0.001
zn                    0.046     0.020     0.073     3.382   0.001
indus                 0.021    -0.100     0.141     0.334   0.738
chas1                 2.687     0.998     4.375     3.118   0.002
nox                 -17.767   -25.253   -10.280    -4.651   0.000
rm                    3.810     2.991     4.629     9.116   0.000
age                   0.001    -0.025     0.027     0.052   0.958
dis                  -1.476    -1.866    -1.085    -7.398   0.000
rad                   0.306     0.176     0.436     4.613   0.000
tax                  -0.012    -0.020    -0.005    -3.280   0.001
ptratio              -0.953    -1.209    -0.696    -7.283   0.000
b                     0.009     0.004     0.015     3.467   0.001
lstat                -0.525    -0.624    -0.425   -10.347   0.000
-----------------------------------------------------------------

Estimated dispersion parameter = 22.518 

Regresyon denkleminin yazılması

Değişkenlerin coefficient (katsayı) tahminlerinden yola çıkarak 1 nolu çoklu doğrusal regresyon modelimizin denklemini yazalım.

Medv (y)= intercept + crim*x1 + zn*x2 + indus*x3 + chas1*x4 + nox*x5 + rm*x6 + age*x7 + dis*x8 + rad*x9 + tax*x10 + ptratio*x11 + b*x12 + lstat*x13

Şimdi yukarıda hesaplanan katsayıları denklemde yerine yazalım. Ancak denkleme sadece istatistiksel olarak anlamlı çıkan değişkenleri dahil edelim.

Medv (y)= 36.459 – 0.108*X1 + 0.046*x2 + 2.687*x4 – 17.767*x5 + 3.810*x6 – 1.476*x8 + 0.306*x9 – 0.012*x10 – 0.953*x11 + 0.009*x12 – 0.525*x13

Elde edilen denkleme göre çoklu doğrusal regresyon modelini şöyle yorumlayabiliriz.

1. crim değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini 0,108 kat azaltmaktadır.

2. zn değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini 0.046 kat artırmaktadır. Etkisi bağımlı değişken üzerinde yok denecek kadar azdır

3. chas katogorik değişkenindeki bir birimlik değişim 0 kategorisine göre bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini 2.687 kat artırmaktadır.

5. nox değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini -17.767 kat azaltmaktadır.

6. rm değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini 3.810 kat artırmaktadır.

7. dis değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini -1.476 kat azaltmaktadır.

8. rad değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini 0.306 kat artırmaktadır.

9. tax değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini -0.012 kat azaltmaktadır. Etkisi bağımlı değişken üzerinde yok denecek kadar azdır.

10. ptratio değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini -0.953 kat azaltmaktadır.

11. b değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini 0.009 kat artırmaktadır. Etkisi bağımlı değişken üzerinde yok denecek kadar azdır.

12. lstat değişkenindeki bir birimlik değişim bağımlı değişken olan medv (medyan ev fiyatlarını) değişkenini -0.525 kat azaltmaktadır.

13. zn değişkenindeki bir birimlik değişim ise medv (medyan ev fiyatlarını) değişkenini 0.046 artırmaktadır.

Regresyon modelinin raporlanması

Regresyon modelini kurduk ve özetini aldık. Şimdi de kurduğum bu regresyon modelini aşağıda yazdığım R kod bloğu yardımıyla raporlayalım ve xlsx uzantılı bir dosyaya yazdıralım.

export_summs(model1, scale = FALSE, to.file = "xlsx", file.name = "model1.xlsx")#aynı zamanda xlsx uzantılı dosyaya yazdırmak için

export_summs(model1, scale = FALSE, to.file = "docx", file.name = "model1.docx")

Yukarıdaki R kod bloğu çalıştırılması ile hem model xlsx dosyasına yazdırılmış hem de R konsolunda sonuçlarına ulaştık. Model rapor çıktısı aşağıda verilmiştir. Raporda parantez içinde yer alanlar standart hata (S.E)’yı göstermektedir.

─────────────────────────────────────────────────
                                 Model 1         
                        ─────────────────────────
  (Intercept)                         36.46 ***  
                                      (5.10)     
  crim                                -0.11 **   
                                      (0.03)     
  zn                                   0.05 ***  
                                      (0.01)     
  indus                                0.02      
                                      (0.06)     
  chas1                                2.69 **   
                                      (0.86)     
  nox                                -17.77 ***  
                                      (3.82)     
  rm                                   3.81 ***  
                                      (0.42)     
  age                                  0.00      
                                      (0.01)     
  dis                                 -1.48 ***  
                                      (0.20)     
  rad                                  0.31 ***  
                                      (0.07)     
  tax                                 -0.01 **   
                                      (0.00)     
  ptratio                             -0.95 ***  
                                      (0.13)     
  b                                    0.01 ***  
                                      (0.00)     
  lstat                               -0.52 ***  
                                      (0.05)     
                        ─────────────────────────
  N                                  506         
  AIC                               3027.61      
  BIC                               3091.01      
  Pseudo R2                            0.74      
─────────────────────────────────────────────────
  *** p < 0.001; ** p < 0.01; * p < 0.05.       

Şimdi de aynı kod bloğunun çalıştırılması ile raporun xlsx dosyasına yazdırılmış versiyonunu verelim. Aşağıdaki linkten raporun xlsx uzantılı versiyonunu indirebilirsiniz.

Kurulan modelin özeti alternatif olarak aşağıda yazılan R kod bloğunun çalıştırılması ile de elde edilebilir.

stargazer(model1, scale=F,  type="text", digits=2)#fonksiyon içerisine out="....txt" yazarsınız özeti txt uzantılı olarak kaydetmek de mümkündür.

Yukarıdaki R kod bloğunun çalıştırılması ile elde edilen model özeti aşağıda verilmiştir.

===============================================
                        Dependent variable:    
                    ---------------------------
                               medv            
-----------------------------------------------
crim                         -0.11***          
                              (0.03)           
                                               
zn                            0.05***          
                              (0.01)           
                                               
indus                          0.02            
                              (0.06)           
                                               
chas1                         2.69***          
                              (0.86)           
                                               
nox                          -17.77***         
                              (3.82)           
                                               
rm                            3.81***          
                              (0.42)           
                                               
age                            0.001           
                              (0.01)           
                                               
dis                          -1.48***          
                              (0.20)           
                                               
rad                           0.31***          
                              (0.07)           
                                               
tax                          -0.01***          
                              (0.004)          
                                               
ptratio                      -0.95***          
                              (0.13)           
                                               
b                             0.01***          
                              (0.003)          
                                               
lstat                        -0.52***          
                              (0.05)           
                                               
Constant                     36.46***          
                              (5.10)           
                                               
-----------------------------------------------
Observations                    506            
R2                             0.74            
Adjusted R2                    0.73            
Residual Std. Error       4.75 (df = 492)      
F Statistic          108.08*** (df = 13; 492)  
===============================================
Note:               *p<0.1; **p<0.05; ***p<0.01

======
110.24
------

Değişkenlerin modeldeki nispi önem düzeyleri

Kurulan regresyon modelinde nispi önem ağrlıklarını (relative importances) hesaplamak için iki yöntem kullanılmış ve karşılaştırmalı olarak sunulmuştur. Kullanılan yöntemlerinden ilki lmg olup, regresörler arasındaki sıralamalara göre ortalama R ^ 2 katkısını ifade etmektedir. Diğer yöntem ise betasq olup, normalize edilmiş kare katsayını göstermektedir. Nispi önem ağırlıklarını hesaplamak için yazılan R kod bloğu aşağıda verilmiştir.

nispionem<-calc.relimp(model1, type = c("lmg","betasq"), rela = TRUE)
nispionem#lmg ve betasq yöntemleri kullanarak karşılaştırmalı olarak nispi önem ağırlıklarını vermek için

Yukarıdaki R kod bloğunun son satırı çalıştırılmasından sonra lmg ve betasq yöntemlerine göre bağımsız değişkenlerin nispi önem ağırlıkları aşağıda verilmiştir. Elde edilen bulgular en yüksek nispi önem ağırlığına sahip değişkenin lstat değişkeni olduğunu göstermektedir. Bu değişkeni sırasıyla rm ve ptratio değişkenleri izlemiştir.

Response variable: medv 
Total response variance: 84.58672 
Analysis based on 506 observations 

13 Regressors: 
crim zn indus chas nox rm age dis rad tax ptratio b lstat 
Proportion of variance explained by model: 74.06%
Metrics are normalized to sum to 100% (rela=TRUE). 

Relative importance metrics: 

               lmg       betasq
crim    0.03669197 1.597789e-02
zn      0.03349910 2.169676e-02
indus   0.05101231 3.682211e-04
chas    0.02139033 8.620330e-03
nox     0.04511571 7.845783e-02
rm      0.25259867 1.326430e-01
age     0.02975151 7.028187e-06
dis     0.04087946 1.787074e-01
rad     0.03190385 1.314540e-01
tax     0.04967225 7.999602e-02
ptratio 0.10602348 7.875477e-02
b       0.03093651 1.337755e-02
lstat   0.27052485 2.599392e-01

Average coefficients for different model sizes: 

                  1X          2Xs          3Xs           4Xs          5Xs
crim     -0.41519028  -0.27876734  -0.21102769  -0.172845863  -0.14899982
zn        0.14213999   0.09177589   0.06926785   0.058187805   0.05208479
indus    -0.64849005  -0.49907219  -0.39245035  -0.312711078  -0.25044986
chas      6.34615711   6.13625177   5.79137684   5.378363951   4.96039109
nox     -33.91605501 -23.64184669 -17.74630522 -14.537764121 -12.99734886
rm        9.10210898   8.07541798   7.46905711   7.011233964   6.61054979
age      -0.12316272  -0.07450317  -0.04834524  -0.033245015  -0.02390811
dis       1.09161302   0.10952005  -0.47255267  -0.833695790  -1.06499158
rad      -0.40309540  -0.20593927  -0.08194586   0.001678813   0.06198805
tax      -0.02556810  -0.02017034  -0.01665270  -0.014304609  -0.01271040
ptratio  -2.15717530  -1.74062066  -1.52445277  -1.389315454  -1.29154159
b         0.03359306   0.02243776   0.01743324   0.014808955   0.01324295
lstat    -0.95004935  -0.90871002  -0.86922333  -0.830576846  -0.79243771
                 6Xs          7Xs          8Xs           9Xs          10Xs
crim     -0.13318972  -0.12244878  -0.11518841  -0.110479262  -0.107740227
zn        0.04841098   0.04611642   0.04473486   0.044039341   0.043909618
indus    -0.19989046  -0.15740182  -0.12065007  -0.088070978  -0.058531713
chas      4.56663532   4.20812708   3.88683375   3.600046913   3.342756614
nox     -12.49075417 -12.61748098 -13.12577086 -13.860628817 -14.730291533
rm        6.23447431   5.87015426   5.51253464   5.160160375   4.813205720
age      -0.01774178  -0.01339689  -0.01012959  -0.007506479  -0.005261198
dis      -1.21554565  -1.31379414  -1.37739662  -1.417937166  -1.443287731
rad       0.10808364   0.14515543   0.17645934   0.204220581   0.230033618
tax      -0.01163317  -0.01094108  -0.01056128  -0.010452258  -0.010588444
ptratio  -1.21468054  -1.15187362  -1.09982518  -1.056675250  -1.021201281
b         0.01221866   0.01149901   0.01096173   0.010537971   0.010185605
lstat    -0.75484432  -0.71798862  -0.68210391  -0.647421018  -0.614154947
                 11Xs          12Xs          13Xs
crim     -0.106584888  -0.106741334 -1.080114e-01
zn        0.044279575   0.045117684  4.642046e-02
indus    -0.031119628  -0.005017834  2.055863e-02
chas      3.108982366   2.892438686  2.686734e+00
nox     -15.684182425 -16.698441350 -1.776661e+01
rm        4.472316347   4.137922082  3.809865e+00
age      -0.003220995  -0.001266585  6.922246e-04
dis      -1.458920162  -1.468724058 -1.475567e+00
rad       0.255062878   0.280176177  3.060495e-01
tax      -0.010953167  -0.011536415 -1.233459e-02
ptratio  -0.992503316  -0.969873098 -9.527472e-01
b         0.009876605   0.009590626  9.311683e-03
lstat    -0.582502652  -0.552645344 -5.247584e-01

Marjinal etki düzeylerinin hesaplanması

Marjinal etki düzeyi, tahmincilerin (bağımsız değişkenlerin) sonuç değişkeni üzerindeki etkisini tanımlamak için kullanılabilecek alternatif bir metriktir. Marjinal etkiler, bağımsız değişkendeki bir birim artışın oluşturduğu değişim olasılığını göstermektedir.

#Marjinal etki düzeyleri tablosu
margineffect= margins(model1)
# Summary of marginal effect
margineffect=summary(margineffect) %>% mutate_at(2:7, round, 3) %>% arrange(desc(AME))
formattable(margineffect)
 
#Marjinal etki düzeylerinin grafiği
mgrafik= margins(model1)
plot(mgrafik, main="Ortalama Marjinal Etki (AME) Düzeyleri Grafiği", ylab="AME", xlab="Faktörler")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen ortalama marjinal etki düzeyleri (AME) aşağıdaki tabloda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen ortalama marjinal etki (AME) düzeylerinin grafiği ise aşağıda verilmiştir.

Alternatif: Değişkenlerin önem düzeyleri

n<-varImp(model1)
n<-rownames(n)
n<-n %>% as_tibble()
varImp(model1) %>% as_tibble() %>% rename("Onem_Duzeyi"=Overall) %>% add_column("Değişken"=n$value,.before="Onem_Duzeyi") %>% mutate_if(is.numeric, round, 3) %>% arrange(desc(Onem_Duzeyi)) %>% formattable()

Yukarıdaki kod bloğunun çalıştırılmasından sonra elde edilen modeldeki değişkenlerin önem düzeyleri büyükten küçüğe doğru aşağıdaki tabloda verilmiştir.

Tahmin edilen değerler ile test veri setindeki gözlem değerlerinin karşılaştırılması

tahmin<-predict(model1, veri)
 
karsilastirma<-tibble("Gözlem"=veri$medv, Tahmin=tahmin)
 
#ilk ve son 10 tahmin değerini gerçek değerle karşılaştırma 
ilk10<-head(karsilastirma, 10) %>% rename("Gözlemİlk_10"="Gözlem", Tahminİlk_10=Tahmin) %>% mutate_if(is.numeric, round, 1)
 
son10<-tail(karsilastirma, 10) %>% rename("GözlemSon_10"="Gözlem", TahminSon_10=Tahmin) %>% mutate_if(is.numeric, round, 1)
 
formattable(cbind(Sıra=seq(1,10),ilk10, son10))

#sonuçların xlsx dokümanına yazdırılması
write_xlsx(karsilastirma, "karsilatirmasonuc.xlsx.")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra çoklu regresyon modelinden elde edilen ilk ve son 10 tahmin değerleri gözlem değerleri ile birlikte aşağıdaki tabloda karşılaştırmalı olarak verilmiştir.

Yukarıdaki R kod bloğundaki son kod satırının çalıştırılması ile kurulan modelden elde edilen elde edilen tahmin sonuçları ile veri setindeki gözlem değerleri karşılaştırmalı olarak xlsx dokümanında verilmiş olup, aşağıdaki linkten indirebilirsiniz.

Regresyon Hata parametreleri

Kurulan modele ait regresyon hata metriklerinin elde edilmesine yönelik yazılan R kod bloğu aşağıda verilmiştir.

tahmin<-predict(model1, veri)
regresyonmetrik<-tibble("Gözlem"=veri$medv, Tahmin=tahmin) %>% summarise(SSE=sse(Gözlem, Tahmin),MSE=mse(Gözlem, Tahmin),RMSE=rmse(Gözlem, Tahmin), MAE=mae(Gözlem, Tahmin), MAPE=mape(Gözlem, Tahmin)) %>% mutate_if(is.numeric, round, 1)
formattable(regresyonmetrik)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra kurulan modele ait hata parametre değerleri aşağıda verilmiştir.

2 Nolu Çoklu Regresyon Modelinin Kurulması

Daha önce belirtildiği üzere tax değişkenine ait korelasyon katsayısının 0,80’in üzerinde çıktığını bahsetmiştik. İki nolu modelde bu değişkeni çıkararak medyan konu fiyatları (medv) değişkenini tahmin edelim. Kurulan regresyon modeline ilişkin R kod bloğu aşağıda verilmiştir.

model2 <- glm(medv ~. , data = veri)

summ(model2)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen regresyon model özeti aşağıda verilmiştir.

MODEL INFO:
Observations: 506
Dependent Variable: medv
Type: Linear regression 

MODEL FIT:
χ²(12) = 31395.25, p = 0.00
Pseudo-R² (Cragg-Uhler) = 0.74
Pseudo-R² (McFadden) = 0.18
AIC = 3036.55, BIC = 3095.73 

Standard errors: MLE
-------------------------------------------------
                      Est.   S.E.   t val.      p
----------------- -------- ------ -------- ------
(Intercept)          34.63   5.12     6.76   0.00
crim                 -0.11   0.03    -3.22   0.00
zn                    0.04   0.01     2.69   0.01
indus                -0.07   0.06    -1.21   0.23
chas1                 3.03   0.86     3.51   0.00
nox                 -18.70   3.85    -4.86   0.00
rm                    3.91   0.42     9.29   0.00
age                  -0.00   0.01    -0.05   0.96
dis                  -1.49   0.20    -7.39   0.00
rad                   0.13   0.04     3.26   0.00
ptratio              -0.99   0.13    -7.48   0.00
b                     0.01   0.00     3.52   0.00
lstat                -0.52   0.05   -10.20   0.00
-------------------------------------------------

Estimated dispersion parameter = 22.96 

Model karşılaştırmaları

İlk olarak modelleri AIC ve BIC değerleri açısından karşılaştıralım. AIC ve BIC değerlerinin düşük olması tahmin edilen değerlerle gözlem verilerine uyum açısından istenen bir durum olduğu daha önce belirtilmişti. Elde edilen sonuçlar Model 1’in AIC ve BIC değerleri daha düşük olduğundan Model 2’ye göre daha iyi tahmin sonuçları ortaya koyduğu söylenebilir.

Şimdide R kod bloğu yazarak her iki modelin regresyon metriklerine birlikte bakalım.

tahmin<-predict(model1, veri)

regresyonmetrik<-tibble("Gözlem"=veri$medv, Tahmin=tahmin) %>% summarise(SSE=sse(Gözlem, Tahmin),MSE=mse(Gözlem, Tahmin),RMSE=rmse(Gözlem, Tahmin), MAE=mae(Gözlem, Tahmin), MAPE=mape(Gözlem, Tahmin)) %>% mutate_if(is.numeric, round, 2) %>% add_column(Model="Model 1", .before="SSE")


tahmin2<-predict(model2, veri[,-10])

regresyonmetrik2<-tibble("Gözlem"=veri$medv, Tahmin=tahmin2) %>% summarise(SSE=sse(Gözlem, Tahmin),MSE=mse(Gözlem, Tahmin),RMSE=rmse(Gözlem, Tahmin), MAE=mae(Gözlem, Tahmin), MAPE=mape(Gözlem, Tahmin)) %>% mutate_if(is.numeric, round, 2)%>% add_column(Model="Model 2", .before="SSE")


formattable(rbind(regresyonmetrik, regresyonmetrik2))

Yukarıdaki R kod bloğu çalıştırıldıktan sonra kurulan modellere ilişkin karşılatırmalı hata metrikleri aşağıdaki tabloda verilmiştir. Ortaya konulan bulgular AIC ve BIC parametrelerinde olduğu gibi 1 nolu model 2 nolu modele göre daha az hata üretmektedir. Dolayısıyla bu bulgulara bakarak 1 nolu modelin daha iyi olduğu ileri sürülebilir.

Anova testi ile her iki modeli karşılaştırma

Anova testi kullanılarak her iki model karşılaştırarak model performansları ortaya konulmuştur. Aşağıdaki R kod bloğu ile her iki model anova test edilerek modellerdeki iyileşmeler verilmiştir.

model1<-lm(medv ~. , data = veri)
model2<-lm(medv ~. , data = veri [,-10])
anova(model2, model1)

Yukarıdaki R kod bloğu çalıştırıldıktan sonra elde edilen model performansları aşağıda verilmiştir. Elde edilen bulgular istatistiksel olarak 1. modelin 2. modele göre daha iyi olduğunu göstermektedir. Anova testinde F rasyosu bize bu iyileşmeyi göstermektedir. Aşağıdaki raporda 1. modelde elde edilen toplam hata (RSS) 11079, 2. modelde elde edilen hata (RSS) ise 11321’dir. Görüleceği üzere 2. modelde hata da yüksektir. Sum of Sq ifadesi 11079-11321=-242.26 göstermektedir.

AAnalysis of Variance Table

Model 1: medv ~ crim + zn + indus + chas + nox + rm + age + dis + rad + 
    tax + ptratio + b + lstat
Model 2: medv ~ crim + zn + indus + chas + nox + rm + age + dis + rad + 
    ptratio + b + lstat
  Res.Df   RSS Df Sum of Sq      F   Pr(>F)   
1    492 11079                                
2    493 11321 -1   -242.26 10.758 0.001112 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Her iki modelin birlikte raporlanması

Her iki model yazılan aşağıdaki R kod bloğu birlikte karşılaştırma sağlanabilmesi adına raporlanabilir. Kurulan her iki modelde bağımsız değişkenler bağımlı değişken olan medyan ev fiyatlarındaki varyansın % 74’ünü açıklamaktadır.

export_summs(model1,model2 scale = FALSE, results = 'asis')

Yukarıdaki R kod bloğu çalıştırılarak kurulan modellere ilişkin elde edilen karşılaştırmalı rapor aşağıda verilmiştir.

────────────────────────────────────────────────────
                      Model 1          Model 2      
                 ───────────────────────────────────
  (Intercept)           36.46 ***        34.63 ***  
                        (5.10)           (5.12)     
  crim                  -0.11 **         -0.11 **   
                        (0.03)           (0.03)     
  zn                     0.05 ***         0.04 **   
                        (0.01)           (0.01)     
  indus                  0.02            -0.07      
                        (0.06)           (0.06)     
  chas1                  2.69 **          3.03 ***  
                        (0.86)           (0.86)     
  nox                  -17.77 ***       -18.70 ***  
                        (3.82)           (3.85)     
  rm                     3.81 ***         3.91 ***  
                        (0.42)           (0.42)     
  age                    0.00            -0.00      
                        (0.01)           (0.01)     
  dis                   -1.48 ***        -1.49 ***  
                        (0.20)           (0.20)     
  rad                    0.31 ***         0.13 **   
                        (0.07)           (0.04)     
  tax                   -0.01 **                    
                        (0.00)                      
  ptratio               -0.95 ***        -0.99 ***  
                        (0.13)           (0.13)     
  b                      0.01 ***         0.01 ***  
                        (0.00)           (0.00)     
  lstat                 -0.52 ***        -0.52 ***  
                        (0.05)           (0.05)     
                 ───────────────────────────────────
  N                    506              506         
  AIC                 3027.61          3036.55      
  BIC                 3091.01          3095.73      
  Pseudo R2              0.74             0.74      
────────────────────────────────────────────────────
  *** p < 0.001; ** p < 0.01; * p < 0.05.           

Column names: names, Model 1, Model 2

Diagnostik Testler

Bu kısımda kurulan 1 nolu modelin regresyon varsayımları gözden geçirilecektir.

Artıkların normal dağılım gösterdiği varsayımı

library(broom)
diagnostiktest <- augment(model1)
plot(model1, 2)

#alternatif
ggqqplot(diagnostiktest$.resid, ylab = "Std. deviance residuals", color="red")

#alternatif
ggqqplot(model1$residuals, ylab = "Std. deviance residuals", color="blue")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen artıkların grafiği aşağıda verilmiştir. Grafikte normal dağılımı bozan değerler olduğu görülmektedir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen artıkların alternatif grafiği aşağıda verilmiştir.

Çoklu doğrusallık varsayımı

Bu kısımda aşağıda yazdığım R kod bloğu ile varyans enflasyon faktörü (VIF) ve tolerans seviyeleri hesaplanmıştır.

varyanseflasyonfaktoru<-VIF(model1)
vif<-tibble(Değişken=names(VIF(model1)), VIF=varyanseflasyonfaktoru) %>% arrange(desc(VIF)) %>% add_column(sıra=1:13, .before="Değişken") %>% mutate(Tolerans=1/VIF) %>% mutate_if(is.numeric, round,2)

formattable(vif, 
            list(formatter(
              "span", style = ~ style(color = "grey",font.weight = "bold")),
`VIF` = color_bar("#00CED1"),
`Tolerans` = color_bar("#00FF7F")
))

Yukarıdaki R kod bloğunun çalıştırılması ile hesaplanan varyans enflasyon faktörü (VIF) ve tolerans seviyeleri aşağıdaki tabloda verilmiştir. Daha önce VIF değerinin 10’dan büyük olmaması ve tolerans seviyesinin ise 0,1’in altına düşmemesi gerektiğini söylemiştir. Elde edilen bulgular VIF ve tolerans değerlerinin kabul edilebilir sınırlar içerisinde kaldığını göstermektedir.

Etkin değerlerin bulunması

Burada etkin değerlerden kasıt Cook’un mesafesi kullanılarak uç (extreme) değerlerin bulunmasıdır. Aşağıda yazılan R kod bloğu ile normal dağılıma uymayan 10 değer Cook’un mesafesi kullanılarak grafiğe yansıtılmıştır.

plot(model1, 4, id.n = 10)
#değerleri de verecek olursak satırlarla birlikte
top10<-diagnostiktest[, -c(15:19,21)] %>%
  top_n(10, wt = .cooksd) %>% mutate_if(is.numeric, round,3)
as.matrix(top10)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra Cook’un mesafesini gösteren grafik en yüksek 10 değeri ile birlikte aşağıda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra Cook’un mesafesini gösteren tablo matris formatında en yüksek 10 gözlem değeri ile birlikte aşağıda verilmiştir.

  medv   crim     zn  indus   chas nox     rm      age     dis     rad 
 [1,] "23.7" " 0.290" "0" "10.59" "0"  "0.489" "5.412" "  9.8" "3.587" " 4"
 [2,] "21.9" " 3.474" "0" "18.10" "1"  "0.718" "8.780" " 82.9" "1.905" "24"
 [3,] "27.5" " 4.556" "0" "18.10" "0"  "0.718" "3.561" " 87.9" "1.613" "24"
 [4,] "23.1" "13.522" "0" "18.10" "0"  "0.631" "3.863" "100.0" "1.511" "24"
 [5,] "50.0" " 4.898" "0" "18.10" "0"  "0.631" "4.970" "100.0" "1.332" "24"
 [6,] "50.0" " 5.670" "0" "18.10" "1"  "0.631" "6.683" " 96.8" "1.357" "24"
 [7,] "50.0" " 6.539" "0" "18.10" "1"  "0.631" "7.016" " 97.5" "1.202" "24"
 [8,] "50.0" " 9.232" "0" "18.10" "0"  "0.631" "6.216" "100.0" "1.169" "24"
 [9,] "50.0" " 8.267" "0" "18.10" "1"  "0.668" "5.875" " 89.6" "1.130" "24"
[10,] "17.9" "18.811" "0" "18.10" "0"  "0.597" "4.628" "100.0" "1.554" "24"
      tax   ptratio b        lstat   .cooksd
 [1,] "277" "18.6"  "348.93" "29.55" "0.043"
 [2,] "666" "20.2"  "354.55" " 5.29" "0.069"
 [3,] "666" "20.2"  "354.70" " 7.12" "0.067"
 [4,] "666" "20.2"  "131.42" "13.33" "0.045"
 [5,] "666" "20.2"  "375.52" " 3.26" "0.166"
 [6,] "666" "20.2"  "375.33" " 3.73" "0.055"
 [7,] "666" "20.2"  "392.05" " 2.96" "0.044"
 [8,] "666" "20.2"  "366.15" " 9.53" "0.043"
 [9,] "666" "20.2"  "347.88" " 8.88" "0.094"
[10,] "666" "20.2"  " 28.79" "34.37" "0.050"

Alternatif olarak aşağıdaki R kod bloğunda car paketini kullanarak da uç değerleri (outliers) belirleyebiliriz. Burada Bonferroni düzeltilmiş outlier test’ini kullanıyoruz.

library(car)
outlierTest(model1,10)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen uç değerler aşağıda verilmiştir. Bu uç değerler modelden çıkarılırsa daha iyi sonuçlar elde edilmesi mümkündür. Aşağıda solda yer alan numaralar veri setindeki satır numaralarını göstermektedir.

     rstudent unadjusted p-value Bonferroni p
369  5.907411         6.4998e-09   3.2889e-06
372  5.491079         6.4185e-08   3.2478e-05
373  5.322247         1.5617e-07   7.9020e-05
370  3.807609         1.5808e-04   7.9987e-02
413  3.546859         4.2724e-04   2.1618e-01
365 -3.457995         5.9153e-04   2.9932e-01
371  3.367841         8.1712e-04   4.1346e-01
187  3.032720         2.5518e-03           NA
366  2.956763         3.2586e-03           NA
162  2.859666         4.4214e-03           NA

Modelden uç değerlerler çıkarılarak tekrar kurulmuştur. Aşağıda yazılan kod bloğu ile düzeltilmiş R karenin yükseldiği görülmektedir. Bu da bize bağımsız değişkenlerin bağımlı değişkendeki varyansı açıklama oranının yükseldiği göstermektedir.

n<-outlierTest(model1,10)
#küçükten büyüğe doğru satır numaralarını sıralayacak olursak
satir<-sort(names(n$rstudent))#satırlar küçükten büyüğe doğru
#sonuçlar:[1] 162 187 365 366 369 370 371 372 373 413
mmodelucyok<-lm(medv ~. , data = veri[-satir, ])
summary(mmodelucyok)

Yukarıdaki R kod bloğunun çalıştırılması ile uç değerlerin çıkarılmasından sonra elde edilen yeni model özeti aşağıda verilmiştir. Elde edilen bulgular uç değerler çıkartıldığında modelin bağımlı değişkendeki varyansları açıklama gücünün % 73’ten % 81’e çıktığını göstermektedir.

Call:
lm(formula = medv ~ ., data = veri[-satir, ])

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2400  -2.2328  -0.5165   1.7342  18.8761 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  20.430819   4.299288   4.752 2.66e-06 ***
crim         -0.093021   0.026329  -3.533 0.000450 ***
zn            0.033153   0.011037   3.004 0.002806 ** 
indus         0.014326   0.049452   0.290 0.772175    
chas1         1.532408   0.728125   2.105 0.035844 *  
nox         -11.953077   3.091782  -3.866 0.000126 ***
rm            5.467502   0.366377  14.923  < 2e-16 ***
age          -0.026620   0.010737  -2.479 0.013506 *  
dis          -1.175980   0.160622  -7.321 1.04e-12 ***
rad           0.203448   0.053560   3.799 0.000164 ***
tax          -0.012625   0.003014  -4.189 3.33e-05 ***
ptratio      -0.895774   0.105524  -8.489 2.60e-16 ***
b             0.010020   0.002170   4.617 5.01e-06 ***
lstat        -0.303462   0.044016  -6.894 1.70e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.793 on 482 degrees of freedom
Multiple R-squared:  0.8142,	Adjusted R-squared:  0.8092 
F-statistic: 162.5 on 13 and 482 DF,  p-value: < 2.2e-16

Her iki modeli, model 1 ile uç değerlerinin çıkarılarak kurgulandığı yeni modeli karşılaştırmalı olarak aşağıda yazılan R kod bloğu ile de vererek resmi daha yakından görmüş oluruz.

stargazer(model1,mmodelucyok, scale=F,  type="text", digits=2)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra bahsedilen her iki karşılaştırmalı olarak aşağıda verilmiştir.

=====================================================================
                                   Dependent variable:               
                    -------------------------------------------------
                                          medv                       
                              (1)                      (2)           
---------------------------------------------------------------------
crim                        -0.11***                 -0.09***        
                             (0.03)                   (0.03)         
                                                                     
zn                          0.05***                  0.03***         
                             (0.01)                   (0.01)         
                                                                     
indus                         0.02                     0.01          
                             (0.06)                   (0.05)         
                                                                     
chas1                       2.69***                   1.53**         
                             (0.86)                   (0.73)         
                                                                     
nox                        -17.77***                -11.95***        
                             (3.82)                   (3.09)         
                                                                     
rm                          3.81***                  5.47***         
                             (0.42)                   (0.37)         
                                                                     
age                          0.001                   -0.03**         
                             (0.01)                   (0.01)         
                                                                     
dis                         -1.48***                 -1.18***        
                             (0.20)                   (0.16)         
                                                                     
rad                         0.31***                  0.20***         
                             (0.07)                   (0.05)         
                                                                     
tax                         -0.01***                 -0.01***        
                            (0.004)                  (0.003)         
                                                                     
ptratio                     -0.95***                 -0.90***        
                             (0.13)                   (0.11)         
                                                                     
b                           0.01***                  0.01***         
                            (0.003)                  (0.002)         
                                                                     
lstat                       -0.52***                 -0.30***        
                             (0.05)                   (0.04)         
                                                                     
Constant                    36.46***                 20.43***        
                             (5.10)                   (4.30)         
                                                                     
---------------------------------------------------------------------
Observations                  506                      496           
R2                            0.74                     0.81          
Adjusted R2                   0.73                     0.81          
Residual Std. Error     4.75 (df = 492)          3.79 (df = 482)     
F Statistic         108.08*** (df = 13; 492) 162.46*** (df = 13; 482)
=====================================================================
Note:                                     *p<0.1; **p<0.05; ***p<0.01

======
110.24
------

Hataların bağımsızlığı testi

Kurulan regresyon modelinde hataların bağımsızlığını testi için literatürde genellikle Durbin Watson istatistiğinin kullanıldığı görülmektedir. Regresyon modellerinde hatalar bağımsız olması gerekli olup, Durbin Watson değerinin 1 ile 3 arasında olması istenmektedir. Aşağıda yazılan R kod bloğu ile 1 nolu modelin Durbin Watson istatistiği verilmiştir.

lmtest::dwtest(model1)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen Durbin Watson istatistiği aşağıdaki verilmiştir. Elde edilen bulgular Durbin-Watson test istatistiği değerinin referans değerler aralığında kaldığını ve bu sonucun istatistiksel olarak anlamlı olduğunu göstermektedir.

	Durbin-Watson test

data:  model1
DW = 1.0784, p-value < 2.2e-16
alternative hypothesis: true autocorrelation is greater than 0

Yapılan bu çalışma ile özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına önemli bir katkı sunulacağı düşünülmektedir.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla.

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Öne çıkan

Topluluk Öğrenme Algoritmalarından Gradyan Yükseltme Algoritması İle Gögüs Kanserinin Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Breast Cancer Using Gradient Boosting Algorithm from Ensemble Learning Algorithms

Giriş

Topluluk (ensemble) öğrenme algoritmaları tahmine dayalı analitik çalışmalarda en başarılı yaklaşımlardan biridir. Bu algoritmalar somut bir problemi çözmek için bir araya gelen modeller setinden oluşmaktadır. Amaç modeller setinin ürettiği tahminleri birleştirerek doğruluğu (accuracy) artırmaktır. Topluluk algoritmaları kendi içerisinde üç grupta ele alınır.

  1. Torbalama (Bagging: Bootsrap Aggregating)
  2. Yükseltme (Boosting)
    • AdaBoost
    • Gradient Boosting
    • XGBoost
    • LightGBM
  3. İstif (Stacking)

Topluluk (ensemble) öğrenme ve yükseltme algoritmalarından biri olan gradyan yükseltme, ingilizce ifadeyle gradient boosting, temel olarak Leo Breiman tarafından 1997 yılında geliştirilen sınıflandırma, regresyon ve sıralama problemlerinin çözümünde kullanılan makine öğrenmesine dayanan topluluk algoritmasıdır. Gradyan yükseltme algoritmaları yinelemeli olarak çalışır. Bu yöntemde her bir yinelemede yeni bir zayıf öğrenici ilave edilerek güçlü bir öğrenici oluşturulur. Diğer bir ifadeyle, zayıf öğrenicilerin bir araya gelmesiyle güçlü bir öğrenici oluşturulur. Bu yöntemde her ağaç bir öncekinden ardışık düzende öğrenerek sığ ağaçlardan oluşan bir topluluk oluşturulur. Bu topluluk oluşturmak için yeni modellerin eklendiği yinelemeli (iteratif) bir süreçten oluşur. Bu bir anlamda adaptiftir. Algoritmanın her yeni yinelenmesinde, yeni modeller önceki yinelemelerde yapılan hataların üstesinden gelmek için inşa edilir. Bu yöntemde, sonraki her bir modelin önceki modeldeki hataları düzeltmeye çalıştığı sıralı (sequential) bir işlem yapılır. Yani sonraki modeller önceki modele bağımlıdır. Bu yöntem çok çeşitli sorunlara en uygun çözümleri bulabilen çok genel bir optimizasyon algoritmasıdır. Gradyan algortimasının temel fikri, maliyet fonksiyonunu en aza indirmek için parametreleri tekrarlamaktır. Ağaç eklerken kaybı en aza indirmek için gradyan iniş prosedürü kullanılır. Gradyan yükseltme üç unsur içerir:

  1. Optimize edilecek bir kayıp (loss) fonksiyonu.
  2. Tahmin yapmak için zayıf bir öğrenici.
  3. Kayıp fonksiyonu en aza indirmek için zayıf öğrenicilere eklenecek için bir katkı modeli.

Yükseltme algoritmasının işleyiş süreci Şekil 1’de verilmiştir.

Şekil 1: Gradyan Yükseltme (Gradient Boosting) Algoritmasının İşleyiş Süreci

Kaynak: https://www.akira.ai

Yükseltme algoritmaları topluluk üyelerinin her biri birbirine bağımlıdır. Torbalama algoritmaları paralel düzende, yükseltme algoritmaları ise ardışık (sequential) düzende çalışmaktadır.

Modeller oluşturulurken temel amaç, bias ve varyans dengesinin kurulmasıdır. Bu uyumu sağlarsak iyi model uyumu (good-fit) elde etmiş oluruz. Makine öğrenme ve derin öğrenme problemlerinin çözümünde modelleme hatalarına bağlı olarak varyans ve bias değişiklik göstermektedir. Bu iki durum şöyle ele alınabilir:

  1. Eksik model uyumu (under-fitting): Kurulan modelde elde edilen tahmin değerleri gözlem verisine yeterince uyum göstermediğinde ortaya çıkar. Bu durumda varyans düşükken bias yüksektir. Buradan şunu anlamak gerekir: gözlem verisi ile tahmin edilen veri arasındaki fark büyükse, diğer bir deyişle kurulan modelle bağımlı değişken iyi tahmin edilemiyorsa bu durumda under-fitting oluşur. Under-fitting sonraki kısımlarında anlatılan sınıflandırma ve regresyon hata metrikleri ile kolaylıkla ortaya konulabilir.
  2. Aşrı model uyumu (over-fitting): Kurulan modelde eğitilen veri seti (training data set)’yle gözlem verisine aşırı uyum gösterdiğinde ortaya çıkar. Bu durumda varyans yüksekken bias düşüktür.

Bahsedilen bu iki durumu kafamızda daha da canlı tutmak için bias ve varyans ilişkisi Şekil 2’de verilmiştir. Şekil’de biz modeli kurgularken olması gereken durumu gösteren Düşük Varyans-Düşük Bias uyumunu, diğer bir ifadeyle yüksek kesinlik (precision)-yüksek doğruluk (accuracy) hedefliyoruz. Diğer bir deyişle kurguladığımız model (Şekil 2 1 nolu model) ile gözlem değerlerini olabildiğince en yüksek doğruluk oranı ile tahmin ederken aynı zamanda varyansı düşük (yüksek kesinlik (precision)) tutmayı hedefliyoruz. Buna başardığımızda aslında iyi model uyumunu (good-fit) sağlamış ve iyi bir model kurmuş oluyoruz. Eksik model uyumu (under-fitting)’nda ise Şekil 2’de 3 nolu modelde görüleceği üzere elde edilen tahmin değerleri gözlem değerleri (kırmızı alan)’nden uzaklaşmakla birlikte hala tahmin değerleri ile gözlem değerleri arasında farklar, diğer bir deyişle varyans düşüktür. Aşırı model uyumu (over-fitting)’da ise Şekil 2’de 2 nolu modelde görüleceği üzere varyans yüksek iken bias düşüktür. 2 nolu modelde doğru değerler (gözlem değerleri)’i kurulan modelde yüksek doğrulukla (düşük bias=yüksek doğruluk (accuracy) tahmin edilse de gözlem değerleri ile tahmin değerleri arasındaki varyans yüksektir.

Şekil 2: Bias-Varyans İlişkisi

Veri Tipleri

Yükseltme algoritmaları ile sınıflandırma problemi çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi nitel ve kategoriktir. Ancak, bu yöntem ile regresyon problemini çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi niceldir. Veri tipleri kendi içerisinde 4 farklı alt sınıfta ele alınabilir. Bu veri tipleri alt sınıflarıyla birlikte Şekil 3’te verilmiştir.

Şekil 3: Veri Tipleri

Nicel Veri (Quantitative Data)

Şekil 3’te sunulan nicel veri tipi ölçülebilen veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar dikkate alınarak sırasıyla örnek verelim.

  1. Sürekli veri (Continous data): Tam sayı ile ifade edilmeyen veri tipi olup, zaman, sıcaklık, beden kitle endeksi, boy ve ağırlık ölçümleri bu veri tipine örnek verilebilir.
  2. Kesikli veri (Discrete Data): Tam sayı ile ifade edilebilen veri tipi olup, bu veri tipine proje sayısı, popülasyon sayısı, öğrenci sayısı örnek verilebilir.

Nitel Veri (Qualitative Data)

Şekil 3’te verilen nitel veri tipi ölçülemeyen ve kategori belirten veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar şöyledir:

  1. Nominal veri: İki veya daha fazla cevap kategorisi olan ve sıra düzen içermeyen veri tipi olup, bu veri tipine medeni durum (evli, bekar) ve sosyal güvenlik türü (Bağkur, SSK, Yeşil Kart, Özel Sigorta) örnek gösterilebilir.
  2. Ordinal veri: İki veya daha fazla kategorisi olan ancak sıra düzen belirten veri türüdür. Bu veri tipine örnek olarak eğitim düzeyleri (İlkokul, ortaokul, lise, üniversite ve yüksek lisans), yarışma dereceleri (1. , 2. ve 3.) ve illerin gelişmişlik düzeyleri (1. Bölge, 2. Bölge, 3. Bölge, 4. Bölge, 5. Bölge ve 6. Bölge) verilebilir.

Veri tiplerinden bahsedildikten sonra bu veri tiplerinin cevap değişkeni (bağımlı değişken) olduğu durumlarda seçilecek analiz yöntemini ele alalım. Temel olarak cevap değişkeni ölçülebilir numerik değişken ise regresyon, değilse sınıflandırma analizi yapıyoruz. Cevap değişkeni, diğer bir deyişle bağımlı değişken numerik ise bağımsız değişken veya değişkenlerin çıktı (output) / bağımlı değişken (dependent variable) / hedef değişken (target variable) veya değişkenlerin üzerindeki etkisini tahmin etmeye çalışıyoruz. Buradaki temel felsefeyi anlamak son derece önemlidir. Çünkü bu durum sizin belirleyeceğiniz analiz yöntemini de değiştirecektir.

Kullanılan analiz yöntemi ile kurulan modelde ya sınıflandırma problemini ya da regresyon problemini çözdüğümüzü ifade etmiştik. Ancak kurulan modellerde çözülen problemin sınıflandırma ya da regresyon oluşuna göre performans değerlendirmesi farklılaşmaktadır. Sınıflandırma problemlerinde kullanılan hata metrikleri ile regresyon hata metrikleri aynı değildir. Bu bağlamda ilk olarak sınıflandırma problemlerinin çözümünde kullanılan hata metriklerini ele alalım.

Sınıflandırma Problemlerinde Hata Metrikleri

Karışıklık matrisi (confusion matrix) olarak olarak adlandırılan bu matris sınıflandırma problemlerinin çözümünde hata metriklerini ortaya koyarak kurulan modelin veya modellerin hata oranını değerlendirmektedir. Hata matrisinin makine ve derin öğrenme metotlarının değerlendirilmesinde sıklıkla kullanıldığı görülmektedir. Tablo 1’de hata metriklerinin hesaplanmasına esas teşkil eden karışıklık matrisi (confisioun matrix) verilmiştir. Bu tabloyla sınıflandırma hataları hesaplanabilmektedir. Tabloda yer verilen Tip 1 hata (Type 1 error) istatistikte alfa hatasını göstermektedir. Tip 1 hata H0 hipotezi (null hpypothesis) doğru olduğu halde reddedilmesidir. Tabloda Tip 2 hata (Type II error) olarak adlandırılan hata ise istatistikte Beta hatası olarak da bilinmektedir. Tip 2 hata ise H0 hipotezi (null hpypothesis) yanlış olduğu halde kabul edilmesidir.

Tablo 1: Karışıklık Matrisi (Confusion Matrix)

Kaynak: Stanford Üniversitesi

Tablo 1’de TP: Doğru Pozitifleri, FN: Yanlış Negatifleri, FP: Yanlış Pozitifleri ve TN: Doğru Negatifleri göstermektedir.

Şekil 3’te de yer verildiği üzere literatürde sınıflandırma modellerinin performansını değerlendirmede aşağıdaki hata metriklerinden yaygın bir şekilde yararlanıldığı görülmektedir. Sınıflandırma problemlerinin çözümüne yönelik Yükselme (Boosting: AdaBoost) algoritması kullanarak R’da yapmış olduğum çalışmanın linkini ilgilenenler için aşağıda veriyorum.

Topluluk Öğrenme Algoritmalarından Yükseltme Algoritması İle Gögüs Kanserinin Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Breast Cancer Using Boosting Algorithm from Ensemble Learning Algorithms

  • Doğruluk (Accuracy): TP+TN / TP+TN+FP+FN eşitliği ile hesaplanır. Modelin genel performansını ortaya koyar. Bu sınıflandırma metriği ile aslında biz informal bir şekilde dile getirirsek doğru tahminlerin toplam tahminler içindeki oranını hesaplamış oluyoruz.
  • Kesinlik (Precision): TP / TP+FP eşitliği ile hesaplanır. Doğru tahminlerin ne kadar kesin olduğunu gösterir.
  • Geri çağırma (Recall)TP / TP+FN eşitliği ile hesaplanır. Gerçek pozitif örneklerin oranını verir.
  • Özgünlük (Specificity): TN / TN+FP eşitliği ile hesaplanır. Gerçek negatif örneklerin oranını gösterir.
  • F1 skoru : 2TP / 2TP+FP+FN eşitliği ile hesaplanır. Dengesiz sınıflar için yararlı hibrit bir metrik olup, kesinlik (precision) ve geri çağırma (recall) skorlarının ağırlıklı ortalamasını ifade etmektedir.
  • ROC (Receiver operating characteristic): Yukarıda karışıklık matrisinde belirtilen parametrelerden yararlanılarak hesaplanır. ROC eğrisi olarak da adlandırılmaktadır. ROC eğrileri, herhangi bir tahmin modelinin doğru pozitifler (TP) ve negatifler (TN) arasında nasıl ayrım yapabileceğini görmenin güzel bir yoludur. Sınıflandırma modellerin perfomansını eşik değerler üzerinden hesaplar. ROC iki parametre üzerinden hesaplanır. Doğru Pozitiflerin Oranı (TPR) ve Yanlış Pozitiflerin Oranı (FPR) bu iki parametreyi ifade eder. Burada aslında biz TPR ile Geri Çağırma (Recall), FPR ile ise 1-Özgünlük (Specificity)‘ü belirtiyoruz.
  • Cohen Kappa: Kategorik cevap seçenekleri arasındaki tutarlılığı ve uyumu gösterir. Cohen, Kappa sonucunun şu şekilde yorumlanmasını önermiştir: ≤ 0 değeri uyumun olmadığını, 0,01–0,20 çok az uyumu, 0,21-0,40 az uyumu, 0,41-0,60 orta, 0,61-0,80 iyi uyumu ve 0,81–1,00 çok iyi uyumu göstermektedir. 1 değeri ise mükemmel uyum anlamına gelmektedir.

Sınıflandırma hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Problemlerinde Hata Metrikleri

Regresyon modellerinin performansını değerlendirmede literatürde aşağıdaki hata metriklerinden yaygın bir şekilde yararlanılmaktadır. Regresyon metrikleri eşitliklerinin verilmesi yerine sade bir anlatımla neyi ifade ettiği anlatılacaktır. Böylece formüllere boğulmamış olacaksınız.

  • SSE (Sum of Square Error): Tahmin edilen değerler ile gözlem değerleri arasındaki farkların kareleri toplamını ifade eder.
  • MSE (Mean Square Error): Ortalama kare hatası olarak adlandırılan bu hata tahmin edilen değerler ile gözlem değerleri arasındaki farkların karelerinin ortalamasını ifade eder.
  • RMSE (Root Mean Square Error): Kök ortalama kare hatası olarak adlandırılan bu hata ortalama kare hatasının karekökünü ifade etmektedir.
  • MAE (Mean Absolute Error): Ortalama mutlak hata olarak adlandırılan bu hata türü ise tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerlerinin ortalamasını ifade etmektedir.
  • MAPE (Mean Absolute Percentage Error): Ortalama mutlak yüzdesel hata olarak adlandırılan bu hata türünde ilk olarak tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerleri hesaplanır. Daha sonra hesaplanan farkları mutlak değerleri mutlak değerleri alınan gözlem değerlerine bölünür. En son durumda ise elde edilen bu değerlerin ortalaması alınır.
  • Bias: Tahmin edilen değerler ile gözlem değerleri arasındaki farkların ortalamasıdır. Bu yönüyle ortalama mutlak hata (MAE)’ya benzemektedir.

Regresyon hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Metrikleri İndir

Çalışma kapsamında gradyan yükseltme algoritmasıyla sınıflandırma problemi çözülecektir. Bu amaçla Wisconsin Üniversitesi Hastanesinden alınan Meme Kanseri veri seti kullanılarak bağımlı değişken olan meme kanserinin tipi tahmin edilecektir.

Metodoloji ve Uygulama Sonuçları

Bu bölümde gradyan algoritması kullanılarak meme kanserinin türü (iyi huylu: benign, kötü huylu: malign) tahmin edilmiştir. Diğer bir ifadeyle, bu çalışmada sınıflandırma problemi çözmüş olacağız. Analizde kullanılan veri seti Wisconsin Üniversitesi Hastanelerinde 15 Temmuz 1992 tarihine kadar tedavi görmüş hastalardan alınan meme biyopsi verilerini içermektedir. Biyopsi’den bahsetmişken ne anlama geldiğini de açıklayalım. Biyopsi, vücudun farklı bölgelerinden mikroskop yardımıyla inceleme ve farklı tetkikler yaparak hastalık şüphesi bulunan bölgeden tanı amaçlı hücre ya da doku alma işlemidir. Veri setinde 15 Temmuz 1992’ye kadar 699 hastaya ait meme tümör biyopsi gözlemleri bulunmaktadır. Veri setindeki toplam gözlem sayısı 699, değişken sayısı ise 10 (ID numarası hariç)’dur. Bu veri setine R programlama yazılımında “MASS” paketi içerisinde “biopsy” olarak yer verilmiştir. Ancak veri setinde değişkenlerin adları tam olarak yazılmadığı için R programlama dilinde revize edilmiş ve R programlama dili kullanılarak gradyan yükseltme (gradient boosting) algoritmasıyla analiz edilmiştir.

  1. Cl.thickness: Kitlenin kalınlığını (clump thickness) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  2. Cell.size: Hücre büyüklüğünün homojenliğini (uniformity of cell size) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  3. Cell.shape: Hücre şeklinin bütünlüğünü (uniformity of cell shape) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  4. Marg.adhesion: Marjinal yapışmayı göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  5. Epith.c.size Epitel hücre büyüklüğünü (single epithelial cell size) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  6. Bare.nuclei: Sitoplazma (hücrenin geri kalanı) ile çevrili olmayan çekirdekler için kullanılan bir terimdir. Bunlar tipik olarak iyi huylu tümörlerde görülür. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  7. Bl.cromatin: Benign (iyi huylu) hücrelerde görülen çekirdeğin muntazam bir “dokusunu” açıklar (bland chromatin). Kanser hücrelerinde kromatin daha kaba olma eğilimindedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  8. Normal.nucleoli: Nükleoller, çekirdekte görülen küçük yapılardır. Kanser hücrelerinde nükleoller daha belirgin hale gelir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  9. Mitoses: Mitotik aktivite, hücrelerin ne kadar hızlı bölündüğünün bir ölçüsüdür. Yüksek mitotik aktivite tipik olarak malign tümörlerde görülür. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  10. Class: Meme kanserinin tipini (iyi huylu mu yoksa kötü huylu mu) göstermektedir. Değişken kategorileri “benign” ve “malignant“, diğer bir deyişle iyi ve kötü huyludur.Veri tipi nitel ve nominal kategoriktir.

Bu kapsamda cevap değişkeni (bağımlı değişken) olan “Class” yani meme kanserinin türü geri kalan 9 bağımsız değişken kullanılarak yükseltme (boosting) algoritmasıyla tahmin edilecektir. Analizde kullanılan veri setini aşağıdaki linkten indirebilirsiniz.

Şimdi veri setini tanıdıktan sonra adım adım (step by step) analize başlayabiliriz. Analizde R programlama dili kullanarak analiz adımları R kod bloklarında verilmiştir.

Yüklenecek R kütüphaneleri

rm(list=ls())

kütüphaneler = c("dplyr","tibble","tidyr","ggplot2","formattable","readr","readxl","xlsx", "pastecs","fpc", "DescTools","e1071", "DMwR","caret", "viridis","GGally","ggpurr","psych","writexl","ggfortify","explore","MASS","gbm")
 
sapply(kütüphaneler, require, character.only = TRUE)

Ver setinin okunması ve değişkenlerin adlandırılması

veri<-biopsy %>% rename(Cl.thickness=V1, Cell.size=V2, Cell.shape=V3, Marg.adhesion=V4,  Epith.c.size=V5, Bare.nuclei=V6, Bl.cromatin=V7, Normal.nucleoli=V8, Mitoses=V9, Class=class)
veri<-veri[,-1]

Ver setinin xlsx ve csv uzantılı dosyalara yazdırılması

write.csv(veri, "gögüskanseriveriseti.csv")#csv dosyası için
write_xlsx(veri, "gögüskanseriveriseti.xlsx")#xlsx dosyası için

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri seti xlsx ve csv uzantılı dosyalara yazdırılmıştır. Elde edilen veri seti dosyası sadece xlsx uzantılı olarak aşağıdan indirilebilir. Sitem csv dosya yüklemesini desteklemediği için csv uzantılı dosya aşağıda verilememiştir. Ancak yukarıdaki R kod bloğu çalıştırabilir ve csv uzatılı dosya rmd dosyasının bulunduğu klasör içine otomatik olarak kaydedilebilir.

Veri setinin görselleştirilmesi ve tanımlayıcı istatistikler

#veri setindeki ilk 3 değişkenin görselleştirilmesi
veri[,1:3] %>% explore_all()
#veri setindeki 4,5,6 ve 7. değişkenlerin görselleştirilmesi
veri[,4:7] %>% explore_all()
#veri setindeki 8,9 ve 10. değişkenlerin görselleştirilmesi
veri[,8:10] %>% explore_all()

#veri setindeki ilk 10 gözlem
formattable(head(veri,10))

#Eksik gözlemler çıkarıldıktan sonra Pearson korelasyon matrisi 
tamveri<-na.omit(veri)
cor.plot(tamveri[,-10], main="Korelasyon Matrisi")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki ilk 3 değişkenin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 4,5,6 ve 7. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere sadece Bare.nuclei değişkende 16 eksik gözlem (missing data: NA) bulunmaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 8,9 ve 10. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra meme kanseri veri setindeki ilk 10 gözlem aşağıdaki tabloda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra meme kanseri veri setindeki eksik gözlemlerin olduğu 16 satır çıkarılmış, ardından nicel ve kesikli değişkenlere ait Pearson korelasyon matrisi aşağıdaki şekilde verilmiştir. Bağımlı değişken dışındaki değişken çiftleri nicel (sürekli ve kesikli) olduğu için Pearson korelasyon katsayısını hesapladık.

Bağımlı değişken olan tümörün tipi (Class)’ne görer değişkenler arasındaki ilişki

tamveri %>% ggplot(aes(x = Cl.thickness, y = Cell.size, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Cell.shape, y = Marg.adhesion, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Epith.c.size, y = Bare.nuclei, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Bl.cromatin, y = Normal.nucleoli, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_wrap(Mitoses~Class )

Yukarıdaki R kod bloğunun çalıştırılmasından sonra ilk iki değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 3. ve 4. değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 5. ve 6. değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 7, 8 ve 9. değişkenlerin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Veri setinin eğitilecek veri setine ve test veri setine ayrılması

Bu kısımda aşağıdaki R kod bloğunda basit tekrarsız tesadüfi örnekleme (SRS without replacement) yöntemi kullanılarak veri setindeki gözlemlerin % 70’i eğitilecek veri setine, % 30 ise test edilecek veri setine atanmıştır. Veri setinin eğitilecek veri seti ve test veri setine ayrılmasında genel olarak 70:30 kuralı uygulansa da bu kuralın mutlak olmadığı unutulmamalıdır. Veri setindeki gözlem sayısına göre 70:30 kuralı değişiklik gösterebilmektedir. Veri setindeki gözlem sayısı çok azsa 60:40, veri setindeki gözlem sayısı çok fazla ise 80:20 ve hatta 90:10 olabilmektedir. Şimdi soru burada şu olabilir; neden biz 80:20 veya 90:10 olarak belirliyoruz? Genel olarak buna verilebileceğim cevap şu: Eğer çok yüksek gözlem sayıları ile çalışıyorsanız bilgisayar işlemcisine bağlı olarak bu işlemin çok uzun sürmesi kuvvetle muhtemeldir ki bu durumda test veri setinin oranını düşürmek analizinizi hızlandırır ve daha çabuk sonuç alırsınız.

set.seed(1461)
orneklem<- sample(1:NROW(tamveri), NROW(tamveri)*0.7)
train <- tamveri[orneklem, ]  
test <- tamveri[-orneklem, ]

Gradyan Yükseltme (Gradient Boosting) modelinin kurulması

model <- gbm(Class ~., data=train, shrinkage=0.01, distribution="multinomial", cv.folds=3, n.trees=5000)
print(model)

Değişkenlerin önem düzeyleri

onem0<-summary(model)

onemduzey0<-tibble("Değişken"=onem0$var,"Önem Düzeyi"=as.numeric(round(onem0$rel.inf,2)))

formattable(onemduzey0, 
            list(formatter(
              "span", style = ~ style(color = "grey",font.weight = "bold")),
`Önem Düzeyi` = color_bar("#00FF00")
))

Yukarıdaki kod bloğunun çalıştırılmasından sonra elde edilen modeldeki değişkenlerin nispi önem düzeyleri (%) değerleriyle birlikte büyükten küçüğe doğru aşağıdaki tabloda verilmiştir.

Tahmin edilen değerler ile test veri setindeki gözlem değerlerinin karşılaştırılması

#en iyi parametre değerine göre tahmin sonuçlarını elde etme
(eniyi <- gbm.perf(model, plot.it=FALSE, method="cv"))
tahmin<-predict(model, test, n.trees=eniyi, type="response")[,,1]
tahmin<-as.factor(colnames(tahmin)[max.col(tahmin)])

karsilastirmatest<-tibble("Gözlem"=test$Class, Tahmin=tahmin)
#ilk ve son 10 tahmin değerini gerçek değerle karşılaştırma 
ilk10<-head(karsilastirmatest, 10) %>% rename(Gozlemİlk_10=Gözlem, Tahminİlk_10=Tahmin)
son10<-tail(karsilastirmatest, 10) %>% rename(GozlemSon_10=Gözlem, TahminSon_10=Tahmin)
formattable(cbind("Sıra"=seq(1,10),ilk10, son10))

#sonuçların xlsx dokümanına yazdırılması
karsilatirmasonuctest<-tibble("Gözlem"=test$Class, Tahmin=tahmin)
write_xlsx(karsilatirmasonuctest, "karsilatirmasonuctest.xlsx.")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra gradyan yükseltme modelinden elde edilen ilk ve son 10 tahmin sınıflandırma değerleri gözlem sınıflandırma değerleri ile birlikte aşağıdaki tabloda karşılaştırmalı olarak verilmiştir.

Yukarıdaki R kod bloğundaki son kod satırının çalıştırılması ile kurulan modelden elde edilen elde edilen sınıflandırma tahmin sonuçları ile test veri setindeki sınıflandırma sonuçları karşılaştırmalı olarak xlsx dokümanında verilmiş olup, aşağıdaki linkten indirebilirsiniz.

Karışıklık matrisi (confusion matrix)’nin oluşturulması

(eniyi <- gbm.perf(model, plot.it=FALSE, method="cv"))
tahmin<-predict(model, test, n.trees=eniyi, type="response")[,,1]

tahmin<-as.factor(colnames(tahmin)[max.col(tahmin)])

(cm <- table(tahmin, test$Class))

#Doğruluk (Acccuracy) oranı (%)
paste("Doğruluk Oranı: %", round(100*(sum(diag(cm))/sum(cm)),1)) 

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen karışıklık matrisi aşağıda verilmiştir.

tahmin      benign malignant
  benign       139         7
  malignant      0        59

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen doğruluk oranı % 96,6 olup aşağıda verilmiştir. Burada model test verisi ile karşılaştırılmış olup elde edilen sonuçlar test verisine ilişkin sonuçlardır.

"Doğruluk Oranı: % 96.6"

Sınıflandırma Hata parametreleri

Kurulan modele ait hata parametrelerinin elde edilmesine yönelik yazılan R kod bloğu aşağıda verilmiştir.

cm0<-confusionMatrix(tahmin, test$Class)

cm0

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen hata metrikleri bir bütün olarak aşağıda verilmiştir. Gradyan yükseltme algoritmasıyla kurulan model meme kanseri türlerini yaklaşık % 97 doğruluk (accuracy) oranı ile tahmin etmektedir. Hata oranı ise 100-97 eşitliğinden yola çıkarak % 3 buluruz. Uyumu gösteren Kappa katsayısı ise bu modelde yaklaşık % 92 (0,92) olup, tahmin edilen tümör türleri ile gözlemlenen tümör türleri arasında mükemmele yakın bir uyum olduğu görülmektedir. Bu bulgu aynı zamanda doğruluk oranını da destekler niteliktedir.

Confusion Matrix and Statistics

           Reference
Prediction  benign malignant
  benign       139         7
  malignant      0        59
                                          
               Accuracy : 0.9659          
                 95% CI : (0.9309, 0.9862)
    No Information Rate : 0.678           
    P-Value [Acc > NIR] : < 2e-16         
                                          
                  Kappa : 0.9195          
                                          
 Mcnemar's Test P-Value : 0.02334         
                                          
            Sensitivity : 1.0000          
            Specificity : 0.8939          
         Pos Pred Value : 0.9521          
         Neg Pred Value : 1.0000          
             Prevalence : 0.6780          
         Detection Rate : 0.6780          
   Detection Prevalence : 0.7122          
      Balanced Accuracy : 0.9470          
                                          
       'Positive' Class : benign    

Çapraz performans testi (Cross validation test)

Burada modelin performansı çapraz performans testi yapılarak tüm veri seti üzerinde test edilir ve doğruluk oranı verilir. Bu işleme ilişkin yazılan R kod bloğu aşağıda verilmiştir. Bu kısım Bilgisayar işlemcisine bağlı olarak biraz uzun sürebilmektedir. Bu yüzden sabırlı olmakta fayda var 🙂 . Çapraz performans testinde aşağıdaki fonksiyonda görüleceği üzere v=10 yerine v=3 olarak alınmasının nedeni performans testinin kısa sürmesinin sağlanmak istenmesinden kaynaklanmaktadır. Yukarıda karışıklık matrisine göre verilen metrikler test verisine göre elde edilen hata metrikleridir. Yani yukarıda eğitim verisine göre kurulan model test verisi ile karşılaştırılmıştır. Buradaki ayrımı iyi yapmak gerekir.

per<-gbm(Class ~., data=tamveri, shrinkage=0.01, distribution="multinomial", cv.folds=3, n.trees=5000)
bestiter<-gbm.perf(per, method = "cv")

tamveritahmin<-predict(model, tamveri, n.trees=bestiter, type="response")[,,1]

tamveritahmin<-as.factor(colnames(tamveritahmin)[max.col(tamveritahmin)])

tamverikarsilastirma<-tibble("Sıra"=seq(1, NROW(tamveri)), "Gözlem"=tamveri$Class,Tahmin=tamveritahmin)
tamverikarsilastirma

confusionMatrix(tamverikarsilastirma$Gözlem, tamverikarsilastirma$Tahmin)

##tüm veri seti tahminlerini gözlem değerleriyle birlikte xlsx dokümanına yazdırılması
write_xlsx(tamverikarsilastirma, "tumverisetikarsilatirma.xlsx")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra model tüm veri seti üzerinde test edilmiş ve performans parametre değerleri karışıklık matrisi ile birlikte aşağıda verilmiştir. Bulgular, gradyan yükseltme algoritmasının tüm veri seti üzerinde test edildiğinde meme kanseri türlerini % 96,2 doğruluk oranı ve % 3,8 hata oranı ile tahmin ettiğini göstermektedir. Uyumu gösteren Kappa katsayı ise yaklaşık % 92 olup, mükemmele yakın bir uyum elde edildiğini göstermektedir.

             Confusion Matrix and Statistics

           Reference
Prediction  benign malignant
  benign       434        10
  malignant     16       223
                                         
               Accuracy : 0.9619         
                 95% CI : (0.9447, 0.975)
    No Information Rate : 0.6589         
    P-Value [Acc > NIR] : <2e-16         
                                         
                  Kappa : 0.9158         
                                         
 Mcnemar's Test P-Value : 0.3268         
                                         
            Sensitivity : 0.9644         
            Specificity : 0.9571         
         Pos Pred Value : 0.9775         
         Neg Pred Value : 0.9331         
             Prevalence : 0.6589         
         Detection Rate : 0.6354         
   Detection Prevalence : 0.6501         
      Balanced Accuracy : 0.9608         
                                         
       'Positive' Class : benign      

Yukarıdaki R kod bloğunun son satırı çalıştırılmasından sonra tüm veri seti tahminlerini gözlem değerleriyle birlikte xlsx dokümanına yazdırılmıştır. Gözlem ve tahmin sınıflandırma değerlerine karşılaştırmalı olarak aşağıdaki xlsx dokümanını indirerek ulaşabilirsiniz.

Sonuç

Bu çalışmada sınıflandırma (classification) probleminin çözümüne yönelik topluluk öğrenme algoritmalarından biri olan gradyan yükseltme (gradient boosting) algoritması kullanılarak ayrıntılı deneysel bir çalışma yapılmıştır. Ortaya konulan bulgular, sınıflandırma probleminin gradyan yükseltme (gradient boosting) algoritması tarafından çok başarılı bir şekilde, diğer bir ifadeyle çok yüksek bir doğruluk (accuracy) oranıyla çözüme kavuşturulduğu görülmektedir.

Gradyan yükseltme algoritması test verisi üzerinde test edildiğinde meme kanseri türlerini yaklaşık % 96,6 doğruluk (accuracy) oranı ile tahmin etmektedir. Diğer taraftan tüm veri seti üzerinde test edildiğinde ise meme kanseri türlerini yaklaşık % 96,2 doğruluk (accuracy) oranı ile tahmin etmektedir. Hata oranı (error rate) 1-Doğruluk Oranı eşitliğinden tüm verisi setinde % 3,8’dir . Bu hata sınıflandırma hatası (classification error) olarak da nitelendirilebilir.

Yapılan bu çalışmanın özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına önemli bir katkı sunacağı düşünülmektedir.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla.

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Öne çıkan

Topluluk Öğrenme Algoritmalarından Yükseltme Algoritması İle Gögüs Kanserinin Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Breast Cancer Using Boosting Algorithm from Ensemble Learning Algorithms

Giriş

Topluluk (ensemble) öğrenme algoritmaları tahmine dayalı analitik çalışmalarda en başarılı yaklaşımlardan biridir. Bu algoritmalar somut bir problemi çözmek için bir araya gelen modeller setinden oluşmaktadır. Amaç modeller setinin ürettiği tahminleri birleştirerek doğruluğu (accuracy) artırmaktır. Topluluk algoritmaları kendi içerisinde üç grupta ele alınır.

  1. Torbalama (Bagging: Bootsrap Aggregating)
  2. Yükseltme (Boosting)
    • AdaBoost
    • Gradient Boosting
    • XGBoost
    • LightGBM
  3. İstif (Stacking)

Topluluk (ensemble) öğrenme algoritmalarından biri olan yükseltme, ingilizce ifadeyle boosting, Schapire tarafından 1990 yılında geliştirilen hem sınıflandırma hem de regresyon problemlerinin çözümünde kullanılan makine öğrenmesine dayanan topluluk algoritmasıdır. Yükseltme algoritmaları temel olarak şu soruya cevap bulmak için geliştirilmiştir: bir zayıf öğrenici setinden tek bir güçlü öğrenici oluşturabilir mi? Bu algoritmalar yinelemeli olarak çalışır. Bu yöntemde her bir yinelemede yeni bir zayıf öğrenici ilave edilerek güçlü bir öğrenici oluşturulur. Diğer bir ifadeyle, zayıf öğrenicilerin bir araya gelmesiyle güçlü bir öğrenici oluşturulur. Bireysel modeller, tüm veri kümesinde iyi performans göstermez, ancak veri kümesinin bir kısmı için iyi çalışır. Bu nedenle, her model aslında topluluğun performansını artırır.

En iyi bilinen ve en başarılı yükseltme algoritmalarından biri Freund ve Shapire tarafından 1996 yılında geliştirilen AdaBoost (Adaptive Boosting) algoritmasıdır. Bir topluluk oluşturmak için yeni modellerin eklendiği yinelemeli (iteratif) bir süreçten oluşur. Bu bir anlamda adaptiftir. Algoritmanın her yeni yinelenmesinde, yeni modeller önceki yinelemelerde yapılan hataların üstesinden gelmek için inşa edilir. Bu yöntemde, sonraki her bir modelin önceki modeldeki hataları düzeltmeye çalıştığı sıralı (sequential) bir işlem yapılır. Yani sonraki modeller önceki modele bağımlıdır. AdaBoost algoritması temel olarak sınıflandırma problemlerinin çözümü için geliştirilse de regresyon problemlerinin çözümünde de kullanılabilir. Yükseltme algoritmasının nasıl çalıştığını aşağıda adım adım verelim.

  1. Orijinal veri kümesinden bir alt küme oluşturulur.
  2. Başlangıçta, tüm veri noktalarına eşit ağırlık verilir.
  3. Bu alt kümede bir baz model oluşturulur.
  4. Bu model, tüm veri kümesi üzerinde tahminler yapmak için kullanılır.
  5. Hatalar, gözlem ve tahmin değerleri kullanılarak hesaplanır.
  6. Yanlış tahmin edilen gözlemlere daha yüksek ağırlık verilir.
  7. Başka bir model oluşturulur ve veri kümesinde tahminler yapılır.
  8. Benzer şekilde, her biri bir önceki modelin hatalarını düzelten birden çok model oluşturulur.
  9. Nihai model (güçlü öğrenen) tüm modellerin (zayıf öğrenenler) ağırlıklı ortalamasıdır.

Yukarıdaki adımları özetlemesi açısından Yükseltme algoritmasının işleyiş süreci Şekil 1’de verilmiştir.

Şekil 1: Yükseltme (Boosting) Algoritmasının İşleyiş Süreci

Kaynak: https://iq.opengenus.org

Yükseltme algoritmaları topluluk üyelerinin her biri birbirine bağımlıdır. Torbalama algoritmaları paralel düzende, yükseltme algoritmaları ise ardışık (sequential) düzende çalışmaktadır.

Modeller oluşturulurken temel amaç, bias ve varyans dengesinin kurulmasıdır. Bu uyumu sağlarsak iyi model uyumu (good-fit) elde etmiş oluruz. Makine öğrenme ve derin öğrenme problemlerinin çözümünde modelleme hatalarına bağlı olarak varyans ve bias değişiklik göstermektedir. Bu iki durum şöyle ele alınabilir:

  1. Eksik model uyumu (under-fitting): Kurulan modelde elde edilen tahmin değerleri gözlem verisine yeterince uyum göstermediğinde ortaya çıkar. Bu durumda varyans düşükken bias yüksektir. Buradan şunu anlamak gerekir: gözlem verisi ile tahmin edilen veri arasındaki fark büyükse, diğer bir deyişle kurulan modelle bağımlı değişken iyi tahmin edilemiyorsa bu durumda under-fitting oluşur. Under-fitting sonraki kısımlarında anlatılan sınıflandırma ve regresyon hata metrikleri ile kolaylıkla ortaya konulabilir.
  2. Aşrı model uyumu (over-fitting): Kurulan modelde eğitilen veri seti (training data set)’yle gözlem verisine aşırı uyum gösterdiğinde ortaya çıkar. Bu durumda varyans yüksekken bias düşüktür.

Bahsedilen bu iki durumu kafamızda daha da canlı tutmak için bias ve varyans ilişkisi Şekil 2’de verilmiştir. Şekil’de biz modeli kurgularken olması gereken durumu gösteren Düşük Varyans-Düşük Bias uyumunu, diğer bir ifadeyle yüksek kesinlik (precision)-yüksek doğruluk (accuracy) hedefliyoruz. Diğer bir deyişle kurguladığımız model (Şekil 2 1 nolu model) ile gözlem değerlerini olabildiğince en yüksek doğruluk oranı ile tahmin ederken aynı zamanda varyansı düşük (yüksek kesinlik (precision)) tutmayı hedefliyoruz. Buna başardığımızda aslında iyi model uyumunu (good-fit) sağlamış ve iyi bir model kurmuş oluyoruz. Eksik model uyumu (under-fitting)’nda ise Şekil 2’de 3 nolu modelde görüleceği üzere elde edilen tahmin değerleri gözlem değerleri (kırmızı alan)’nden uzaklaşmakla birlikte hala tahmin değerleri ile gözlem değerleri arasında farklar, diğer bir deyişle varyans düşüktür. Aşırı model uyumu (over-fitting)’da ise Şekil 2’de 2 nolu modelde görüleceği üzere varyans yüksek iken bias düşüktür. 2 nolu modelde doğru değerler (gözlem değerleri)’i kurulan modelde yüksek doğrulukla (düşük bias=yüksek doğruluk (accuracy) tahmin edilse de gözlem değerleri ile tahmin değerleri arasındaki varyans yüksektir.

Şekil 2: Bias-Varyans İlişkisi

Veri Tipleri

Yükseltme algoritması ile sınıflandırma problemi çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi nitel ve kategoriktir. Ancak, bu yöntem ile regresyon problemini çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi niceldir. Veri tipleri kendi içerisinde 4 farklı alt sınıfta ele alınabilir. Bu veri tipleri alt sınıflarıyla birlikte Şekil 3’te verilmiştir.

Şekil 3: Veri Tipleri

Nicel Veri (Quantitative Data)

Şekil 3’te sunulan nicel veri tipi ölçülebilen veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar dikkate alınarak sırasıyla örnek verelim.

  1. Sürekli veri (Continous data): Tam sayı ile ifade edilmeyen veri tipi olup, zaman, sıcaklık, beden kitle endeksi, boy ve ağırlık ölçümleri bu veri tipine örnek verilebilir.
  2. Kesikli veri (Discrete Data): Tam sayı ile ifade edilebilen veri tipi olup, bu veri tipine proje sayısı, popülasyon sayısı, öğrenci sayısı örnek verilebilir.

Nitel Veri (Qualitative Data)

Şekil 3’te verilen nitel veri tipi ölçülemeyen ve kategori belirten veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar şöyledir:

  1. Nominal veri: İki veya daha fazla cevap kategorisi olan ve sıra düzen içermeyen veri tipi olup, bu veri tipine medeni durum (evli, bekar) ve sosyal güvenlik türü (Bağkur, SSK, Yeşil Kart, Özel Sigorta) örnek gösterilebilir.
  2. Ordinal veri: İki veya daha fazla kategorisi olan ancak sıra düzen belirten veri türüdür. Bu veri tipine örnek olarak eğitim düzeyleri (İlkokul, ortaokul, lise, üniversite ve yüksek lisans), yarışma dereceleri (1. , 2. ve 3.) ve illerin gelişmişlik düzeyleri (1. Bölge, 2. Bölge, 3. Bölge, 4. Bölge, 5. Bölge ve 6. Bölge) verilebilir.

Veri tiplerinden bahsedildikten sonra bu veri tiplerinin cevap değişkeni (bağımlı değişken) olduğu durumlarda seçilecek analiz yöntemini ele alalım. Temel olarak cevap değişkeni ölçülebilir numerik değişken ise regresyon, değilse sınıflandırma analizi yapıyoruz. Cevap değişkeni, diğer bir deyişle bağımlı değişken numerik ise bağımsız değişken veya değişkenlerin çıktı (output) / bağımlı değişken (dependent variable) / hedef değişken (target variable) veya değişkenlerin üzerindeki etkisini tahmin etmeye çalışıyoruz. Buradaki temel felsefeyi anlamak son derece önemlidir. Çünkü bu durum sizin belirleyeceğiniz analiz yöntemini de değiştirecektir.

Kullanılan analiz yöntemi ile kurulan modelde ya sınıflandırma problemini ya da regresyon problemini çözdüğümüzü ifade etmiştik. Ancak kurulan modellerde çözülen problemin sınıflandırma ya da regresyon oluşuna göre performans değerlendirmesi farklılaşmaktadır. Sınıflandırma problemlerinde kullanılan hata metrikleri ile regresyon hata metrikleri aynı değildir. Bu bağlamda ilk olarak sınıflandırma problemlerinin çözümünde kullanılan hata metriklerini ele alalım.

Sınıflandırma Problemlerinde Hata Metrikleri

Karışıklık matrisi (confusion matrix) olarak olarak adlandırılan bu matris sınıflandırma problemlerinin çözümünde hata metriklerini ortaya koyarak kurulan modelin veya modellerin hata oranını değerlendirmektedir. Hata matrisinin makine ve derin öğrenme metotlarının değerlendirilmesinde sıklıkla kullanıldığı görülmektedir. Tablo 1’de hata metriklerinin hesaplanmasına esas teşkil eden karışıklık matrisi (confisioun matrix) verilmiştir. Bu tabloyla sınıflandırma hataları hesaplanabilmektedir. Tabloda yer verilen Tip 1 hata (Type 1 error) istatistikte alfa hatasını göstermektedir. Tip 1 hata H0 hipotezi (null hpypothesis) doğru olduğu halde reddedilmesidir. Tabloda Tip 2 hata (Type II error) olarak adlandırılan hata ise istatistikte Beta hatası olarak da bilinmektedir. Tip 2 hata ise H0 hipotezi (null hpypothesis) yanlış olduğu halde kabul edilmesidir.

Tablo 1: Karışıklık Matrisi (Confusion Matrix)

Kaynak: Stanford Üniversitesi

Tablo 1’de TP: Doğru Pozitifleri, FN: Yanlış Negatifleri, FP: Yanlış Pozitifleri ve TN: Doğru Negatifleri göstermektedir.

Şekil 3’te de yer verildiği üzere literatürde sınıflandırma modellerinin performansını değerlendirmede aşağıdaki hata metriklerinden yaygın bir şekilde yararlanıldığı görülmektedir. Sınıflandırma problemlerinin çözümüne yönelik Rastgele Orman Algoritması (RF) kullanarak R’da yapmış olduğum çalışmanın linkini ilgilenenler için aşağıda veriyorum.

R Programlama Diliyle Sınıflandırma Problemlerinin Çözümünde Rastgele Orman Algoritması Üzerine Bir Vaka Çalışması: A Case Study on Random Forest (RF) Algorithm in Solving Classification Problems with R Programming Language

  • Doğruluk (Accuracy): TP+TN / TP+TN+FP+FN eşitliği ile hesaplanır. Modelin genel performansını ortaya koyar. Bu sınıflandırma metriği ile aslında biz informal bir şekilde dile getirirsek doğru tahminlerin toplam tahminler içindeki oranını hesaplamış oluyoruz.
  • Kesinlik (Precision): TP / TP+FP eşitliği ile hesaplanır. Doğru tahminlerin ne kadar kesin olduğunu gösterir.
  • Geri çağırma (Recall)TP / TP+FN eşitliği ile hesaplanır. Gerçek pozitif örneklerin oranını verir.
  • Özgünlük (Specificity): TN / TN+FP eşitliği ile hesaplanır. Gerçek negatif örneklerin oranını gösterir.
  • F1 skoru : 2TP / 2TP+FP+FN eşitliği ile hesaplanır. Dengesiz sınıflar için yararlı hibrit bir metrik olup, kesinlik (precision) ve geri çağırma (recall) skorlarının ağırlıklı ortalamasını ifade etmektedir.
  • ROC (Receiver operating characteristic): Yukarıda karışıklık matrisinde belirtilen parametrelerden yararlanılarak hesaplanır. ROC eğrisi olarak da adlandırılmaktadır. ROC eğrileri, herhangi bir tahmin modelinin doğru pozitifler (TP) ve negatifler (TN) arasında nasıl ayrım yapabileceğini görmenin güzel bir yoludur. Sınıflandırma modellerin perfomansını eşik değerler üzerinden hesaplar. ROC iki parametre üzerinden hesaplanır. Doğru Pozitiflerin Oranı (TPR) ve Yanlış Pozitiflerin Oranı (FPR) bu iki parametreyi ifade eder. Burada aslında biz TPR ile Geri Çağırma (Recall), FPR ile ise 1-Özgünlük (Specificity)‘ü belirtiyoruz.
  • Cohen Kappa: Kategorik cevap seçenekleri arasındaki tutarlılığı ve uyumu gösterir. Cohen, Kappa sonucunun şu şekilde yorumlanmasını önermiştir: ≤ 0 değeri uyumun olmadığını, 0,01–0,20 çok az uyumu, 0,21-0,40 az uyumu, 0,41-0,60 orta, 0,61-0,80 iyi uyumu ve 0,81–1,00 çok iyi uyumu göstermektedir. 1 değeri ise mükemmel uyum anlamına gelmektedir.

Sınıflandırma hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Problemlerinde Hata Metrikleri

Regresyon modellerinin performansını değerlendirmede literatürde aşağıdaki hata metriklerinden yaygın bir şekilde yararlanılmaktadır. Regresyon metrikleri eşitliklerinin verilmesi yerine sade bir anlatımla neyi ifade ettiği anlatılacaktır. Böylece formüllere boğulmamış olacaksınız.

  • SSE (Sum of Square Error): Tahmin edilen değerler ile gözlem değerleri arasındaki farkların kareleri toplamını ifade eder.
  • MSE (Mean Square Error): Ortalama kare hatası olarak adlandırılan bu hata tahmin edilen değerler ile gözlem değerleri arasındaki farkların karelerinin ortalamasını ifade eder.
  • RMSE (Root Mean Square Error): Kök ortalama kare hatası olarak adlandırılan bu hata ortalama kare hatasının karekökünü ifade etmektedir.
  • MAE (Mean Absolute Error): Ortalama mutlak hata olarak adlandırılan bu hata türü ise tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerlerinin ortalamasını ifade etmektedir.
  • MAPE (Mean Absolute Percentage Error): Ortalama mutlak yüzdesel hata olarak adlandırılan bu hata türünde ilk olarak tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerleri hesaplanır. Daha sonra hesaplanan farkları mutlak değerleri mutlak değerleri alınan gözlem değerlerine bölünür. En son durumda ise elde edilen bu değerlerin ortalaması alınır.
  • Bias: Tahmin edilen değerler ile gözlem değerleri arasındaki farkların ortalamasıdır. Bu yönüyle ortalama mutlak hata (MAE)’ya benzemektedir.

Regresyon hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Metrikleri İndir

Çalışma kapsamında yükseltme algoritmasıyla sınıflandırma problemi çözülecektir. Bu amaçla Wisconsin Üniversitesi Hastanesinden alınan Meme Kanseri veri seti kullanılarak bağımlı değişken olan meme kanserinin tipi tahmin edilecektir.

Metodoloji ve Uygulama Sonuçları

Bu bölümde torpalama algoritması kullanılarak meme kanserinin türü (iyi huylu: benign, kötü huylu: malign) tahmin edilmiştir. Diğer bir ifadeyle, bu çalışmada sınıflandırma problemi çözmüş olacağız. Analizde kullanılan veri seti Wisconsin Üniversitesi Hastanelerinde 15 Temmuz 1992 tarihine kadar tedavi görmüş hastalardan alınan meme biyopsi verilerini içermektedir. Biyopsi’den bahsetmişken ne anlama geldiğini de açıklayalım. Biyopsi, vücudun farklı bölgelerinden mikroskop yardımıyla inceleme ve farklı tetkikler yaparak hastalık şüphesi bulunan bölgeden tanı amaçlı hücre ya da doku alma işlemidir. Veri setinde 15 Temmuz 1992’ye kadar 699 hastaya ait meme tümör biyopsi gözlemleri bulunmaktadır. Veri setindeki toplam gözlem sayısı 699, değişken sayısı ise 10 (ID numarası hariç)’dur. Bu veri setine R programlama yazılımında “MASS” paketi içerisinde “biopsy” olarak yer verilmiştir. Ancak veri setinde değişkenlerin adları tam olarak yazılmadığı için R programlama dilinde revize edilmiş ve R programlama dili kullanılarak yükseltme (boosting) algoritmasıyla analiz edilmiştir.

  1. Cl.thickness: Kitlenin kalınlığını (clump thickness) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  2. Cell.size: Hücre büyüklüğünün homojenliğini (uniformity of cell size) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  3. Cell.shape: Hücre şeklinin bütünlüğünü (uniformity of cell shape) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  4. Marg.adhesion: Marjinal yapışmayı göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  5. Epith.c.size Epitel hücre büyüklüğünü (single epithelial cell size) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  6. Bare.nuclei: Sitoplazma (hücrenin geri kalanı) ile çevrili olmayan çekirdekler için kullanılan bir terimdir. Bunlar tipik olarak iyi huylu tümörlerde görülür. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  7. Bl.cromatin: Benign (iyi huylu) hücrelerde görülen çekirdeğin muntazam bir “dokusunu” açıklar (bland chromatin). Kanser hücrelerinde kromatin daha kaba olma eğilimindedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  8. Normal.nucleoli: Nükleoller, çekirdekte görülen küçük yapılardır. Kanser hücrelerinde nükleoller daha belirgin hale gelir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  9. Mitoses: Mitotik aktivite, hücrelerin ne kadar hızlı bölündüğünün bir ölçüsüdür. Yüksek mitotik aktivite tipik olarak malign tümörlerde görülür. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  10. Class: Meme kanserinin tipini (iyi huylu mu yoksa kötü huylu mu) göstermektedir. Değişken kategorileri “benign” ve “malignant“, diğer bir deyişle iyi ve kötü huyludur.Veri tipi nitel ve nominal kategoriktir.

Bu kapsamda cevap değişkeni (bağımlı değişken) olan “Class” yani meme kanserinin türü geri kalan 9 bağımsız değişken kullanılarak yükseltme (boosting) algoritmasıyla tahmin edilecektir. Analizde kullanılan veri setini aşağıdaki linkten indirebilirsiniz.

Şimdi veri setini tanıdıktan sonra adım adım (step by step) analize başlayabiliriz. Analizde R programlama dili kullanarak analiz adımları R kod bloklarında verilmiştir.

Yüklenecek R kütüphaneleri

rm(list=ls())

kütüphaneler = c("dplyr","tibble","tidyr","ggplot2","formattable","readr","readxl","xlsx", "pastecs","fpc", "DescTools","e1071", "DMwR","caret", "viridis","GGally","ggpurr","psych","writexl","ggfortify","explore","MASS", "adabag", "rpart")
 
sapply(kütüphaneler, require, character.only = TRUE)

Ver setinin okunması ve değişkenlerin adlandırılması

veri<-biopsy %>% rename(Cl.thickness=V1, Cell.size=V2, Cell.shape=V3, Marg.adhesion=V4,  Epith.c.size=V5, Bare.nuclei=V6, Bl.cromatin=V7, Normal.nucleoli=V8, Mitoses=V9, Class=class)
veri<-veri[,-1]

Ver setinin xlsx ve csv uzantılı dosyalara yazdırılması

write.csv(veri, "gögüskanseriveriseti.csv")#csv dosyası için
write_xlsx(veri, "gögüskanseriveriseti.xlsx")#xlsx dosyası için

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri seti xlsx ve csv uzantılı dosyalara yazdırılmıştır. Elde edilen veri seti dosyası sadece xlsx uzantılı olarak aşağıdan indirilebilir. Sitem csv dosya yüklemesini desteklemediği için csv uzantılı dosya aşağıda verilememiştir. Ancak yukarıdaki R kod bloğu çalıştırabilir ve csv uzatılı dosya rmd dosyasının bulunduğu klasör içine otomatik olarak kaydedilebilir.

Veri setinin görselleştirilmesi ve tanımlayıcı istatistikler

#veri setindeki ilk 3 değişkenin görselleştirilmesi
veri[,1:3] %>% explore_all()
#veri setindeki 4,5,6 ve 7. değişkenlerin görselleştirilmesi
veri[,4:7] %>% explore_all()
#veri setindeki 8,9 ve 10. değişkenlerin görselleştirilmesi
veri[,8:10] %>% explore_all()

#veri setindeki ilk 10 gözlem
formattable(head(veri,10))

#Eksik gözlemler çıkarıldıktan sonra Pearson korelasyon matrisi 
tamveri<-na.omit(veri)
cor.plot(tamveri[,-10], main="Korelasyon Matrisi")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki ilk 3 değişkenin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 4,5,6 ve 7. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere sadece Bare.nuclei değişkende 16 eksik gözlem (missing data: NA) bulunmaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 8,9 ve 10. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra meme kanseri veri setindeki ilk 10 gözlem aşağıdaki tabloda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra meme kanseri veri setindeki eksik gözlemlerin olduğu 16 satır çıkarılmış, ardından nicel ve kesikli değişkenlere ait Pearson korelasyon matrisi aşağıdaki şekilde verilmiştir. Bağımlı değişken dışındaki değişken çiftleri nicel (sürekli ve kesikli) olduğu için Pearson korelasyon katsayısını hesapladık.

Bağımlı değişken olan tümörün tipi (Class)’ne görer değişkenler arasındaki ilişki

tamveri %>% ggplot(aes(x = Cl.thickness, y = Cell.size, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Cell.shape, y = Marg.adhesion, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Epith.c.size, y = Bare.nuclei, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Bl.cromatin, y = Normal.nucleoli, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_wrap(Mitoses~Class )

Yukarıdaki R kod bloğunun çalıştırılmasından sonra ilk iki değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 3. ve 4. değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 5. ve 6. değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 7, 8 ve 9. değişkenlerin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Veri setinin eğitilecek veri setine ve test veri setine ayrılması

Bu kısımda aşağıdaki R kod bloğunda basit tekrarsız tesadüfi örnekleme (SRS without replacement) yöntemi kullanılarak veri setindeki gözlemlerin % 70’i eğitilecek veri setine, % 30 ise test edilecek veri setine atanmıştır. Veri setinin eğitilecek veri seti ve test veri setine ayrılmasında genel olarak 70:30 kuralı uygulansa da bu kuralın mutlak olmadığı unutulmamalıdır. Veri setindeki gözlem sayısına göre 70:30 kuralı değişiklik gösterebilmektedir. Veri setindeki gözlem sayısı çok azsa 60:40, veri setindeki gözlem sayısı çok fazla ise 80:20 ve hatta 90:10 olabilmektedir. Şimdi soru burada şu olabilir; neden biz 80:20 veya 90:10 olarak belirliyoruz? Genel olarak buna verilebileceğim cevap şu: Eğer çok yüksek gözlem sayıları ile çalışıyorsanız bilgisayar işlemcisine bağlı olarak bu işlemin çok uzun sürmesi kuvvetle muhtemeldir ki bu durumda test veri setinin oranını düşürmek analizinizi hızlandırır ve daha çabuk sonuç alırsınız.

set.seed(1461)
orneklem<- sample(1:NROW(tamveri), NROW(tamveri)*0.7)
train <- tamveri[orneklem, ]  
test <- tamveri[-orneklem, ]

Yükseltme (Boosting) modelinin kurulması

model <- boosting(Class ~., data=tamveri, mfinal=500)

Değişkenlerin önem düzeyleri

#önem düzeyi grafiği
importanceplot(model)
önem düzeyi değerleri tablosu
onem<-model$importance
degisken<-names(onem)
agirlik<-as_tibble(as.numeric(onem))
onemduzey<-tibble("Değişken"=degisken, "Önem Düzeyi"=round(agirlik$value,2))

formattable(onemduzey, 
            list(formatter(
              "span", style = ~ style(color = "grey",font.weight = "bold")),
`Önem Düzeyi` = color_bar("#FF6347")
))

Yukarıdaki kod bloğunun çalıştırılmasından sonra elde edilen modeldeki değişkenlerin önem düzeyleri büyükten küçüğe doğru aşağıdaki grafikte verilmiştir.

Yukarıdaki kod bloğunun çalıştırılmasından sonra elde edilen modeldeki değişkenlerin önem düzeyleri değerleriyle birlikte aşağıdaki tabloda verilmiştir. Aşağıdaki tablo yukarıdaki grafiğe göre daha anlamlı olduğu söylenebilir.

Tahmin edilen değerler ile test veri setindeki gözlem değerlerinin karşılaştırılması

model <- boosting(Class ~., data=tamveri, mfinal=500)
tahmin<-predict(model, test)
karsilastirma<-tibble(Gozlem=test$Class, Tahmin=tahmin$class)
#ilk ve son 10 tahmin değerini gerçek değerle karşılaştırma 
ilk10<-head(karsilastirma, 10) %>% rename(Gozlemİlk_10=Gozlem, Tahminİlk_10=Tahmin)
son10<-tail(karsilastirma, 10) %>% rename(GozlemSon_10=Gozlem, TahminSon_10=Tahmin)
formattable(cbind("Sıra"=seq(1,10),ilk10, son10))

Yukarıdaki R kod bloğunun çalıştırılmasından sonra yükseltme (boosting) modelinden elde edilen ilk ve son 10 tahmin sınıflandırma değerleri gözlem sınıflandırma değerleri ile birlikte aşağıdaki tabloda karşılaştırmalı olarak verilmiştir.

Karışıklık matrisi (confusion matrix)’nin oluşturulması

cm<-tahmin$confusion
plot(cm, type = "heatmap", main="Karışıklık Matrisi")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen karışıklık matrisi aşağıda verilmiştir.

               Observed Class
Predicted Class benign malignant
      benign       128         4
      malignant      3        70

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen karışıklık matrisinin grafiği ise aşağıda verilmiştir.

Sınıflandırma Hata parametreleri

Kurulan modele ait hata parametrelerinin elde edilmesine yönelik yazılan R kod bloğu aşağıda verilmiştir.

cm<-confusionMatrix(karsilastirma$Tahmin, karsilastirma$Gozlem)
cm

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen hata metrikleri bir bütün olarak aşağıda verilmiştir. Yükseltme (Boosting) algoritmasıyla kurulan model meme kanseri türlerini yaklaşık % 97 doğruluk (accuracy) oranı ile tahmin etmektedir. Hata oranı ise 100-97 eşitliğinden yola çıkarak % 3 buluruz. Uyumu gösteren Kappa katsayısı ise bu modelde yaklaşık % 93 (0,93) olup, tahmin edilen tümör türleri ile gözlemlenen tümör türleri arasında mükemmele yakın bir uyum olduğu görülmektedir. Bu bulgu aynı zamanda doğruluk oranını da destekler niteliktedir.

Confusion Matrix and Statistics

           Reference
Prediction  benign malignant
  benign       128         4
  malignant      3        70
                                          
               Accuracy : 0.9659          
                 95% CI : (0.9309, 0.9862)
    No Information Rate : 0.639           
    P-Value [Acc > NIR] : <2e-16          
                                          
                  Kappa : 0.9258          
                                          
 Mcnemar's Test P-Value : 1               
                                          
            Sensitivity : 0.9771          
            Specificity : 0.9459          
         Pos Pred Value : 0.9697          
         Neg Pred Value : 0.9589          
             Prevalence : 0.6390          
         Detection Rate : 0.6244          
   Detection Prevalence : 0.6439          
      Balanced Accuracy : 0.9615          
                                          
       'Positive' Class : benign  

Çapraz performans testi (Cross validation test)

Burada modelin performansı çapraz performans testi yapılarak tüm veri seti üzerinde test edilir ve doğruluk oranı verilir. Bu işleme ilişkin yazılan R kod bloğu aşağıda verilmiştir. Bu kısım Bilgisayar işlemcisine bağlı olarak biraz uzun sürebilmektedir. Bu yüzden sabırlı olmakta fayda var 🙂 . Çapraz performans testinde aşağıdaki fonksiyonda görüleceği üzere v=10 yerine v=2 olarak alınmasının nedeni performans testinin kısa sürmesinin sağlanmak istenmesinden kaynaklanmaktadır. v=10 olarak alınsaydı performans testi işlemi 1 günümüzü alabilirdi. Yukarıda karışıklık matrisine göre verilen metrikler test verisine göre elde edilen hata metrikleridir. Yani yukarıda eğitim verisine göre kurulan model test verisi ile karşılaştırılmıştır. Buradaki ayrımı iyi yapmak gerekir.

cv<-boosting.cv(Class ~., v=2, data=tamveri, mfinal=500)

#tüm veri seti sınıflandırma tablosu (karışıklık matrisi)
cv$confusion

#doğruluk (accuracy) ve hata (error) oranı
dogrulukvehataorani<-paste("Doğruluk Oranı: %",round((1-cv[-1]$error)*100,1),"ve","Hata Oranı: %",round(cv[-1]$error*100,1))
dogrulukvehataorani

#tüm veri seti tahminlerini gözlem değerleriyle birlikte xlsx dokümanına yazdırılması
tümverisetitahminkarsilatirma<-tibble(Sıra=1:683, Gözlem=tamveri$Class, Tahmin=as.factor(cv$class))
write_xlsx(tümverisetitahminkarsilatirma, "tümverisetitahminkarsilatirma.xlsx")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra model tüm veri seti üzerinde test edilmiş ve performans parametre değerleri karışıklık matrisi ile birlikte aşağıda verilmiştir. Bulgular, yükseltme algoritmasının tüm veri seti üzerinde test edildiğinde meme kanseri türlerini % 96,2 doğruluk oranı ve % 3,8 hata oranı ile tahmin ettiğini göstermektedir.

               Observed Class
Predicted Class benign malignant
      benign       428        10
      malignant     16       229

 "Doğruluk Oranı: % 96.2 ve Hata Oranı: % 3.8"

Yukarıdaki R kod bloğunun son 4 satırı çalıştırılmasından sonra tüm veri seti tahminlerini gözlem değerleriyle birlikte xlsx dokümanına yazdırılmıştır. Gözlem ve tahmin sınıflandırma değerlerine karşılaştırmalı olarak aşağıdaki xlsx dokümanını indirerek ulaşabilirsiniz.

Sonuç

Bu çalışmada sınıflandırma (classification) probleminin çözümüne yönelik topluluk öğrenme algoritmalarından biri olan yükseltme (boosting) algoritması kullanılarak ayrıntılı deneysel bir çalışma yapılmıştır. Ortaya konulan bulgular, sınıflandırma probleminin yükseltme (boosting) algoritması tarafından çok başarılı bir şekilde, diğer bir ifadeyle çok yüksek bir doğruluk (accuracy) oranıyla çözüme kavuşturulduğu görülmektedir.

Yükseltme algoritması test verisi üzerinde test edildiğinde meme kanseri türlerini % 96,5 doğruluk (accuracy) oranı ile tahmin etmektedir. Diğer taraftan tüm veri seti üzerinde test edildiğinde ise meme kanseri türlerini yaklaşık % 96,2 doğruluk (accuracy) oranı ile tahmin etmektedir. Hata oranı (error rate) 1-Doğruluk Oranı eşitliğinden tüm verisi setinde % 3,8’dir . Bu hata sınıflandırma hatası (classification error) olarak da nitelendirilebilir.

Yapılan bu çalışmanın özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına önemli bir katkı sunacağı düşünülmektedir.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla.

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Topluluk Öğrenme Algoritmalarından Torbalama Algoritması İle Konut Fiyatlarının Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Housing Prices Using Bagging Algorithm from Ensemble Learning Algorithms

Giriş

Topluluk (ensemble) öğrenme algoritmaları tahmine dayalı analitik çalışmalarda en başarılı yaklaşımlardan biridir. Bu algoritmalar somut bir problemi çözmek için bir araya gelen modeller setinden oluşmaktadır. Amaç modeller setinin ürettiği tahminleri birleştirerek doğruluğu (accuracy) artırmaktır. Topluluk algoritmaları kendi içerisinde üç grupta ele alınır.

  1. Torbalama (Bagging: Bootsrap Aggregating)
  2. Artırma (Boosting)
  3. İstif (Stacking)

Topluluk (ensemble) öğrenme algoritmalarından biri olan torpalama, ingilizce ifadeyle Bagging, Breiman tarafından 1994 yılında geliştirilen hem sınıflandırma hem de regresyon problemlerinin çözümünde kullanılan makine öğrenmesine dayanan topluluk algoritmasıdır. Torbalama algoritmasının işleyiş süreci Şekil 1’de verilmiştir.

Şekil 1: Torbalama (Bagging) Algoritmasının İşleyiş Süreci

Şekil 1’de belirtilen torbalama algoritmasının işleyiç sürecini adım adım şöyle özetleyebiliriz.

  1. Popülasyon (N) birimlerini eğitilecek (training) veri setine ve test edilecek (testing) veri setine basit tekrarsız tesadüfi örnekleme (simple random sampling without replacement) yöntemiyle ayrılır. Burada literatürde genellikle eğitilecek veri seti seti için popülasyonun % 70’i alınsa da bu oran veri setinin ya da popülasyonun büyüklüğüne göre değişkenlik gösterebilmektedir. Bu oran 70:30 olabileceği gibi, 60:40 veya 80:20 oranı şeklinde de olabilir.
  2. Eğitilecek veri setini belirledikten sonra basit tekrarlı tesadüfi örnekleme yoluyla torbalara (1’den n’e kadar) örneklem birimleri (sample units) atanır.
  3. Örneklem birimleri kurulan modellerde eğitilir.
  4. Regresyon problemini çözüyorsak kurulan modellerden elde edilen sonuçların ortalaması alınarak bağımlı değişken (y) belirlenir. Sınıflandırma problemi çözüyorsak kurulan modellerden elde edilen çoğunluk oylama sonuçlarına göre karar verip y’yi, diğer bir ifadeyle bağımlı değişkeni (dependent variable) tahmin etmiş oluruz.

Modeller oluşturulurken temel amaç, bias ve varyans dengesinin kurulmasıdır. Bu uyumu sağlarsak iyi model uyumu (good-fit) elde etmiş oluruz. Makine öğrenme ve derin öğrenme problemlerinin çözümünde modelleme hatalarına bağlı olarak varyans ve bias değişiklik göstermektedir. Bu iki durum şöyle ele alınabilir:

  1. Eksik model uyumu (under-fitting): Kurulan modelde elde edilen tahmin değerleri gözlem verisine yeterince uyum göstermediğinde ortaya çıkar. Bu durumda varyans düşükken bias yüksektir. Buradan şunu anlamak gerekir: gözlem verisi ile tahmin edilen veri arasındaki fark büyükse, diğer bir deyişle kurulan modelle bağımlı değişken iyi tahmin edilemiyorsa bu durumda under-fitting oluşur. Under-fitting sonraki kısımlarında anlatılan sınıflandırma ve regresyon hata metrikleri ile kolaylıkla ortaya konulabilir.
  2. Aşrı model uyumu (over-fitting): Kurulan modelde eğitilen veri seti (training data set)’yle gözlem verisine aşırı uyum gösterdiğinde ortaya çıkar. Bu durumda varyans yüksekken bias düşüktür.

Bahsedilen bu iki durumu kafamızda daha da canlı tutmak için bias ve varyans ilişkisi Şekil 2’de verilmiştir. Şekil’de biz modeli kurgularken olması gereken durumu gösteren Düşük Varyans-Düşük Bias uyumunu hedefliyoruz. Diğer bir ifadeyle, kurguladığımız model (Şekil 2 1 nolu model) ile gözlem değerlerini olabildiğince en yüksek doğruluk oranı ile tahmin ederken aynı zamanda varyansı düşük tutmayı hedefliyoruz. Buna başardığımızda aslında iyi model uyumunu (good-fit) sağlamış ve iyi bir model kurmuş oluyoruz. Eksik model uyumu (under-fitting)’nda ise Şekil 2’de 3 nolu modelde görüleceği üzere elde edilen tahmin değerleri gözlem değerleri (kırmızı alan)’nden uzaklaşmakla birlikte hala tahmin değerleri ile gözlem değerleri arasında farklar, diğer bir deyişle varyans düşüktür. Aşırı model uyumu (over-fitting)’da ise Şekil 2’de 2 nolu modelde görüleceği üzere varyan yüksek iken bias düşüktür. 2 nolu modelde doğru değerler (gözlem değerleri)’i kurulan modelde yüksek doğrulukla (düşük bias) tahmin edilse de gözlem değerleri ile tahmin değerleri arasındaki varyans yüksektir.

Şekil 2: Bias-Varyans İlişkisi

Veri Tipleri

Torbalama yöntemi ile sınıflandırma problemi çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi nitel ve kategoriktir. Ancak, bu yöntem ile regresyon problemini çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi niceldir. Veri tipleri kendi içerisinde 4 farklı alt sınıfta ele alınabilir. Bu veri tipleri alt sınıflarıyla birlikte Şekil 3’te verilmiştir.

Şekil 3: Veri Tipleri

Nicel Veri (Quantitative Data)

Şekil 3’te sunulan nicel veri tipi ölçülebilen veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar dikkate alınarak sırasıyla örnek verelim.

  1. Sürekli veri (Continous data): Tam sayı ile ifade edilmeyen veri tipi olup, zaman, sıcaklık, beden kitle endeksi, boy ve ağırlık ölçümleri bu veri tipine örnek verilebilir.
  2. Kesikli veri (Discrete Data): Tam sayı ile ifade edilebilen veri tipi olup, bu veri tipine proje sayısı, popülasyon sayısı, öğrenci sayısı örnek verilebilir.

Nitel Veri (Qualitative Data)

Şekil 3’te verilen nitel veri tipi ölçülemeyen ve kategori belirten veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar şöyledir:

  1. Nominal veri: İki veya daha fazla cevap kategorisi olan ve sıra düzen içermeyen veri tipi olup, bu veri tipine medeni durum (evli, bekar) ve sosyal güvenlik türü (Bağkur, SSK, Yeşil Kart, Özel Sigorta) örnek gösterilebilir.
  2. Ordinal veri: İki veya daha fazla kategorisi olan ancak sıra düzen belirten veri türüdür. Bu veri tipine örnek olarak eğitim düzeyleri (İlkokul, ortaokul, lise, üniversite ve yüksek lisans), yarışma dereceleri (1. , 2. ve 3.) ve illerin gelişmişlik düzeyleri (1. Bölge, 2. Bölge, 3. Bölge, 4. Bölge, 5. Bölge ve 6. Bölge) verilebilir.

Veri tiplerinden bahsedildikten sonra bu veri tiplerinin cevap değişkeni (bağımlı değişken) olduğu durumlarda seçilecek analiz yöntemini ele alalım. Temel olarak cevap değişkeni ölçülebilir numerik değişken ise regresyon, değilse sınıflandırma analizi yapıyoruz. Cevap değişkeni, diğer bir deyişle bağımlı değişken numerik ise bağımsız değişken veya değişkenlerin çıktı (output) / bağımlı değişken (dependent variable) / hedef değişken (target variable) veya değişkenlerin üzerindeki etkisini tahmin etmeye çalışıyoruz. Buradaki temel felsefeyi anlamak son derece önemlidir. Çünkü bu durum sizin belirleyeceğiniz analiz yöntemini de değiştirecektir.

Kullanılan analiz yöntemi ile kurulan modelde ya sınıflandırma problemini ya da regresyon problemini çözdüğümüzü ifade etmiştik. Ancak kurulan modellerde çözülen problemin sınıflandırma ya da regresyon oluşuna göre performans değerlendirmesi farklılaşmaktadır. Sınıflandırma problemlerinde kullanılan hata metrikleri ile regresyon hata metrikleri aynı değildir. Bu bağlamda ilk olarak sınıflandırma problemlerinin çözümünde kullanılan hata metriklerini ele alalım.

Sınıflandırma Problemlerinde Hata Metrikleri

Karışıklık matrisi (confusion matrix) olarak olarak adlandırılan bu matris sınıflandırma problemlerinin çözümünde hata metriklerini ortaya koyarak kurulan modelin veya modellerin hata oranını değerlendirmektedir. Hata matrisinin makine ve derin öğrenme metotlarının değerlendirilmesinde sıklıkla kullanıldığı görülmektedir. Tablo 1’de hata metriklerinin hesaplanmasına esas teşkil eden karışıklık matrisi (confisioun matrix) verilmiştir. Bu tabloyla sınıflandırma hataları hesaplanabilmektedir. Tabloda yer verilen Tip 1 hata (Type 1 error) istatistikte alfa hatasını göstermektedir. Tip 1 hata H0 hipotezi (null hpypothesis) doğru olduğu halde reddedilmesidir. Tabloda Tip 2 hata (Type II error) olarak adlandırılan hata ise istatistikte Beta hatası olarak da bilinmektedir. Tip 2 hata ise H0 hipotezi (null hpypothesis) yanlış olduğu halde kabul edilmesidir.

Tablo 1: Karışıklık Matrisi (Confusion Matrix)

Kaynak: Stanford Üniversitesi

Tablo 1’de TP: Doğru Pozitifleri, FN: Yanlış Negatifleri, FP: Yanlış Pozitifleri ve TN: Doğru Negatifleri göstermektedir.

Şekil 3’te de yer verildiği üzere literatürde sınıflandırma modellerinin performansını değerlendirmede aşağıdaki hata metriklerinden yaygın bir şekilde yararlanıldığı görülmektedir. Sınıflandırma problemlerinin çözümüne yönelik Rastgele Orman Algoritması (RF) kullanarak R’da yapmış olduğum çalışmanın linkini ilgilenenler için aşağıda veriyorum.

R Programlama Diliyle Sınıflandırma Problemlerinin Çözümünde Rastgele Orman Algoritması Üzerine Bir Vaka Çalışması: A Case Study on Random Forest (RF) Algorithm in Solving Classification Problems with R Programming Language

  • Doğruluk (Accuracy): TP+TN / TP+TN+FP+FN eşitliği ile hesaplanır. Modelin genel performansını ortaya koyar. Bu sınıflandırma metriği ile aslında biz informal bir şekilde dile getirirsek doğru tahminlerin toplam tahminler içindeki oranını hesaplamış oluyoruz.
  • Kesinlik (Precision): TP / TP+FP eşitliği ile hesaplanır. Doğru tahminlerin ne kadar kesin olduğunu gösterir.
  • Geri çağırma (Recall)TP / TP+FN eşitliği ile hesaplanır. Gerçek pozitif örneklerin oranını verir.
  • Özgünlük (Specificity): TN / TN+FP eşitliği ile hesaplanır. Gerçek negatif örneklerin oranını gösterir.
  • F1 skoru : 2TP / 2TP+FP+FN eşitliği ile hesaplanır. Dengesiz sınıflar için yararlı hibrit bir metrik olup, kesinlik (precision) ve geri çağırma (recall) skorlarının ağırlıklı ortalamasını ifade etmektedir.
  • ROC (Receiver operating characteristic): Yukarıda karışıklık matrisinde belirtilen parametrelerden yararlanılarak hesaplanır. ROC eğrisi olarak da adlandırılmaktadır. ROC eğrileri, herhangi bir tahmin modelinin doğru pozitifler (TP) ve negatifler (TN) arasında nasıl ayrım yapabileceğini görmenin güzel bir yoludur. Sınıflandırma modellerin perfomansını eşik değerler üzerinden hesaplar. ROC iki parametre üzerinden hesaplanır. Doğru Pozitiflerin Oranı (TPR) ve Yanlış Pozitiflerin Oranı (FPR) bu iki parametreyi ifade eder. Burada aslında biz TPR ile Geri Çağırma (Recall), FPR ile ise 1-Özgünlük (Specificity)‘ü belirtiyoruz.
  • Cohen Kappa: Kategorik cevap seçenekleri arasındaki tutarlılığı ve uyumu gösterir. Cohen, Kappa sonucunun şu şekilde yorumlanmasını önermiştir: ≤ 0 değeri uyumun olmadığını, 0,01–0,20 çok az uyumu, 0,21-0,40 az uyumu, 0,41-0,60 orta, 0,61-0,80 iyi uyumu ve 0,81–1,00 çok iyi uyumu göstermektedir. 1 değeri ise mükemmel uyum anlamına gelmektedir.

Regresyon Problemlerinde Hata Metrikleri

Regresyon modellerinin performansını değerlendirmede literatürde aşağıdaki hata metriklerinden yaygın bir şekilde yararlanılmaktadır. Regresyon metrikleri eştiliklerinin verilmesi yerine sade bir anlatımla neyi ifade ettiği anlatılacaktır. Böylece formüllere boğulmamış olacaksınız.

  • SSE (Sum of Square Error): Tahmin edilen değerler ile gözlem değerleri arasındaki farkların kareleri toplamını ifade eder.
  • MSE (Mean Square Error): Ortalama kare hatası olarak adlandırılan bu hata tahmin edilen değerler ile gözlem değerleri arasındaki farkların karelerinin ortalamasını ifade eder.
  • RMSE (Root Mean Square Error): Kök ortalama kare hatası olarak adlandırılan bu hata ortalama kare hatasının karekökünü ifade etmektedir.
  • MAE (Mean Absolute Error): Ortalama mutlak hata olarak adlandırılan bu hata türü ise tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerlerinin ortalamasını ifade etmektedir.
  • MAPE (Mean Absolute Percentage Error): Ortalama mutlak yüzdesel hata olarak adlandırılan bu hata türünde ilk olarak tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerleri hesaplanır. Daha sonra hesaplanan farkları mutlak değerleri mutlak değerleri alınan gözlem değerlerine bölünür. En son durumda ise elde edilen bu değerlerin ortalaması alınır.
  • Bias: Tahmin edilen değerler ile gözlem değerleri arasındaki farkların ortalamasıdır. Bu yönüyle ortalama mutlak hata (MAE)’ya benzemektedir.

Regresyon hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Metrikleri İndir

Çalışma kapsamında torbalama algoritmasıyla regresyon problemi çözülecektir. Bu amaçla ABD’nin Boston bölgesi konut fiyatları veri seti kullanılarak bağımlı değişken olan konutların medyan fiyatları tahmin edilecektir.

Metodoloji ve Uygulama Sonuçları

Bu bölümde torbalama algoritması kullanılarak ABD’nin Boston bölgesinde konutların medyan fiyatları (hedef değişken) tahmin edilmiştir. Diğer bir ifadeyle, bu çalışmada regresyon problemi çözmüş olacağız. Analizde kullanılan veri seti ABD Nüfus Bürosu tarafından Boston bölgesindeki konutlarla ilgili olarak toplanan verilerden oluşmaktadır. Veri setindeki toplam gözlem sayısı 506, değişken sayısı ise 14’tür. Bu veri setine R programlama yazılımında “mlbench” paketi içerisinde “BostonHousing” olarak yer verilmiştir. R programlama dili kullanılarak torbalama (bagging) algoritmasıyla analiz edilmiştir. Veri setinde yer alan değişkenler ve değişkenlerin veri tipleri şöyledir:

  1. crim: per capita crime rate by town. Veri tipi nicel ve süreklidir.
  2. zn: proportion of residential land zoned for lots over 25,000 sq.ft. Veri tipi nicel ve kesiklidir.
  3. indus: proportion of non-retail business acres per town. Veri tipi nicel ve süreklidir.
  4. chas: Charles River dummy variable (1 if tract bounds river; 0 otherwise). Veri tipi nitel ve nominal kategoriktir.
  5. nox: nitric oxides concentration (parts per 10 million): Veri tipi nicel ve süreklidir.
  6. rm: average number of rooms per dwelling. Veri tipi nicel ve süreklidir.
  7. age: proportion of owner-occupied units built prior to 1940. Veri tipi nicel ve süreklidir.
  8. dis: weighted distances to five Boston employment centres. Veri tipi nicel ve kesiklidir.
  9. rad: index of accessibility to radial highways. Veri tipi nicel ve süreklidir.
  10. tax: full-value property-tax rate per $10,000. Veri tipi nicel ve kesiklidir.
  11. ptratio: pupil-teacher ratio by town. Veri tipi nicel ve süreklidir.
  12. b: 1000(Bk – 0.63)^2 where Bk is the proportion of blacks by town. Veri tipi nicel ve süreklidir.
  13. lstat: % lower status of the population. Veri tipi nicel ve süreklidir.
  14. medv: Median value of owner-occupied homes in $1000’s. Veri tipi nicel ve süreklidir.

Bu kapsamda cevap değişkeni (bağımlı değişken) olan “medvyani konut fiyatlarının medyan değeri geri kalan 13 bağımsız değişken kullanılarak torbalama algoritmasıyla tahmin edilecektir. Analizde kullanılan veri setini aşağıdaki linkten indirebilirsiniz.

Şimdi veri setini tanıdıktan sonra adım adım (step by step) analize başlayabiliriz. Analizde R programlama dili kullanarak analiz adımları R kod bloklarında verilmiştir.

Yüklenecek R kütüphaneleri

rm(list=ls())

kütüphaneler = c("dplyr","tibble","tidyr","ggplot2","formattable","readr","readxl","xlsx", "pastecs","fpc", "DescTools","e1071", "DMwR", "metrics","caret", "mlbench", "viridis","GGally","ggpurr","psych","writexl","ggfortify","explore", "rattle","yardstick","MASS", "ipred", "performanceEstimation")
 
sapply(kütüphaneler, require, character.only = TRUE)

Ver setinin okunması

data(BostonHousing)
veri<-BostonHousing

Ver setinin xlsx dosyasına yazdırılması

write_xlsx(veri, "Bostonkonutfiyatları.xlsx")#xlsx dosyası için

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri seti xlsx uzantılı dosyaya yazdırılmıştır. Elde edilen veri seti dosyası xlsx uzantılı olarak aşağıdan indirilebilir.

Veri setinin görselleştirilmesi ve tanımlayıcı istatistikler

#veri setindeki ilk 3 değişkenin görselleştirilmesi
veri[,1:3] %>% explore_all()
#veri setindeki 4,5,6 ve 7. değişkenlerin görselleştirilmesi
veri[,4:7] %>% explore_all()
#veri setindeki 8,9 ve 10. değişkenlerin görselleştirilmesi
veri[,8:10] %>% explore_all()
#veri setindeki 11,12,13 ve 14. değişkenlerin görselleştirilmesi
veri[,11:14] %>% explore_all()

#veri setindeki ilk 10 gözlem
formattable(head(veri,10))

#Pearson korelasyon matrisi 
cor.plot(veri[,-4], main="Korelasyon Matrisi")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki ilk 3 değişkenin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 4,5,6 ve 7. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 8,9 ve 10. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 11, 12, 13 ve 14. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra Boston Konut Fiyatları veri setindeki ilk 10 gözlem aşağıdaki tabloda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra nicel ve kesikli değişkenlere ait Pearson korelasyon matrisi aşağıdaki şekilde verilmiştir. Değişken çiftleri nicel (sürekli ve kesikli) olduğu için Pearson korelasyon katsayılarını hesapladık.

Veri setinin eğitilecek veri setine ve test veri setine ayrılması

Bu kısımda aşağıdaki R kod bloğunda basit tekrarsız tesadüfi örnekleme (SRS without replacement) yöntemi kullanılarak veri setindeki gözlemlerin % 70’i eğitilecek veri setine, % 30 ise test edilecek veri setine atanmıştır. Veri setinin eğitilecek veri seti ve test veri setine ayrılmasında genel olarak 70:30 kuralı uygulansa da bu kuralın mutlak olmadığı unutulmamalıdır. Veri setindeki gözlem sayısına göre 70:30 kuralı değişiklik gösterebilmektedir. Veri setindeki gözlem sayısı çok azsa 60:40, veri setindeki gözlem sayısı çok fazla ise 80:20 ve hatta 90:10 olabilmektedir. Şimdi soru burada şu olabilir; neden biz 80:20 veya 90:10 olarak belirliyoruz? Genel olarak buna verilebileceğim cevap şu: Eğer çok yüksek gözlem sayıları ile çalışıyorsanız bilgisayar işlemcisine bağlı olarak bu işlemin çok uzun sürmesi kuvvetle muhtemeldir ki bu durumda test veri setinin oranını düşürmek analizinizi hızlandırır ve daha çabuk sonuç alırsınız.

set.seed(1461)
orneklem<- sample(1:NROW(veri), NROW(veri)*0.7)
train <- veri[orneklem, ]  
test <- veri[-orneklem, ]

Torpalama (Bagging) modelinin kurulması

model<-bagging(medv ~ ., data=train, coob=TRUE, nbagg=500)
print(model)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde kurulan modele ait özet çıktı aşağıda verilmiştir.

Bagging regression trees with 500 bootstrap replications 

Call: bagging.data.frame(formula = medv ~ ., data = train, coob = TRUE, 
    nbagg = 500)

Out-of-bag estimate of root mean squared error:  4.3542 

Tahmin edilen değerler ile test veri setindeki gözlem değerlerinin karşılaştırılması

model <- bagging(medv ~ ., data=train, coob=TRUE, nbagg=500)
tahmin<-predict(model, test)
karsilastirma<-tibble(Gozlem=test$medv, Tahmin=round(tahmin,1))
#ilk ve son 10 tahmin değerini gözlem değerleriyle karşılaştırma 
ilk10<-head(karsilastirma, 10) %>% rename(Gozlemİlk_10=Gozlem, Tahminİlk_10=Tahmin)
son10<-tail(karsilastirma, 10) %>% rename(GozlemSon_10=Gozlem, TahminSon_10=Tahmin)
formattable(cbind("Sıra"=seq(1,10),ilk10, son10))

#karşılaştırmalı sonuçların xlsx dosyasına yazdırılması
write_xlsx(karsilastirma, "karsılastirma_sonuçları.xlsx")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra torbalama (bagging) modelinden elde edilen ilk ve son 10 tahmin değerleri gözlem değerleri ile birlikte aşağıdaki tabloda karşılaştırmalı olarak verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra torbalama (bagging) modelinden elde edilen konut fiyatları tahmin değerleri ile test veri setindeki gözlem değerleri aşağıda xlsx dosyasına yazdırılmıştır. Buradan dosyayı indirerek sonuçları karşılaştırmalı olarak görebilirsiniz.

Tahmin edilen değerler ile test veri setindeki gözlem değerlerinin grafik üzerinde karşılaştırılması

ggplot(karsilastirma, aes(Gozlem, Tahmin)) +
  geom_point() +
  geom_abline(intercept = 0, slope = 1, size=1.5, color="red")+
  ggtitle("Gözlem Değerleri ve Tahmin Edilen Bagging Regresyon Değerleri")+
  theme_minimal()

#alternatif grafik
ggplot(karsilastirma, aes(Gozlem, Tahmin)) +
  geom_point() +
  geom_abline(intercept = 0, slope = 1, color="red", size=1.5)+
  ggtitle("Gözlem Değerleri ve Tahmin Edilen Bagging Regresyon Değerleri")+
  theme_gray()

Yukarıdaki R kod bloğunun çalıştırılmasından sonra torbalama (bagging) modelinden elde edilen konut fiyatları tahmin değerleri ile test veri setindeki gözlem değerleri aşağıda şekil üzerinde verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra torbalama (bagging) modelinden elde edilen konut fiyatları tahmin değerleri ile test veri setindeki gözlem değerleri aşağıda alternatif olarak şekil üzerinde verilmiştir.

Tahmin edilen değerler ile test veri setindeki gözlem değerlerinin regresyon hata metrikleri açısından değerlendirilmesi

Kurulan modele ait regresyon hata metriklerinin elde edilmesine yönelik yazılan R kod bloğu aşağıda verilmiştir.

mse<-MSE(karsilastirma$Gozlem, karsilastirma$Tahmin)
mape<-MAPE(karsilastirma$Gozlem, karsilastirma$Tahmin)
rmse<-RMSE(karsilastirma$Gozlem, karsilastirma$Tahmin)
sse<-sse(karsilastirma$Gozlem, karsilastirma$Tahmin)
mae<-mae(karsilastirma$Gozlem, karsilastirma$Tahmin)

formattable(round(tibble(SSE=sse, MSE=mse, RMSE=rmse, MAE=mae, MAPE=mape),2))

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen regresyon hata metrikleri bir bütün olarak aşağıda verilmiştir. Torbalama (bagging) algoritmasıyla kurulan model test veri seti ile karşılaştırıldığında konut fiyatlarını yaklaşık % 2,7 ortalama mutlak hata (MAE) ve yaklaşık % 3,5 kök ortalama kare hatası (RMSE) ile tahmin ettiği görülmektedir.

Performans Testleri

Bu bölümde kurulan model iki yöntemle tüm veri seti üzerinde test edilmiştir. Kullanılan performans test yöntemleri sırasıyla şöyledir:

  1. Çapraz performans testi (Cross validation test)
  2. Hold out yöntemi

Çapraz performans testi (Cross validation test)

Burada modelin performansı çapraz performans testi yapılarak tüm veri seti üzerinde test edilir ve hata oranı verilir. Bu işleme ilişkin yazılan R kod bloğu aşağıda verilmiştir.

errorest(medv ~ ., data=veri, model=lm, est.para=control.errorest(random=FALSE))

Yukarıdaki R kod bloğunun çalıştırılmasından sonra model tüm veri seti üzerinde test edilmiş ve performans metriği aşağıda verilmiştir.Torbalama (bagging) algoritmasıyla kurulan model tüm veri seti ile karşılaştırıldığında konut fiyatlarını yaklaşık % 5,88 kök ortalama kare hatası (RMSE) ile tahmin ettiği görülmektedir.

Call:
errorest.data.frame(formula = medv ~ ., data = veri, model = lm, 
    est.para = control.errorest(random = FALSE))

	 10-fold cross-validation estimator of root mean squared error

Root mean squared error:  5.877

Hold out yöntemi

Burada modelin performansı Holdout yöntemi ile testi yapılarak tüm veri seti üzerinde test edilir ve hata oranları verilir. Bu işleme ilişkin yazılan R kod bloğu aşağıda verilmiştir.

set.seed(61)
bs<- performanceEstimation(
  PredTask(medv ~ ., veri),
    workflowVariants(learner="bagging", learner.pars=list(coob=TRUE, nbagg=500)),
 EstimationTask(metrics = c("mse","rmse", "mae"),
                method = Holdout(nReps=3,hldSz=0.3)))
summary(bs)
plot(bs)

Yukarıdaki R kod bloğunun çalıştırılmasından sonra model tüm veri seti üzerinde test edilmiş ve performans hata metrikleri aşağıda verilmiştir. Bulgular, torbalama algoritmasının tüm veri seti üzerinde test edildiğinde konut fiyatlarını yaklaşık % 2,7 ortalama mutlak hata (MAE) ve yaklaşık % 4,1 kök ortalama kare hatası (RMSE) ile tahmin ettiğini göstermektedir.



##### PERFORMANCE ESTIMATION USING  HOLD OUT  #####

** PREDICTIVE TASK :: veri.medv

++ MODEL/WORKFLOW :: bagging 
Task for estimating  mse,rmse,mae  using
 3 x 70 % / 30 % Holdout
	 Run with seed =  1234 
Iteration :  1  2  3

== Summary of a  Hold Out Performance Estimation Experiment ==

Task for estimating  mse,rmse,mae  using
 3 x 70 % / 30 % Holdout
	 Run with seed =  1234 

* Predictive Tasks ::  veri.medv
* Workflows  ::  bagging 

-> Task:  veri.medv
  *Workflow: bagging 
              mse      rmse       mae
avg     16.855399 4.0947040 2.6861979
std      3.011187 0.3649621 0.2642337
med     16.443337 4.0550385 2.5892506
iqr      2.989967 0.3633419 0.2505401
min     14.071462 3.7511948 2.4841314
max     20.051396 4.4778786 2.9852116
invalid  0.000000 0.0000000 0.0000000

Yukarıdaki R kod bloğunun çalıştırılmasından sonra model tüm veri seti üzerinde test edilmiş ve performans hata metrikleri aşağıda şekil üzerinde gösterilmiştir.

Sonuç

Bu çalışmada regresyon (regression) probleminin çözümüne yönelik topluluk öğrenme algoritmalarından biri olan torbalama (bagging) algoritması kullanılarak ayrıntılı deneysel bir çalışma yapılmıştır. Ortaya konulan bulgular, regresyon probleminin torbalama (bagging) algoritması ile çok başarılı bir şekilde, diğer bir ifadeyle düşük hata oranlarıyla çözüme kavuşturulduğunu göstermektedir.

Torbalama algoritması test verisi üzerinde test edildiğinde konut fiyatlarını yaklaşık % 2,7 ortalama mutlak hata (MAE) ve yaklaşık % 3,5 kök ortalama kare hatası (RMSE) ile tahmin ettiği görülmektedir. Diğer taraftan kurulan model tüm veri seti üzerinde çapraz performans testi ile test edildiğinde ise konut fiyatlarını yaklaşık % 5,88 kök ortalama kare hatası (RMSE) ile tahmin ediyor iken, kurulan model tüm veri seti üzerinde Hold out yöntemi ile test edildiğinde ise konut fiyatlarını yaklaşık yaklaşık % 2,7 ortalama mutlak hata (MAE) ve yaklaşık % 4,1 kök ortalama kare hatası (RMSE) ile tahmin ettiği görülmektedir.

Yapılan bu çalışmanın özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına önemli bir katkı sunacağı düşünülmektedir.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla.

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Topluluk Öğrenme Algoritmalarından Torbalama Algoritması İle Gögüs Kanserinin Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Breast Cancer Using Bagging Algorithm from Ensemble Learning Algorithms

Giriş

Topluluk (ensemble) öğrenme algoritmaları tahmine dayalı analitik çalışmalarda en başarılı yaklaşımlardan biridir. Bu algoritmalar somut bir problemi çözmek için bir araya gelen modeller setinden oluşmaktadır. Amaç modeller setinin ürettiği tahminleri birleştirerek doğruluğu (accuracy) artırmaktır. Topluluk algoritmaları kendi içerisinde üç grupta ele alınır.

  1. Torbalama (Bagging: Bootsrap Aggregating)
  2. Artırma (Boosting)
  3. İstif (Stacking)

Topluluk (ensemble) öğrenme algoritmalarından biri olan torpalama, ingilizce ifadeyle Bagging, Breiman tarafından 1994 yılında geliştirilen hem sınıflandırma hem de regresyon problemlerinin çözümünde kullanılan makine öğrenmesine dayanan topluluk algoritmasıdır. Torbalama algoritmasının işleyiş süreci Şekil 1’de verilmiştir.

Şekil 1: Torbalama (Bagging) Algoritmasının İşleyiş Süreci

Şekil 1’de belirtilen torbalama algoritmasının işleyiç sürecini adım adım şöyle özetleyebiliriz.

  1. Popülasyon (N) birimlerini eğitilecek (training) veri setine ve test edilecek (testing) veri setine basit tekrarsız tesadüfi örnekleme (simple random sampling without replacement) yöntemiyle ayrılır. Burada literatürde genellikle eğitilecek veri seti seti için popülasyonun % 70’i alınsa da bu oran veri setinin ya da popülasyonun büyüklüğüne göre değişkenlik gösterebilmektedir. Bu oran 70:30 olabileceği gibi, 60:40 veya 80:20 oranı şeklinde de olabilir.
  2. Eğitilecek veri setini belirledikten sonra basit tekrarlı tesadüfi örnekleme yoluyla torbalara (1’den n’e kadar) örneklem birimleri (sample units) atanır.
  3. Örneklem birimleri kurulan modellerde eğitilir.
  4. Regresyon problemini çözüyorsak kurulan modellerden elde edilen sonuçların ortalaması alınarak bağımlı değişken (y) belirlenir. Sınıflandırma problemi çözüyorsak kurulan modellerden elde edilen çoğunluk oylama sonuçlarına göre karar verip y’yi, diğer bir ifadeyle bağımlı değişkeni (dependent variable) tahmin etmiş oluruz.

Modeller oluşturulurken temel amaç, bias ve varyans dengesinin kurulmasıdır. Bu uyumu sağlarsak iyi model uyumu (good-fit) elde etmiş oluruz. Makine öğrenme ve derin öğrenme problemlerinin çözümünde modelleme hatalarına bağlı olarak varyans ve bias değişiklik göstermektedir. Bu iki durum şöyle ele alınabilir:

  1. Eksik model uyumu (under-fitting): Kurulan modelde elde edilen tahmin değerleri gözlem verisine yeterince uyum göstermediğinde ortaya çıkar. Bu durumda varyans düşükken bias yüksektir. Buradan şunu anlamak gerekir: gözlem verisi ile tahmin edilen veri arasındaki fark büyükse, diğer bir deyişle kurulan modelle bağımlı değişken iyi tahmin edilemiyorsa bu durumda under-fitting oluşur. Under-fitting sonraki kısımlarında anlatılan sınıflandırma ve regresyon hata metrikleri ile kolaylıkla ortaya konulabilir.
  2. Aşrı model uyumu (over-fitting): Kurulan modelde eğitilen veri seti (training data set)’yle gözlem verisine aşırı uyum gösterdiğinde ortaya çıkar. Bu durumda varyans yüksekken bias düşüktür.

Bahsedilen bu iki durumu kafamızda daha da canlı tutmak için bias ve varyans ilişkisi Şekil 2’de verilmiştir. Şekil’de biz modeli kurgularken olması gereken durumu gösteren Düşük Varyans-Düşük Bias uyumunu hedefliyoruz. Diğer bir ifadeyle, kurguladığımız model (Şekil 2 1 nolu model) ile gözlem değerlerini olabildiğince en yüksek doğruluk oranı ile tahmin ederken aynı zamanda varyansı düşük tutmayı hedefliyoruz. Buna başardığımızda aslında iyi model uyumunu (good-fit) sağlamış ve iyi bir model kurmuş oluyoruz. Eksik model uyumu (under-fitting)’nda ise Şekil 2’de 3 nolu modelde görüleceği üzere elde edilen tahmin değerleri gözlem değerleri (kırmızı alan)’nden uzaklaşmakla birlikte hala tahmin değerleri ile gözlem değerleri arasında farklar, diğer bir deyişle varyans düşüktür. Aşırı model uyumu (over-fitting)’da ise Şekil 2’de 2 nolu modelde görüleceği üzere varyan yüksek iken bias düşüktür. 2 nolu modelde doğru değerler (gözlem değerleri)’i kurulan modelde yüksek doğrulukla (düşük bias) tahmin edilse de gözlem değerleri ile tahmin değerleri arasındaki varyans yüksektir.

Şekil 2: Bias-Varyans İlişkisi

Veri Tipleri

Torbalama yöntemi ile sınıflandırma problemi çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi nitel ve kategoriktir. Ancak, bu yöntem ile regresyon problemini çözüyorsak bağımlı değişkenin ya da cevap değişkeninin veri tipi niceldir. Veri tipleri kendi içerisinde 4 farklı alt sınıfta ele alınabilir. Bu veri tipleri alt sınıflarıyla birlikte Şekil 3’te verilmiştir.

Şekil 3: Veri Tipleri

Nicel Veri (Quantitative Data)

Şekil 3’te sunulan nicel veri tipi ölçülebilen veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar dikkate alınarak sırasıyla örnek verelim.

  1. Sürekli veri (Continous data): Tam sayı ile ifade edilmeyen veri tipi olup, zaman, sıcaklık, beden kitle endeksi, boy ve ağırlık ölçümleri bu veri tipine örnek verilebilir.
  2. Kesikli veri (Discrete Data): Tam sayı ile ifade edilebilen veri tipi olup, bu veri tipine proje sayısı, popülasyon sayısı, öğrenci sayısı örnek verilebilir.

Nitel Veri (Qualitative Data)

Şekil 3’te verilen nitel veri tipi ölçülemeyen ve kategori belirten veri tipi olup, kendi içerisinde temel olarak ikiye ayrılmaktadır. Bu veri tipine alt sınıflandırmalar şöyledir:

  1. Nominal veri: İki veya daha fazla cevap kategorisi olan ve sıra düzen içermeyen veri tipi olup, bu veri tipine medeni durum (evli, bekar) ve sosyal güvenlik türü (Bağkur, SSK, Yeşil Kart, Özel Sigorta) örnek gösterilebilir.
  2. Ordinal veri: İki veya daha fazla kategorisi olan ancak sıra düzen belirten veri türüdür. Bu veri tipine örnek olarak eğitim düzeyleri (İlkokul, ortaokul, lise, üniversite ve yüksek lisans), yarışma dereceleri (1. , 2. ve 3.) ve illerin gelişmişlik düzeyleri (1. Bölge, 2. Bölge, 3. Bölge, 4. Bölge, 5. Bölge ve 6. Bölge) verilebilir.

Veri tiplerinden bahsedildikten sonra bu veri tiplerinin cevap değişkeni (bağımlı değişken) olduğu durumlarda seçilecek analiz yöntemini ele alalım. Temel olarak cevap değişkeni ölçülebilir numerik değişken ise regresyon, değilse sınıflandırma analizi yapıyoruz. Cevap değişkeni, diğer bir deyişle bağımlı değişken numerik ise bağımsız değişken veya değişkenlerin çıktı (output) / bağımlı değişken (dependent variable) / hedef değişken (target variable) veya değişkenlerin üzerindeki etkisini tahmin etmeye çalışıyoruz. Buradaki temel felsefeyi anlamak son derece önemlidir. Çünkü bu durum sizin belirleyeceğiniz analiz yöntemini de değiştirecektir.

Kullanılan analiz yöntemi ile kurulan modelde ya sınıflandırma problemini ya da regresyon problemini çözdüğümüzü ifade etmiştik. Ancak kurulan modellerde çözülen problemin sınıflandırma ya da regresyon oluşuna göre performans değerlendirmesi farklılaşmaktadır. Sınıflandırma problemlerinde kullanılan hata metrikleri ile regresyon hata metrikleri aynı değildir. Bu bağlamda ilk olarak sınıflandırma problemlerinin çözümünde kullanılan hata metriklerini ele alalım.

Sınıflandırma Problemlerinde Hata Metrikleri

Karışıklık matrisi (confusion matrix) olarak olarak adlandırılan bu matris sınıflandırma problemlerinin çözümünde hata metriklerini ortaya koyarak kurulan modelin veya modellerin hata oranını değerlendirmektedir. Hata matrisinin makine ve derin öğrenme metotlarının değerlendirilmesinde sıklıkla kullanıldığı görülmektedir. Tablo 1’de hata metriklerinin hesaplanmasına esas teşkil eden karışıklık matrisi (confisioun matrix) verilmiştir. Bu tabloyla sınıflandırma hataları hesaplanabilmektedir. Tabloda yer verilen Tip 1 hata (Type 1 error) istatistikte alfa hatasını göstermektedir. Tip 1 hata H0 hipotezi (null hpypothesis) doğru olduğu halde reddedilmesidir. Tabloda Tip 2 hata (Type II error) olarak adlandırılan hata ise istatistikte Beta hatası olarak da bilinmektedir. Tip 2 hata ise H0 hipotezi (null hpypothesis) yanlış olduğu halde kabul edilmesidir.

Tablo 1: Karışıklık Matrisi (Confusion Matrix)

Kaynak: Stanford Üniversitesi

Tablo 1’de TP: Doğru Pozitifleri, FN: Yanlış Negatifleri, FP: Yanlış Pozitifleri ve TN: Doğru Negatifleri göstermektedir.

Şekil 3’te de yer verildiği üzere literatürde sınıflandırma modellerinin performansını değerlendirmede aşağıdaki hata metriklerinden yaygın bir şekilde yararlanıldığı görülmektedir. Sınıflandırma problemlerinin çözümüne yönelik Rastgele Orman Algoritması (RF) kullanarak R’da yapmış olduğum çalışmanın linkini ilgilenenler için aşağıda veriyorum.

R Programlama Diliyle Sınıflandırma Problemlerinin Çözümünde Rastgele Orman Algoritması Üzerine Bir Vaka Çalışması: A Case Study on Random Forest (RF) Algorithm in Solving Classification Problems with R Programming Language

  • Doğruluk (Accuracy): TP+TN / TP+TN+FP+FN eşitliği ile hesaplanır. Modelin genel performansını ortaya koyar. Bu sınıflandırma metriği ile aslında biz informal bir şekilde dile getirirsek doğru tahminlerin toplam tahminler içindeki oranını hesaplamış oluyoruz.
  • Kesinlik (Precision): TP / TP+FP eşitliği ile hesaplanır. Doğru tahminlerin ne kadar kesin olduğunu gösterir.
  • Geri çağırma (Recall)TP / TP+FN eşitliği ile hesaplanır. Gerçek pozitif örneklerin oranını verir.
  • Özgünlük (Specificity): TN / TN+FP eşitliği ile hesaplanır. Gerçek negatif örneklerin oranını gösterir.
  • F1 skoru : 2TP / 2TP+FP+FN eşitliği ile hesaplanır. Dengesiz sınıflar için yararlı hibrit bir metrik olup, kesinlik (precision) ve geri çağırma (recall) skorlarının ağırlıklı ortalamasını ifade etmektedir.
  • ROC (Receiver operating characteristic): Yukarıda karışıklık matrisinde belirtilen parametrelerden yararlanılarak hesaplanır. ROC eğrisi olarak da adlandırılmaktadır. ROC eğrileri, herhangi bir tahmin modelinin doğru pozitifler (TP) ve negatifler (TN) arasında nasıl ayrım yapabileceğini görmenin güzel bir yoludur. Sınıflandırma modellerin perfomansını eşik değerler üzerinden hesaplar. ROC iki parametre üzerinden hesaplanır. Doğru Pozitiflerin Oranı (TPR) ve Yanlış Pozitiflerin Oranı (FPR) bu iki parametreyi ifade eder. Burada aslında biz TPR ile Geri Çağırma (Recall), FPR ile ise 1-Özgünlük (Specificity)‘ü belirtiyoruz.
  • Cohen Kappa: Kategorik cevap seçenekleri arasındaki tutarlılığı ve uyumu gösterir. Cohen, Kappa sonucunun şu şekilde yorumlanmasını önermiştir: ≤ 0 değeri uyumun olmadığını, 0,01–0,20 çok az uyumu, 0,21-0,40 az uyumu, 0,41-0,60 orta, 0,61-0,80 iyi uyumu ve 0,81–1,00 çok iyi uyumu göstermektedir. 1 değeri ise mükemmel uyum anlamına gelmektedir.

Regresyon Problemlerinde Hata Metrikleri

Regresyon modellerinin performansını değerlendirmede literatürde aşağıdaki hata metriklerinden yaygın bir şekilde yararlanılmaktadır. Regresyon metrikleri eştiliklerinin verilmesi yerine sade bir anlatımla neyi ifade ettiği anlatılacaktır. Böylece formüllere boğulmamış olacaksınız.

  • SSE (Sum of Square Error): Tahmin edilen değerler ile gözlem değerleri arasındaki farkların kareleri toplamını ifade eder.
  • MSE (Mean Square Error): Ortalama kare hatası olarak adlandırılan bu hata tahmin edilen değerler ile gözlem değerleri arasındaki farkların karelerinin ortalamasını ifade eder.
  • RMSE (Root Mean Square Error): Kök ortalama kare hatası olarak adlandırılan bu hata ortalama kare hatasının karekökünü ifade etmektedir.
  • MAE (Mean Absolute Error): Ortalama mutlak hata olarak adlandırılan bu hata türü ise tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerlerinin ortalamasını ifade etmektedir.
  • MAPE (Mean Absolute Percentage Error): Ortalama mutlak yüzdesel hata olarak adlandırılan bu hata türünde ilk olarak tahmin edilen değerler ile gözlem değerleri arasındaki farkların mutlak değerleri hesaplanır. Daha sonra hesaplanan farkları mutlak değerleri mutlak değerleri alınan gözlem değerlerine bölünür. En son durumda ise elde edilen bu değerlerin ortalaması alınır.
  • Bias: Tahmin edilen değerler ile gözlem değerleri arasındaki farkların ortalamasıdır. Bu yönüyle ortalama mutlak hata (MAE)’ya benzemektedir.

Regresyon hata metriklerini anlattıktan sonra daha kalıcı olması ve öğrenilmesi adına hazırladığım excel üzerinde bahsedilen bu metriklerin nasıl hesaplandığı gösterilmiştir. Excel dosyasını aşağıdaki linkten indirebilirsiniz.

Regresyon Metrikleri İndir

Çalışma kapsamında torpalama algoritmasıyla sınıflandırma problemi çözülecektir. Bu amaçla Wisconsin Üniversitesi Hastanesinden alınan Meme Kanseri veri seti kullanılarak bağımlı değişken olan meme kanserinin tipi tahmin edilecektir.

Metodoloji ve Uygulama Sonuçları

Bu bölümde torpalama algoritması kullanılarak meme kanserinin türü (iyi huylu: benign, kötü huylu: malign) tahmin edilmiştir. Diğer bir ifadeyle, bu çalışmada sınıflandırma problemi çözmüş olacağız. Analizde kullanılan veri seti Wisconsin Üniversitesi Hastanelerinde 15 Temmuz 1992 tarihine kadar tedavi görmüş hastalardan alınan meme biyopsi verilerini içermektedir. Biyopsi’den bahsetmişken ne anlama geldiğini de açıklayalım. Biyopsi, vücudun farklı bölgelerinden mikroskop yardımıyla inceleme ve farklı tetkikler yaparak hastalık şüphesi bulunan bölgeden tanı amaçlı hücre ya da doku alma işlemidir. Veri setinde 15 Temmuz 1992’ye kadar 699 hastaya ait meme tümör biyopsi gözlemleri bulunmaktadır. Veri setindeki toplam gözlem sayısı 699, değişken sayısı ise 10 (ID numarası hariç)’dur. Bu veri setine R programlama yazılımında “MASS” paketi içerisinde “biopsy” olarak yer verilmiştir. Ancak veri setinde değişkenlerin adları tam olarak yazılmadığı için R programlama dilinde revize edilmiş ve R programlama dili kullanılarak torpalama (bagging) algoritmasıyla analiz edilmiştir.

  1. Cl.thickness: Kitlenin kalınlığını (clump thickness) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  2. Cell.size: Hücre büyüklüğünün homojenliğini (uniformity of cell size) göstermektedir.Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  3. Cell.shape: Hücre şeklinin bütünlüğünü (uniformity of cell shape) göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  4. Marg.adhesion: Marjinal yapışmayı göstermektedir. Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  5. Epith.c.size Epitel hücre büyüklüğünü (single epithelial cell size) göstermektedir.Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  6. Bare.nuclei: Sitoplazma (hücrenin geri kalanı) ile çevrili olmayan çekirdekler için kullanılan bir terimdir. Bunlar tipik olarak iyi huylu tümörlerde görülür.Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  7. Bl.cromatin: Benign (iyi huylu) hücrelerde görülen çekirdeğin muntazam bir “dokusunu” açıklar (bland chromatin). Kanser hücrelerinde kromatin daha kaba olma eğilimindedir.Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  8. Normal.nucleoli: Nükleoller, çekirdekte görülen küçük yapılardır. Kanser hücrelerinde nükleoller daha belirgin hale gelir.Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  9. Mitoses: Mitotik aktivite, hücrelerin ne kadar hızlı bölündüğünün bir ölçüsüdür. Yüksek mitotik aktivite tipik olarak malign tümörlerde görülür.Cevap değişkenleri 1’den 10’a kadar bir ölçekte puanlanmıştır. Veri tipi nicel ve kesiklidir.
  10. Class: Meme kanserinin tipini (iyi huylu mu yoksa kötü huylu mu) göstermektedir. Değişken kategorileri “benign” ve “malignant“, diğer bir deyişle iyi ve kötü huyludur.Veri tipi nitel ve nominal kategoriktir.

Bu kapsamda cevap değişkeni (bağımlı değişken) olan “Class” yani meme kanserinin türü geri kalan 9 bağımsız değişken kullanılarak torpalama algoritmasıyla tahmin edilecektir.Analizde kullanılan veri setini aşağıdaki linkten indirebilirsiniz.

Şimdi veri setini tanıdıktan sonra adım adım (step by step) analize başlayabiliriz. Analizde R programlama dili kullanarak analiz adımları R kod bloklarında verilmiştir.

Yüklenecek R kütüphaneleri

rm(list=ls())

kütüphaneler = c("dplyr","tibble","tidyr","ggplot2","formattable","readr","readxl","xlsx", "pastecs","fpc", "DescTools","e1071", "DMwR","caret", "viridis","GGally","ggpurr","psych","writexl","ggfortify","explore","MASS", "adabag", "rpart")
 
sapply(kütüphaneler, require, character.only = TRUE)

Ver setinin okunması ve değişkenlerin adlandırılması

veri<-biopsy %>% rename(Cl.thickness=V1, Cell.size=V2, Cell.shape=V3, Marg.adhesion=V4,  Epith.c.size=V5, Bare.nuclei=V6, Bl.cromatin=V7, Normal.nucleoli=V8, Mitoses=V9, Class=class)
veri<-veri[,-1]

Ver setinin xlsx ve csv uzantılı dosyalara yazdırılması

write.csv(veri, "gögüskanseriveriseti.csv")#csv dosyası için
write_xlsx(veri, "gögüskanseriveriseti.xlsx")#xlsx dosyası için

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri seti xlsx ve csv uzantılı dosyalara yazdırılmıştır. Elde edilen veri seti dosyası sadece xlsx uzantılı olarak aşağıdan indirilebilir. Sitem csv dosya yüklemesini desteklemediği için csv uzantılı dosya aşağıda verilememiştir. Ancak yukarıdaki R kod bloğu çalıştırabilir ve csv uzatılı dosya rmd dosyasının bulunduğu klasör içine otomatik olarak kaydedilebilir.

Veri setinin görselleştirilmesi ve tanımlayıcı istatistikler

#veri setindeki ilk 3 değişkenin görselleştirilmesi
veri[,1:3] %>% explore_all()
#veri setindeki 4,5,6 ve 7. değişkenlerin görselleştirilmesi
veri[,4:7] %>% explore_all()
#veri setindeki 8,9 ve 10. değişkenlerin görselleştirilmesi
veri[,8:10] %>% explore_all()

#veri setindeki ilk 10 gözlem
formattable(head(veri,10))

#Eksik gözlemler çıkarıldıktan sonra Pearson korelasyon matrisi 
tamveri<-na.omit(veri)
cor.plot(tamveri[,-10], main="Korelasyon Matrisi")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki ilk 3 değişkenin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 4,5,6 ve 7. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere sadece Bare.nuclei değişkende 16 eksik gözlem (missing data: NA) bulunmaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra veri setindeki 8,9 ve 10. değişkenlerin grafiği aşağıda verilmiştir. Grafikte görüleceği üzere eksik gözlem (missing data: NA) bulunmamaktadır.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra meme kanseri veri setindeki ilk 10 gözlem aşağıdaki tabloda verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra meme kanseri veri setindeki eksik gözlemlerin olduğu 16 satır çıkarılmış, ardından nicel ve kesikli değişkenlere ait Pearson korelasyon matrisi aşağıdaki şekilde verilmiştir. Bağımlı değişken dışındaki değişken çiftleri nicel (sürekli ve kesikli) olduğu için Pearson korelasyon katsayısını hesapladık.

Bağımlı değişken olan tümörün tipi (Class)’ne görer değişkenler arasındaki ilişki

tamveri %>% ggplot(aes(x = Cl.thickness, y = Cell.size, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Cell.shape, y = Marg.adhesion, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Epith.c.size, y = Bare.nuclei, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_grid( ~Class)

tamveri %>% ggplot(aes(x = Bl.cromatin, y = Normal.nucleoli, color = Class))+
        geom_point(position = position_dodge(0.9)) +
        facet_wrap(Mitoses~Class )

Yukarıdaki R kod bloğunun çalıştırılmasından sonra ilk iki değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 3. ve 4. değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 5. ve 6. değişkenin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Yukarıdaki R kod bloğunun çalıştırılmasından sonra 7, 8 ve 9. değişkenlerin tümörün tipine göre kendi aralarındaki ilişki aşağıdaki grafikte verilmiştir.

Veri setinin eğitilecek veri setine ve test veri setine ayrılması

Bu kısımda aşağıdaki R kod bloğunda basit tekrarsız tesadüfi örnekleme (SRS without replacement) yöntemi kullanılarak veri setindeki gözlemlerin % 70’i eğitilecek veri setine, % 30 ise test edilecek veri setine atanmıştır. Veri setinin eğitilecek veri seti ve test veri setine ayrılmasında genel olarak 70:30 kuralı uygulansa da bu kuralın mutlak olmadığı unutulmamalıdır. Veri setindeki gözlem sayısına göre 70:30 kuralı değişiklik gösterebilmektedir. Veri setindeki gözlem sayısı çok azsa 60:40, veri setindeki gözlem sayısı çok fazla ise 80:20 ve hatta 90:10 olabilmektedir. Şimdi soru burada şu olabilir; neden biz 80:20 veya 90:10 olarak belirliyoruz? Genel olarak buna verilebileceğim cevap şu: Eğer çok yüksek gözlem sayıları ile çalışıyorsanız bilgisayar işlemcisine bağlı olarak bu işlemin çok uzun sürmesi kuvvetle muhtemeldir ki bu durumda test veri setinin oranını düşürmek analizinizi hızlandırır ve daha çabuk sonuç alırsınız.

set.seed(1461)
orneklem<- sample(1:NROW(tamveri), NROW(tamveri)*0.7)
train <- tamveri[orneklem, ]  
test <- tamveri[-orneklem, ]

Torpalama (Bagging) modelinin kurulması

model <- bagging(Class ~., data=tamveri, mfinal=500)

Değişkenlerin önem düzeyleri

#önem düzeyi grafiği
importanceplot(model)
önem düzeyi değerleri tablosu
onem<-model$importance
degisken<-names(onem)
agirlik<-as_tibble(as.numeric(onem))
onemduzey<-tibble("Değişken"=degisken, "Önem Düzeyi"=round(agirlik$value,2))

formattable(onemduzey, 
            list(formatter(
              "span", style = ~ style(color = "grey",font.weight = "bold")),
`Önem Düzeyi` = color_bar("#FF6347")
))

Yukarıdaki kod bloğunun çalıştırılmasından sonra elde edilen modeldeki değişkenlerin önem düzeyleri büyükten küçüğe doğru aşağıdaki grafikte verilmiştir.

Yukarıdaki kod bloğunun çalıştırılmasından sonra elde edilen modeldeki değişkenlerin önem düzeyleri değerleriyle birlikte aşağıdaki tabloda verilmiştir. Aşağıdaki tablo yukarıdaki grafiğe göre daha anlamlı olduğu söylenebilir.

Tahmin edilen değerler ile test veri setindeki gözlem değerlerinin karşılaştırılması

model <- bagging(Class ~., data=train, mfinal=500)
tahmin<-predict(model, test)
karsilastirma<-tibble(Gozlem=test$Class, Tahmin=tahmin$class)
#ilk ve son 10 tahmin değerini gerçek değerle karşılaştırma 
ilk10<-head(karsilastirma, 10) %>% rename(Gozlemİlk_10=Gozlem, Tahminİlk_10=Tahmin)
son10<-tail(karsilastirma, 10) %>% rename(GozlemSon_10=Gozlem, TahminSon_10=Tahmin)
formattable(cbind("Sıra"=seq(1,10),ilk10, son10))

Yukarıdaki R kod bloğunun çalıştırılmasından sonra torbalama (bagging) modelinden elde edilen ilk ve son 10 tahmin sınıflandırma değerleri gözlem sınıflandırma değerleri ile birlikte aşağıdaki tabloda karşılaştırmalı olarak verilmiştir.

Karışıklık matrisi (confusion matrix)’nin oluşturulması

cm<tahmin$confusion
plot(cm, type = "heatmap", main="Karışıklık Matrisi")

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen karışıklık matrisi aşağıda verilmiştir.

             Observed Class
Predicted Class benign malignant
      benign       127         3
      malignant      4        71

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen karışıklık matrisinin grafiği ise aşağıda verilmiştir.

Sınıflandırma Hata parametreleri

Kurulan modele ait hata parametrelerinin elde edilmesine yönelik yazılan R kod bloğu aşağıda verilmiştir.

cm<-confusionMatrix(karsilastirma$Tahmin, karsilastirma$Gozlem)
cm

Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen hata metrikleri bir bütün olarak aşağıda verilmiştir. Torbalama (bagging) algoritmasıyla kurulan model meme kanseri türlerini yaklaşık % 97 doğruluk (accuracy) oranı ile tahmin etmektedir. Hata oranı ise 100-97 eşitliğinden yola çıkarak % 3 buluruz. Uyumu gösteren Kappa katsayısı ise bu modelde yaklaşık % 93 (0,93) olup, tahmin edilen tümör türleri ile gözlemlenen tümör türleri arasında mükemmele yakın bir uyum olduğu görülmektedir. Bu bulgu aynı zamanda doğruluk oranını da destekler niteliktedir.

Confusion Matrix and Statistics

           Reference
Prediction  benign malignant
  benign       127         3
  malignant      4        71
                                          
               Accuracy : 0.9659          
                 95% CI : (0.9309, 0.9862)
    No Information Rate : 0.639           
    P-Value [Acc > NIR] : <2e-16          
                                          
                  Kappa : 0.9262          
                                          
 Mcnemar's Test P-Value : 1               
                                          
            Sensitivity : 0.9695          
            Specificity : 0.9595          
         Pos Pred Value : 0.9769          
         Neg Pred Value : 0.9467          
             Prevalence : 0.6390          
         Detection Rate : 0.6195          
   Detection Prevalence : 0.6341          
      Balanced Accuracy : 0.9645          
                                          
       'Positive' Class : benign    

Çapraz performans testi (Cross validation test)

Burada modelin performansı çapraz performans testi yapılarak tüm veri seti üzerinde test edilir ve doğruluk oranı verilir. Bu işleme ilişkin yazılan R kod bloğu aşağıda verilmiştir. Bu kısım Bilgisayar işlemcisine bağlı olarak biraz uzun sürebilmektedir. Bu yüzden sabırlı olmakta fayda var 🙂 . Yukarıda karışıklık matrisine göre verilen metrikler test verisine göre elde edilen hata metrikleridir. Yani yukarıda eğitim verisine göre kurulan model test verisi ile karşılaştırılmıştır. Buradaki ayrımı iyi yapmak gerekir.

tamvericv<-bagging.cv(Class ~., data=tamveri, v = 2, mfinal = 500, control=rpart.control(cp=0.01))
tamvericv[-1]
#doğruluk ve hata oranı
dogrulukvehataorani<-paste("Doğruluk Oranı: %",round((1-tamvericv[-1]$error)*100,1),"ve","Hata Oranı: %",round(tamvericv[-1]$error*100,1))
dogrulukvehataorani

Yukarıdaki R kod bloğunun çalıştırılmasından sonra model tüm veri seti üzerinde test edilmiş ve performans parametre değerleri karışıklık matrisi ile birlikte aşağıda verilmiştir. Bulgular, torbalama algoritmasının tüm veri seti üzerinde test edildiğinde meme kanseri türlerini % 96,5 doğruluk oranı ve % 3,5 hata oranı ile tahmin ettiğini göstermektedir.

$confusion
               Observed Class
Predicted Class benign malignant
      benign       429         9
      malignant     15       230

$error
[1] 0.03513909

[1] "Doğruluk Oranı: % 96.5 ve Hata Oranı: % 3.5"

Sonuç

Bu çalışmada sınıflandırma (classification) probleminin çözümüne yönelik topluluk öğrenme algoritmalarından biri olan torbalama (bagging) algoritması kullanılarak ayrıntılı deneysel bir çalışma yapılmıştır. Ortaya konulan bulgular, sınıflandırma probleminin torbalama (bagging) algoritması tarafından çok başarılı bir şekilde, diğer bir ifadeyle çok yüksek bir doğruluk (accuracy) oranıyla çözüme kavuşturulduğu görülmektedir.

Torbalama algoritması test verisi üzerinde test edildiğinde meme kanseri türlerini % 96,5 doğruluk (accuracy) oranı ile tahmin etmektedir. Diğer taraftan tüm veri seti üzerinde test edildiğinde ise meme kanseri türlerini benzer şekilde yaklaşık % 96,5 doğruluk (accuracy) oranı ile tahmin etmektedir. Hata oranı (error rate) 1-Doğruluk Oranı eşitliğinden hem test verisinde hemde tüm verisi setinde % 3,5’tir . Bu hata sınıflandırma hatası (classification error) olarak da nitelendirilebilir.

Yapılan bu çalışmanın özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına önemli bir katkı sunacağı düşünülmektedir.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla.

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak t Dağılım Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for Calculation of Confidence Interval (CI) Based on t Distribution Table Using Simple Random Sampling Method without Replacement

Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Bu çalışmada bahsedilen bu sorulara cevaplar bulunacaktır. Bu amaçla olasılıklı örneklem yöntemlerinden biri olan ön yargısız (without bias) basit tesadüfi tekrarsız örneklem yöntemi kullanılmıştır. Basit tekrarlı örneklem yöntemi ile ise rastgele beden kitle endeksi verileri üretilmiştir. Üretilen bu sentetik veriler üzerinden t dağılım tablosu kullanılarak deneysel güven aralığı çalışması hazırlanmıştır. Diğer programlama dilleri kullanılarak veya paket programlar üzerinde de bu çalışmanın yapılması her zaman mümkündür. Bunu da yapabilirdim ancak Microsoft Office Excel 2016 kullanılarak güven aralığı çalışması yapılmasının daha uygun olacağını düşündüm. Bunun nedeni excel üzerinde okuyucuya fonksiyon (formül) etkileşimleri gösterilerek konu hakkında daha fazla katkı sunulması amaçlanmasıdır. İki farklı güven aralığı çalışmasına yer verilmiştir. İlkinde güven aralığı çalışmasında elde edilen değerler sabitlenmiştir. İkincisi ise simülasyona izin verecek dinamik bir şekilde excel uzantılı dosya içerisinde sunulmuştur.Bunun nedeni seçilen örneklemlerdeki parametre ve güven aralıkları değişimlerinin karşılaştırmalı ve dinamik olarak sunulmak istenmesidir.

Güven aralığı nedir?

Maliyetlerin yüksekliği, uzun zaman alması, güncel ve derinlemesine veri elde edilmesi gibi temel öncelikler esas alınarak sıklıkla kişiler ya da kurumlar popülasyonun tamamının yerine bu popülasyonu temsil eden örneklem üzerinde araştırma yapmayı tercih ederler. Ancak seçilen örneklemin popülasyonun tamamını temsil etmesi isteniyorsa yeterli örneklem büyüklüğü (n) belirlenerek mutlaka olasılıklı örneklem yöntemlerinden biri veya birkaçı birlikte kullanılmalıdır. Popülasyonun tamamı yerine bu popülasyondan seçilen örneklem söz konusu olunca örneklem popülasyonu ne kadar temsil ediyor soruyu ortaya çıkmaktadır. Güven aralığı ise aslında tam da bize bunu söylemektedir. Güven aralığı, popülasyon ortalamasının tahmincisi olup, bize örneklem ortalamalarının popülasyon ortalamasından ne kadarlık bir sapma olduğunu göstermektedir. Güven aralığının bir alt limit (lower bound)’i ve üst limit (upper bound)’i vardır. Bu alt ve üst limitlerin olması güven aralığına adını vermektedir. Yani örneklemden elde edilen güven aralıkları popülasyon ortalamasını mutlaka içerecektir. Burada güven aralığındaki alt ve üst limitin yorumlanması önem arz etmektedir. Alt ve üst limitler arasında fark ne kadar az ise, diğer bir deyişle güven aralığı genişliği (CI Width) ne kadar dar ise örneklem ortalaması popülasyon ortalamasına o kadar yakın ve örneklem ortalamasını o kadar doğru tahmin ediyor demektir. Tersi bir durum, örneklem ortalamasının popülasyon ortalamasından uzaklaşması anlamı taşımaktadır ki, bu durum örneklemin popülasyonu kötü temsili anlamına gelmektedir.

Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır?

Genel olarak, güven aralığını hesaplamak için adım adım ele alınması gereken parametreler Şekil 1’de verilmiştir.

Şekil 1: Güven Aralığı Hesaplama Adımları

Şekil 1’de görüleceği üzere ilk olarak popülasyondan çekilen örneklemin ortalaması hesaplanır. Ortalama ise aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Eşitlik örneklem ortalamasının hesaplanmasına yönelik olduğu için “X” parametresi kullanılmıştır. Örneklem ortalaması bütün gözlem değerlerinin toplamının toplam gözlem sayısına bölünmesi ile elde edilir. Eşitlikte küçük “n” örneklem büyüklüğünü ifade etmektedir.

Eğer popülasyon ortalamasını hesaplamış olsaydık eşitlikte n yerine büyük “N” e yer verecektik. Burada N popülasyondaki gözlem sayısını ifade etmektedir. Popülasyon ortalaması (μ) ise bütün gözlem değerlerinin toplamının toplam gözlem sayısı (N)’na bölünmesi ile elde edilmekte olup, aşağıdaki eşitlik yardımıyla hesaplanır.

Örnekleme ait standart sapmanın hesaplanmasında ise aşağıdaki eşitlikten faydalanılır. Burada standart sapma ile aslında örneklem ortalamasından ne kadarlık bir sapma olduğunu gösteriyoruz. Adım adım örneklem standart sapması şöyle hesaplanır:

  1. Örneklemdeki gözlem değerlerinin ortalaması hesaplanır.
  2. Her bir gözlemin gözlem ortalamasından farkı alınır.
  3. Her bir gözleme ait hesaplanan farkın karesi hesaplanır.
  4. Her bir gözleme ait hesaplanan farkların karesi toplanır.
  5. Elde edilen fark kareleri toplamı örneklemdeki gözlem sayısının bir eksiğine bölünür.
  6. Elde edilen değerin karesi hesaplanır.

Popülasyon standart sapmasının hesaplanması ise örneklem standart sapmasına benzer olup tek fark karekök içindeki eşitliğin paydasında büyük “N” e, diğer bir deyişle popülasyondaki toplam gözlem sayısına yer verilmesidir. Yukarıda örneklem standart sapmasındaki işlemler popülasyon standart sapması için de yapılır.

Element varyansı ise örneklem standart sapmasının karesi olup, aşağıdaki eşitlik yardımıyla hesaplanmaktadır.

Eğer örneklemin popülasyon içinde yüzdesi (f=(n/N) x 100) %5’ten büyükse örneklem varyansının hesaplanması ve bunun üzerinden standart hata hesaplanması yoluna gidilmelidir. Örneklem varyansı ise aşağıdaki eşitlik yardımıyla hesaplanır.

Popülasyon varyansı ise popülasyon standart sapmasının karesinin alınması ile hesaplanır. Aşağıdaki eşitlik yardımıyla popülasyon varyansı hesaplanır.

Standart hata (se), diğer bir ifade ile ortalamanın standart hatası aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Örneklemin standart sapması (s)’nın karekök içerisindeki örneklem gözlem sayısı (n)’na bölünmesi bize ortalamanın standart hatası (standard error of the mean)’nı verir. Örneklem büyüklüğünün artırılması büyük sayı yasası (law of large numbers) ve merkezi limit teoremi (central limit teorem)’ne dayalı olarak standart hatayı azaltır ve bu istenen bir durumdur. Böylece, örneklem dağılımı standart normal dağılıma (ortalaması 0, standart sapması 1) evrilir.

Güven aralığı nasıl hesaplanır?

Güven aralığının belirlenmesini sağlayan eşitliklere yer verildikten sonra sırasıyla şimdi çok yalın bir şekilde t dağılım tablosu için güven aralığı eşitliğini alt ve üst limitten başlayarak verelim. t dağılımı, ingilizce ifadeyle student’s t distribution, ingiliz istatistikçi William Sealy Gosset tarafından 1908 yılında ortaya konulmuştur. Bu çalışmada güven aralığı, ortalaması ve standart sapması bilinen bir popülasyon üzerinden hesaplanmıştır. Eşitliklerde belirtilen n-1 serbestlik derecesi (degrees of fredom)’ni belirtmekte olup, n örneklem büyüklüğü göstermektedir.

Güven aralığının alt ve üst limitini verdikten sonra bir bütün olarak güven aralığı (confidence interval) eşitliğini verelim. Eşitliğin ortasında yer verilen μ popülasyon ortalamasını göstermektedir. Daha önce de belirtildiği üzere güven aralıklarıyla aslında popülasyon ortalamasını tahmin ediyoruz.

Güven aralığının alt ve üst, diğer bir deyişle iki kuyruklu (two tailed) alfa katsayıları aşağıdaki şekil üzerinde verilmiştir. Z dağılım tablosu ortalaması 0, standart sapması 1 olan standart normal dağılımı kullanmaktadır. Standart normal dağılım eğrisi şeklinden dolayı can eğrisi (bell curve) olarak da adlandırılmaktadır. Eğrinin altında alanın toplamı 1’e eşittir. Burada belirlenen güven düzeyi % 95’tir. Bu güven düzeyi sosyal bilimler dışında özellikle sağlık bilimlerinde % 95’in üzerine çıkabilmektedir daha kesin çıkarımlar (inferences) alınmak istendiğinden . t dağılım tablosu aslında örneklem büyüklüğü artıkça z dağılım eğrisine evrilmektedir. Ancak örneklem büyüklüğü (n<31)’nün düşük olmasından dolayı t dağılım tablosunun kullanılması daha yaygın bir uygulamadır.

Aşağıda şekilde ise t dağılımının örneklem büyüklüğüne göre seyri verilmiştir. Burada örneklem büyüklüğü artıkça dağılımın standart normal dağılıma evrildiği görülmektedir.

Güven aralığı eşitliğinde görüleceği üzere güven aralığının hesaplanması için gerekli parametreler örneklemin ortalaması, standart hatası (se) ve t tablo değeridir. Burada t tablo yerine pekala Z dağılım tablo değeri de alınabilirdi. Ancak örneklem büyüklüğümüz bu çalışma kapsamında 30 ve altında (n<30) olduğu için t (student t) dağılım tablosu kullanılmıştır. Ancak isteğe bağlı olarak çalışmada 30’un üzerinde örneklem büyüklüğü (n) belirlenerek Z tablo değeri hesaplanabilir. Buna ilişkin uygulama yaptığım örnek çalışma mevcuttur. Merak edenler için çalışmanın linki aşağıdadır.

Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak Z Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması

Diğer taraftan, genel olarak sosyal bilimlerdeki istatistiksel analiz ve araştırmalarda güven düzeyleri % 95 olarak alındığı için bu araştırmada da bu düzey benimsenmiştir. Güven düzeyinin % 95 olarak alınması % 5’lik hata payının kabul edildiğini göstermektedir. Hazırlamış olduğum çalışmalar, özellikle de simülasyon çalışması % 95 üzeri ve altı güven düzeyleri için de kolaylıkla uyarlanabilme özelliğine sahiptir.

Sırası gelmişken belirtmekte fayda olduğuna inanıyorum. Güven aralığının kamuoyunda ve literatürde sık sık yanlış yorumlandığı ve adlandırıldığı görülmektedir. Diğer bir deyişle, güven aralığı (confidence interval) ile güven düzeyi (confidence level) karıştırılmaktadır. Burada güven aralığı eğer yüzde olarak ifade edilmişse bu güven düzeyini, yüzde olarak ifade edilmemişse güven aralığını ifade etmektedir. % 95 güven düzeyine sahip olmak, sonuçlarınızın herkese anket yapmış gibi neredeyse aynı olduğundan emin olduğunuz anlamına gelir.

Güven aralığını etkileyen faktörler nelerdir?

Güven aralığını etkileyen faktörler şöyle sıralanabilir.

  1. Örneklem büyüklüğü: örneklem büyüklüğü (n) artıkça elde edilen cevapların popülasyonu doğrulama olasılığı o kadar artar. Diğer bir deyişle, örneklem büyüklüğünün artması güven aralığını daraltır. Ancak bu artış lineer olmayabilir.
  2. Örneklem seçiminde kullanılan yöntem: eğer örneklem olasıklı örneklem yöntemleri kullanılmadan ya da bu yöntemler kullanılsa bile hatalı örneklem seçimi yapılmışsa güven aralıklarını etkileyebilir. Dolayısıyla popülasyon parametresi olan ortalamalar doğru bir şekilde tahmin edilmemiş olur.
  3. Güven düzeyi (% 95’ten % 99’a yükselmesi) yükseldikçe güven aralığı genişler. Çünkü matematiksel olarak çarpım katsayısı da büyür. Örnek vermek gerekirse Z tablo değeri % 95 güven aralığında 1,96 iken güven aralığı = X-+1,96 x Standart Hata. Ancak Z tablo değeri % 99 güven aralığında 2,58 iken güven aralığı = X-+2,58 x Standart Hata olur.
  4. Örneklem ortalaması arttıkça güven aralığının genişliği aynı kalır. Dolayısıyla, örneklem ortalaması aralığın genişliğinde bir rol oynamaz.
  5. Örneklem standart sapmasının azalması varyansın azalması anlamına geldiğinden standart hata düşer. Bu durum güven aralığının daralmasına ve daha yüksek doğruluk (accuracy) ile popülasyon ortalamasının tahmini anlamına gelmektedir. Burada örneklem büyüklüğü ile standart hata arasında ters orantı vardır.

Güven aralığından yeterince bahsettikten sonra şimdi uygulama aşamasına geçebiliriz. Uygulamada kullanılan popülasyon veri seti beden kitle endeksi (BKİ) değerlerini içeren ve 1000 (N) gözlemden oluşan sentetik veri setidir. Olasılıklı örneklem yöntemlerinden basit tekrarlı tesadüfi örnekleme yöntemiyle 7 ve 50 aralığında BKİ değerleri üretilmiştir. BKİ değerleri üretilirken Sağlık Bakanlığı resmi web sitesindeki BKİ alt ve üst referans değerlerinden yararlanılmıştır. Burada belirlenen BKİ alt ve üst limitleri şöyledir:

Parametre DeğeriKategori
8.5 kg/m2’nin altında isezayıf
18.5-24.9 kg/m2 arasında isenormal kilolu
25-29.9 kg/m2 arasında isefazla kilolu
30-34.9 kg/m2 arasında iseI.Derece obez
35-39.9 kg/m2 arasında ise II.Derece obez
40 kg/m2 üzerinde ise III.Derece morbid obez
Kaynak: https://www.sbn.gov.tr/BKindeksi.aspx

İlk olarak popülasyondan tekrarsız basit tesadüfi örneklem yöntemi kullanarak her birinin örneklem büyüklüğü sırasıyla 35, 31 ve 34 olan 3 farklı örneklem çekilmiştir. Çekilen örneklemler popülasyondaki ID koduyla birlikte Tablo 1’de verilmiştir.

Tablo 1: Üç Farklı Örneklem Seçimi

Örneklem1
ID
BKİÖrneklem2
ID
BKİÖrneklem3
ID
BKİ
2342,1640,9249,7
335,91235,717,2
2215,82342,1258,0
1448,7427,01938,3
640,92743,92743,9
522,0716,2227,0
1646,617,2427,0
219,52918,3846,7
2027,7335,92027,7
1546,21750,0335,9
1030,61646,62627,9
1938,33046,8936,7
1750,02215,81750,0
17,2936,71646,6
1326,12627,9219,5
936,71546,21546,2
1824,1846,7640,9
846,71824,11824,1
1235,72027,72342,1
427,01448,7522,0
249,71122,11235,7
716,2522,01326,1
227,0219,51448,7
1122,1249,7716,2

Güven aralıklarını vermeden önce popülasyona ait temel parametreleri vermenin fayda olduğu düşünülmektedir. Bu amaçla popülasyon parametre değerleri Tablo 2’te sunulmuştur.

Tablo 2: Popülasyon Parametreleri

Popülasyon ParametreleriDeğer
Ortalama (µ)28,6
Varyans153,0
Standart Sapma12,4
N1000

Örneklem gruplarına ait üretilen güven aralıkları ise Tablo 3’te verilmiştir. Tablo 3’e göre öne çıkan bulgular şöyledir:

  • Ortalamasının 30,1, ortalamanın standart hatasının (se) 2,2 olduğu örneklem 2 grubu popülasyon ortalamasını en doğru tahmin eden grup olarak öne çıkmıştır. Bu grupta güven aralığı genişliği (8,9) diğer gruplara göre daha dar olup güven aralığı (CI) 25,62 ≤ µ ≤34,51 şeklindedir. Buradan örneklem 2 beden kitle endeksi ortalamasının % 95 olasılıkla veya güven düzeyinde 25,62 ile 34,51 arasında olduğunu söyleyebiliriz. Örneklem 2 grubunu ise güven aralığı genişliği (CI width) 10,2 olan örneklem 3 grubu izlemiştir.

Tablo 3: Örneklem Grubuna Göre Güven Aralıkları

Tablo 3’teki güven aralıkları genişlikleri baz alınarak örneklem gruplarına göre güven aralıkları Şekil 2’te verilmiştir. Görüleceği üzere güven aralığı genişliği en dar olan örneklem grubu 8,89 ile örneklem 2 grubudur. Buradan şöyle bir yorum yapabiliriz: örneklem büyüklüğü (n)’nün artması varyansın azalmasına, varyansın azalması ise standart hata (se)’nın düşmesini sağlar. Buna bağlı olarak güven aralığı (CI width) daralır ve daha keskin (precision) ve daha doğru (accuracy) bir güven aralığı elde edilmiş olur.

Şekil 2: Örneklem Gruplarına Göre Güven Aralığı Genişlikleri

Burada t (student’s t) dağılım tablosu üzerinden yapılan güven aralığı deneysel çalışmasının excel uzantılı dosyasını aşağıda linkten indirebilirsiniz.

t dağılım tablosu üzerinden güven aralığının hesaplanmasına yönelik olarak hazırladığım simülasyonu ise aşağıdaki linkten indirebilirsiniz. Simülasyon çalışmasında bazı sayfalardaki formüller şifre ile korunmuştur. Değişiklik yapılması istenmesi durumundan sayfa korumasının kaldırılması için şifre olarak “tevfik” girilmesi yeterlidir. Özellikle bu simülasyon çalışmasının sahada ve akademide faaliyet gösteren çalışanlara çok faydalı olacağı düşünülmektedir. Bu çalışmanın içerisinde örneklem seçiminden örneklem büyüklüğünün belirlenmesine kadar pek çok konu mevcuttur.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak Z Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for the Calculation of Confidence Interval (CI) Based on Z Table Using Simple Random Sampling without Replacement Method

Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Bu çalışmada bahsedilen bu sorulara cevaplar bulunacaktır. Bu amaçla olasılıklı örneklem yöntemlerinden biri olan ön yargısız (without bias) basit tesadüfi tekrarsız örneklem yöntemi kullanılmıştır. Basit tekrarlı örneklem yöntemi ile ise rastgele beden kitle endeksi verileri üretilmiştir. Üretilen bu sentetik veriler üzerinden deneysel güven aralığı çalışması hazırlanmıştır. Diğer programlama dilleri kullanılarak veya paket programlar üzerinde de bu çalışmanın yapılması her zaman mümkündür. Bunu da yapabilirdim ancak Microsoft Office Excel 2016 kullanılarak güven aralığı çalışması yapılmasının daha uygun olacağını düşündüm. Bunun nedeni excel üzerinde okuyucuya fonksiyon (formül) etkileşimleri gösterilerek konu hakkında daha fazla katkı sunulması amaçlanmasıdır. İki farklı güven aralığı çalışmasına yer verilmiştir. İlkinde güven aralığı çalışmasında elde edilen değerler sabitlenmiştir. İkincisi ise simülasyona izin verecek dinamik bir şekilde excel uzantılı dosya içerisinde sunulmuştur.Bunun nedeni seçilen örneklemlerdeki parametre ve güven aralıkları değişimlerinin karşılaştırmalı ve dinamik olarak sunulmak istenmesidir.

Güven aralığı nedir?

Maliyetlerin yüksekliği, uzun zaman alması, güncel ve derinlemesine veri elde edilmesi gibi temel öncelikler esas alınarak sıklıkla kişiler ya da kurumlar popülasyonun tamamının yerine bu popülasyonu temsil eden örneklem üzerinde araştırma yapmayı tercih ederler. Ancak seçilen örneklemin popülasyonun tamamını temsil etmesi isteniyorsa yeterli örneklem büyüklüğü (n) belirlenerek mutlaka olasılıklı örneklem yöntemlerinden biri veya birkaçı birlikte kullanılmalıdır. Popülasyonun tamamı yerine bu popülasyondan seçilen örneklem söz konusu olunca örneklem popülasyonu ne kadar temsil ediyor sorusu ortaya çıkmaktadır. Güven aralığı ise aslında tam da bize bunu söylemektedir. Güven aralığı, popülasyon ortalamasının tahmincisi olup, bize örneklem ortalamalarının popülasyon ortalamasından ne kadarlık bir sapma olduğunu göstermektedir. Güven aralığının bir alt limit (lower bound)’i ve üst limit (upper bound)’i vardır. Bu alt ve üst limitlerin olması güven aralığına adını vermektedir. Yani örneklemden elde edilen güven aralıkları popülasyon ortalamasını mutlaka içerecektir. Burada güven aralığındaki alt ve üst limitin yorumlanması önem arz etmektedir. Alt ve üst limitler arasında fark ne kadar az ise, diğer bir deyişle güven aralığı genişliği (CI Width) ne kadar dar ise örneklem ortalaması popülasyon ortalamasına o kadar yakın ve popülasyon ortalamasını o kadar doğru tahmin ediyor demektir. Tersi bir durum, örneklem ortalamasının popülasyon ortalamasından uzaklaşması anlamı taşımaktadır ki, bu durum örneklemin popülasyonu kötü temsili anlamına gelmektedir.

Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır?

Genel olarak, güven aralığını hesaplamak için adım adım ele alınması gereken parametreler Şekil 1’de verilmiştir.

Şekil 1: Güven Aralığı Hesaplama Adımları

Şekil 1’de görüleceği üzere ilk olarak popülasyondan çekilen örneklemin ortalaması hesaplanır. Ortalama ise aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Eşitlik örneklem ortalamasının hesaplanmasına yönelik olduğu için “X” parametresi kullanılmıştır. Örneklem ortalaması bütün gözlem değerlerinin toplamının toplam gözlem sayısına bölünmesi ile elde edilir. Eşitlikte küçük “n” örneklem büyüklüğünü ifade etmektedir.

Eğer popülasyon ortalamasını hesaplamış olsaydık eşitlikte n yerine büyük “N” e yer verecektik. Burada N popülasyondaki gözlem sayısını ifade etmektedir. Popülasyon ortalaması (μ) ise bütün gözlem değerlerinin toplamının toplam gözlem sayısı (N)’na bölünmesi ile elde edilmekte olup, aşağıdaki eşitlik yardımıyla hesaplanır.

Örnekleme ait standart sapmanın hesaplanmasında ise aşağıdaki eşitlikten faydalanılır. Burada standart sapma ile aslında örneklem ortalamasından ne kadarlık bir sapma olduğunu gösteriyoruz. Adım adım örneklem standart sapması şöyle hesaplanır:

  1. Örneklemdeki gözlem değerlerinin ortalaması hesaplanır.
  2. Her bir gözlemin gözlem ortalamasından farkı alınır.
  3. Her bir gözleme ait hesaplanan farkın karesi hesaplanır.
  4. Her bir gözleme ait hesaplanan farkların karesi toplanır.
  5. Elde edilen fark kareleri toplamı örneklemdeki gözlem sayısının bir eksiğine bölünür.
  6. Elde edilen değerin karesi hesaplanır.

Popülasyon standart sapmasının hesaplanması ise örneklem standart sapmasına benzer olup tek fark karekök içindeki eşitliğin paydasında büyük “N” e, diğer bir deyişle popülasyondaki toplam gözlem sayısına yer verilmesidir. Yukarıda örneklem standart sapmasındaki işlemler popülasyon standart sapması için de yapılır.

Element varyansı ise örneklem standart sapmasının karesi olup, aşağıdaki eşitlik yardımıyla hesaplanmaktadır.

Eğer örneklemin popülasyon içinde yüzdesi (f=(n/N) x 100) %5’ten büyükse örneklem varyansının hesaplanması ve bunun üzerinden standart hata hesaplanması yoluna gidilmelidir. Örneklem varyansı ise aşağıdaki eşitlik yardımıyla hesaplanır.

Popülasyon varyansı ise popülasyon standart sapmasının karesinin alınması ile hesaplanır. Aşağıdaki eşitlik yardımıyla popülasyon varyansı hesaplanır.

Standart hata (se), diğer bir ifade ile ortalamanın standart hatası aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Örneklemin standart sapması (s)’nın karekök içerisindeki örneklem gözlem sayısı (n)’na bölünmesi bize ortalamanın standart hatası (standard error of the mean)’nı verir. Standart hatayı aynı zamanda örneklem varyansının karekökünü alarak da hesaplayabiliriz. Örneklem büyüklüğünün artırılması merkezi limit teoremi (central limit teorem)’ne dayalı olarak standart hatayı azaltır ve bu istenen bir durumdur. Böylece, örneklem dağılımı standart normal dağılıma (ortalaması 0, standart sapması 1) evrilir.

Güven aralığı nasıl hesaplanır?

Güven aralığının belirlenmesini sağlayan eşitliklere yer verildikten sonra sırasıyla şimdi çok yalın bir şekilde güven aralığı eşitliğini alt ve üst limitten başlayarak verelim. Bu çalışmada güven aralığı, ortalaması ve standart sapması bilinen bir popülasyon üzerinden hesaplanmıştır.

Güven aralığının alt ve üst limitini verdikten sonra bir bütün olarak güven aralığı (confidence interval) eşitliğini verelim. Eşitliğin ortasında yer verilen μ popülasyon ortalamasını göstermektedir. Daha önce de belirtildiği üzere güven aralıklarıyla aslında popülasyon ortalamasını tahmin ediyoruz.

Güven aralığının alt ve üst, diğer bir deyişle iki kuyruklu (two tailed) alfa katsayıları aşağıdaki şekil üzerinde verilmiştir. Z tablosu ortalaması 0, standart sapması 1 olan standart normal dağılımı kullanmaktadır. Standart normal dağılım eğrisi şeklinden dolayı can eğrisi (bell curve) olarak da adlandırılmaktadır. Eğrinin altında alanın toplamı 1’e eşittir. Burada belirlenen güven düzeyi % 95’tir. Bu güven düzeyi sosyal bilimler dışında özellikle sağlık bilimlerinde % 95’in üzerine çıkabilmektedir daha kesin çıkarımlar (inferences) alınmak istendiğinden.

Güven aralığı eşitliğinde görüleceği üzere güven aralığının hesaplanması için gerekli parametreler örneklemin ortalaması, standart hatası (se) ve Z tablo değeridir. Burada Z tablo yerine pekala t tablo değeri de alınabilirdi. Ancak örneklem büyüklüğümüz bu çalışma kapsamında 30’un üzerinde (n>30) olduğu için Z tablosu kullanılmıştır. Ancak isteğe bağlı olarak çalışmada 30’un altında örneklem büyüklüğü (n) belirlenerek t tablo değeri hesaplanabilir. Diğer taraftan, genel olarak sosyal bilimlerdeki istatistiksel analiz ve araştırmalarda güven düzeyleri % 95 olarak alındığı için bu araştırmada da bu düzey benimsenmiştir. Güven düzeyinin % 95 olarak alınması % 5’lik hata payının kabul edildiğini göstermektedir. Hazırlamış olduğum çalışmalar, özellikle de simülasyon çalışması % 95 üzeri ve altı güven düzeyleri için de kolaylıkla uyarlanabilme özelliğine sahiptir.

Sırası gelmişken belirtmekte fayda olduğuna inanıyorum. Güven aralığının kamuoyunda ve literatürde sık sık yanlış yorumlandığı ve adlandırıldığı görülmektedir. Diğer bir deyişle, güven aralığı (confidence interval) ile güven düzeyi (confidence level) karıştırılmaktadır. Burada güven aralığı eğer yüzde olarak ifade edilmişse bu güven düzeyini, yüzde olarak ifade edilmemişse güven aralığını ifade etmektedir. % 95 güven düzeyine sahip olmak, sonuçlarınızın herkese anket yapmış gibi neredeyse aynı olduğundan emin olduğunuz anlamına gelir.

Güven aralığını etkileyen faktörler nelerdir?

Güven aralığını etkileyen faktörler şöyle sıralanabilir.

  1. Örneklem büyüklüğü: örneklem büyüklüğü (n) artıkça elde edilen cevapların popülasyonu doğrulama olasılığı o kadar artar. Diğer bir deyişle, örneklem büyüklüğünün artması güven aralığını daraltır. Ancak bu artış lineer olmayabilir.
  2. Örneklem seçiminde kullanılan yöntem: eğer örneklem olasıklı örneklem yöntemleri kullanılmadan ya da bu yöntemler kullanılsa bile hatalı örneklem seçimi yapılmışsa güven aralıklarını etkileyebilir. Dolayısıyla popülasyon parametresi olan ortalamalar doğru bir şekilde tahmin edilmemiş olur.
  3. Güven düzeyi (% 95’ten % 99’a yükselmesi) yükseldikçe güven aralığı genişler. Çünkü matematiksel olarak çarpım katsayısı da büyür. Örnek vermek gerekirse Z tablo değeri % 95 güven aralığında 1,96 iken güven aralığı = X-+1,96 x Standart Hata. Ancak Z tablo değeri % 99 güven aralığında 2,58 iken güven aralığı = X-+2,58 x Standart Hata olur.
  4. Örneklem ortalaması arttıkça güven aralığının genişliği aynı kalır. Dolayısıyla, örneklem ortalaması aralığın genişliğinde bir rol oynamaz.
  5. Örneklem standart sapmasının azalması varyansın azalması anlamına geldiğinden standart hata düşer. Bu durum güven aralığının daralmasına ve daha yüksek doğruluk (accuracy) ile popülasyon ortalamasının tahmini anlamına gelmektedir. Burada örneklem büyüklüğü ile standart hata arasında ters orantı vardır.

Güven aralığından yeterince bahsettikten sonra şimdi uygulama aşamasına geçebiliriz. Uygulamada kullanılan popülasyon veri seti beden kitle endeksi (BKİ) değerlerini içeren ve 1000 (N) gözlemden oluşan sentetik veri setidir. Olasılıklı örneklem yöntemlerinden basit tekrarlı tesadüfi örnekleme yöntemiyle 7 ve 50 aralığında BKİ değerleri üretilmiştir. BKİ değerleri üretilirken Sağlık Bakanlığı resmi web sitesindeki BKİ alt ve üst referans değerlerinden yararlanılmıştır. Burada belirlenen BKİ alt ve üst limitleri şöyledir:

Parametre DeğeriKategori
8.5 kg/m2’nin altında isezayıf
18.5-24.9 kg/m2 arasında isenormal kilolu
25-29.9 kg/m2 arasında isefazla kilolu
30-34.9 kg/m2 arasında iseI.Derece obez
35-39.9 kg/m2 arasında ise II.Derece obez
40 kg/m2 üzerinde ise III.Derece morbid obez
Kaynak: https://www.sbn.gov.tr/BKindeksi.aspx

İlk olarak popülasyondan tekrarsız basit tesadüfi örneklem yöntemi kullanarak her birinin örneklem büyüklüğü sırasıyla 35, 31 ve 34 olan 3 farklı örneklem çekilmiştir. Çekilen örneklemler popülasyondaki ID koduyla birlikte Tablo 1’de verilmiştir.

Tablo 1: Üç Farklı Örneklem Seçimi

Örneklem1
ID
BKİ
Örneklem2
ID
BKİ
Örneklem3
ID
BKİ
3328,8535,522841,87
348,7313,92519,97
2039,32039,341810,55
1610,21228,6487,81
138,3940,262919,67
1928,31928,282433,82
224,8224,832039,34
313,91444,361928,28
2520,01810,553129,96
1121,92115,14138,34
744,91121,943211,19
2919,72841,872736,69
69,287,813022,34
2115,1418,821228,64
147,31037,822616,71
3130,0147,34313,9
2320,82215,392215,39
2841,91531,19224,83
87,82433,822115,14
2616,72519,971444,36
1531,2138,341531,19
535,52919,67744,87
2736,72616,711717,62
2215,41717,621121,94
3531,51610,183328,79
1037,83129,96535,52
418,869,22418,82
2433,82320,821610,18
1228,6744,871037,82
1810,63022,34940,26
3211,22736,69147,34
1444,469,22
3022,3348,71
940,262320,82
1717,62

Güven aralıklarını vermeden önce popülasyona ait temel parametreleri vermekte fayda olduğu düşünülmektedir. Bu amaçla popülasyon parametre değerleri Tablo 2’te sunulmuştur.

Tablo 2: Popülasyon Parametreleri

Popülasyon ParametreleriDeğer
Ortalama (µ)28,7
Varyans153,0
Standart Sapma12,4
N1000

Örneklem gruplarına ait üretilen güven aralıkları ise Tablo 3’te verilmiştir. Tablo 3’e göre öne çıkan bulgular şöyledir:

  • Ortalamasının 24,95, ortalamanın standart hatasının (se) 2,00 olduğu örneklem1 grubu popülasyon ortalamasını en doğru tahmin eden grup olarak öne çıkmıştır. Bu grupta güven aralığı genişliği (7,83) diğer gruplara göre daha dar olup güven aralığı (CI) 21,04 ≤ µ ≤28,87 şeklindedir. Buradan örneklem beden kitle endeksi ortalamasının % 95 olasılıkla veya güven düzeyinde 21,04 ile 28,87 arasında olduğunu söyleyebiliriz. Örneklem 1 grubunu ise güven aralığı genişliği (CI width) 8,03 olan örneklem 3 grubu izlemiştir.

Tablo 3: Örneklem Grubuna Göre Güven Aralıkları

Örneklem ParametreleriÖrneklem1Örneklem2Örneklem3
Ortalama (m)24,9525,5924,76
Element Varyans (s^2)139,81140,96142,62
Standart Sapma (s)11,8211,8711,94
Örneklem büyüklüğünün popülasyon içindeki oranı (f)0,040,030,03
Finite population correction(fpc) (1-f): Popülasyon düzeltmesi0,970,970,97
Örneklem varyansı (var(x))3,994,554,19
Standart Hata (se)2,002,132,05
Nispi hata (Coefficient of Variation) (CV)8,018,338,27
Alfa (a/2) değeri (güven aralığının olasılık değeri)0,030,030,03
Z tablo değeri1,961,961,96
%95 Güven Aralığı Alt Limit (Lower boundary of CI)21,0421,4120,75
%95 Güven Aralığı Üst Limit (Upper boundary of CI)28,8729,7728,78
Güven Aralığı Genişliği (CI Width)7,838,368,03
Güven aralığı gösterimi (CI)21,04 ≤ µ ≤28,8721,41 ≤ µ ≤29,7720,75 ≤ µ ≤28,78
En iyi güven aralığına sahip örneklem grubuÖrneklem 1

Tablo 3’teki güven aralıkları genişlikleri baz alınarak örneklem gruplarına göre güven aralıkları Şekil 2’te verilmiştir. Görüleceği üzere güven aralığı genişliği en dar olan örneklem grubu 7,83 ile örneklem 1 grubudur. Buradan şöyle bir yorum yapabiliriz: örneklem büyüklüğü (n) artıkça standart hata (se) düşer, buna bağlı olarak güven aralığı (CI width) daralır.

Şekil 2: Örneklem Gruplarına Göre Güven Aralığı Genişlikleri

Burada Z tablosu üzerinden yapılan güven aralığı deneysel çalışmasının excel uzantılı dosyasını aşağıda linkten indirebilirsiniz.

Z tablosu üzerinden Güven aralığının hesaplanmasına yönelik olarak hazırladığım simülasyonu ise aşağıdaki linkten indirebilirsiniz. Simülasyon çalışmasında bazı sayfalardaki formüller şifre ile korunmuştur. Değişiklik yapılması istenmesi durumundan sayfa korumasının kaldırılması için şifre olarak “tevfik” girilmesi yeterlidir. Özellikle bu simülasyon çalışmasının sahada ve akademide faaliyet gösteren çalışanlara çok faydalı olacağı düşünülmektedir. Bu çalışmanın içerisinde olaslıklı örneklem seçiminden örneklem büyüklüğünün belirlenmesine kadar pek çok konu mevcuttur. Bu simülasyonda örneklem büyüklüğünü siz belirleyebilirsiniz.

Ayrıca güven aralığı simülasyonuna sizlerin örneklem büyüklüğünü elle belirlemenize gerek kalmadan tesadüfi bir şekilde belirlenmesine olanak tanıyan özellik ilave ettim. Güven aralığı simülasyonunun bu versiyonunu ise aşağıdaki linkten indirebilirsiniz.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla…

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar