Z Tablosuna Göre Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for Calculating Confidence Interval by Z Table

Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Bu çalışmada bahsedilen bu sorulara cevaplar bulunacaktır. Bu amaçla olasılıklı örneklem yöntemlerinden biri olan ön yargısız (without bias) basit tesadüfi tekrarlı örneklem yöntemi kullanılarak yine aynı yöntemle üretilen rastgele beden kitle endeksi verileri üzerinden deneysel güven aralığı çalışması hazırlanmıştır. Diğer programlama dilleri kullanılarak veya paket programlar üzerinde de yapılabilmekle birlikte Microsoft Office Excel 2016 kullanılarak güven aralığı çalışması yapılmıştır. Bunun nedeni okuyucuya fonksiyon (formül) etkileşimlerinin gösterilerek daha fazla katkı sunulması amaçlanmasıdır. İki farklı güven aralığı çalışmasına yer verilmiştir. İlkinde güven aralığı çalışmasında elde edilen değerler sabitlenmiştir. İkincisinde ise simülasyona izin verecek dinamik bir şekilde excel uzantılı dosya içerisinde sunulmuştur. Bunun nedeni seçilen örneklemlerdeki parametre ve güven aralıkları değişimlerinin karşılaştırmalı olarak sunulması ve daha kolay anlaşılmasının sağlanmak istenmesidir.

Güven aralığı nedir?

Maliyetlerin yüksekliği, uzun zaman alması, güncel ve derinlemesine veri elde edilmesi gibi temel öncelikler esas alınarak sıklıkla kişiler ya da kurumlar popülasyonun tamamının yerine bu popülasyonu temsil eden örneklem üzerinde araştırma yapmayı tercih ederler. Ancak seçilen örneklemin popülasyonun tamamını temsil etmesi isteniyorsa yeterli örneklem büyüklüğü (n) belirlenerek mutlaka olasılıklı örneklem yöntemlerinden biri veya birkaçı birlikte kullanılmalıdır. Popülasyonun tamamı yerine bu popülasyondan seçilen örneklem söz konusu olunca örneklem popülasyonu ne kadar temsil ediyor soruyu ortaya çıkmaktadır. Güven aralığı ise aslında tam da bize bunu söylemektedir. Güven aralığı, popülasyon ortalamasının tahmincisi olup, bize örneklem ortalamalarının popülasyon ortalamasından ne kadarlık bir sapma olduğunu göstermektedir. Güven aralığının bir alt limit (lower bound)’i ve üst limit (upper bound)’i vardır. Bu alt ve üst limitlerin olması güven aralığına adını vermektedir. Yani örneklemden elde edilen güven aralıkları popülasyon ortalamasını mutlaka içerecektir. Burada güven aralığındaki alt ve üst limitin yorumlanması önem arz etmektedir. Alt ve üst limitler arasında fark ne kadar az ise, diğer bir deyişle güven aralığı genişliği (CI Width) ne kadar dar ise örneklem ortalaması popülasyon ortalamasına o kadar yakın ve örneklem ortalamasını o kadar doğru tahmin ediyor demektir. Tersi bir durum, örneklem ortalamasının popülasyon ortalamasından uzaklaşması anlamı taşımaktadır ki, bu durum örneklemin popülasyonu kötü temsili anlamına gelmektedir.

Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır?

Genel olarak, güven aralığını hesaplamak için adım adım ele alınması gereken parametreler Şekil 1’de verilmiştir.

Şekil 1: Güven Aralığı Hesaplama Adımları

Şekil 1’de görüleceği üzere ilk olarak popülasyondan çekilen örneklemin ortalaması hesaplanır. Ortalama ise aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Eşitlik örneklem ortalamasının hesaplanmasına yönelik olduğu için “X” parametresi kullanılmıştır. Örneklem ortalaması bütün gözlem değerlerinin toplamının toplam gözlem sayısına bölünmesi ile elde edilir. Eşitlikte küçük “n” örneklem büyüklüğünü ifade etmektedir.

Eğer popülasyon ortalamasını hesaplamış olsaydık eşitlikte n yerine büyük “N” e yer verecektik. Burada N popülasyondaki gözlem sayısını ifade etmektedir. Popülasyon ortalaması (μ) ise bütün gözlem değerlerinin toplamının toplam gözlem sayısı (N)’na bölünmesi ile elde edilmekte olup, aşağıdaki eşitlik yardımıyla hesaplanır.

Örnekleme ait standart sapmanın hesaplanmasında ise aşağıdaki eşitlikten faydalanılır. Burada standart sapma ile aslında örneklem ortalamasından ne kadarlık bir sapma olduğunu gösteriyoruz. Adım adım örneklem standart sapması şöyle hesaplanır:

  1. Örneklemdeki gözlem değerlerinin ortalaması hesaplanır.
  2. Her bir gözlemin gözlem ortalamasından farkı alınır.
  3. Her bir gözleme ait hesaplanan farkın karesi hesaplanır.
  4. Her bir gözleme ait hesaplanan farkların karesi toplanır.
  5. Elde edilen fark kareleri toplamı örneklemdeki gözlem sayısının bir eksiğine bölünür.
  6. Elde edilen değerin karesi hesaplanır.

Popülasyon standart sapmasının hesaplanması ise örneklem standart sapmasına benzer olup tek fark karekök içindeki eşitliğin paydasında büyük “N” e, diğer bir deyişle popülasyondaki toplam gözlem sayısına yer verilmesidir. Yukarıda örneklem standart sapmasındaki işlemler popülasyon standart sapması için de yapılır.

Element varyansı ise örneklem standart sapmasının karesi olup, aşağıdaki eşitlik yardımıyla hesaplanmaktadır.

Eğer örneklemin popülasyon içinde yüzdesi (f=(n/N) x 100) %5’ten büyükse örneklem varyansının hesaplanması ve bunun üzerinden standart hata hesaplanması yoluna gidilmelidir. Örneklem varyansı ise aşağıdaki eşitlik yardımıyla hesaplanır.

Popülasyon varyansı ise popülasyon standart sapmasının karesinin alınması ile hesaplanır. Aşağıdaki eşitlik yardımıyla popülasyon varyansı hesaplanır.

Standart hata (se), diğer bir ifade ile ortalamanın standart hatası aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Örneklemin standart sapması (s)’nın karekök içerisindeki örneklem gözlem sayısı (n)’na bölünmesi bize ortalamanın standart hatası (standard error of the mean)’nı verir. Örneklem büyüklüğünün artırılması merkezi limit teoremi (central limit teorem)’ne dayalı olarak standart hatayı azaltır ve bu istenen bir durumdur. Böylece, örneklem dağılımı standart normal dağılıma (ortalaması 0, standart sapması 1) evrilir.

Güven aralığı nasıl hesaplanır?

Güven aralığının belirlenmesini sağlayan eşitliklere yer verildikten sonra sırasıyla şimdi çok yalın bir şekilde güven aralığı eşitliğini alt ve üst limitten başlayarak verelim. Bu çalışmada güven aralığı, ortalaması ve standart sapması bilinen bir popülasyon üzerinden hesaplanmıştır.

Güven aralığının alt ve üst limitini verdikten sonra bir bütün olarak güven aralığı (confidence interval) eşitliğini verelim. Eşitliğin ortasında yer verilen μ popülasyon ortalamasını göstermektedir. Daha önce de belirtildiği üzere güven aralıklarıyla aslında popülasyon ortalamasını tahmin ediyoruz.

Güven aralığının alt ve üst, diğer bir deyişle iki kuyruklu (two tailed) alfa katsayıları aşağıdaki şekil üzerinde verilmiştir. Z tablosu ortalaması 0, standart sapması 1 olan standart normal dağılımı kullanmaktadır. Standart normal dağılım eğrisi şeklinden dolayı can eğrisi (bell curve) olarak da adlandırılmaktadır. Eğrinin altında alanın toplamı 1’e eşittir. Burada belirlenen güven düzeyi % 95’tir. Bu güven düzeyi sosyal bilimler dışında özellikle sağlık bilimlerinde % 95’in üzerine çıkabilmektedir daha kesin çıkarımlar (inferences) alınmak istendiğinden.

Güven aralığı eşitliğinde görüleceği üzere güven aralığının hesaplanması için gerekli parametreler örneklemin ortalaması, standart hatası (se) ve Z tablo değeridir. Burada Z tablo yerine pekala t (student’s t distribution) tablo değeri de alınabilirdi. Ancak örneklem büyüklüğümüz bu çalışma kapsamında 30’un üzerinde (n>30) olduğu için Z tablosu kullanılmıştır. Ancak isteğe bağlı olarak çalışmada 30’un altında örneklem büyüklüğü (n) belirlenerek t tablo değeri hesaplanabilir. Hem tekrarsız basit tesadüfi örnekleme (SRS without replacement) yöntemi hem de t tablo değerinin kullanılarak güven aralığı hesaplanmasına yönelik oluşturduğum simülasyon çalışmasına ise aşağıdaki linkten ulaşabilirsiniz.

Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak t Dağılım Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması

Hem tekrarsız basit tesadüfi örnekleme (SRS without replacement) yöntemi hem de Z tablo değerinin kullanılarak güven aralığı hesaplanmasına yönelik oluşturduğum simülasyon çalışmasına ise aşağıdaki linkten ulaşabilirsiniz.

Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak Z Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması

Diğer taraftan, genel olarak sosyal bilimlerdeki istatistiksel analiz ve araştırmalarda güven düzeyleri % 95 olarak alındığı için bu araştırmada da bu düzey benimsenmiştir. Güven düzeyinin % 95 olarak alınması % 5’lik hata payının kabul edildiğini göstermektedir. Hazırlamış olduğum çalışmalar, özellikle de simülasyon çalışması % 95 üzeri ve altı güven düzeyleri için de kolaylıkla uyarlanabilme özelliğine sahiptir.

Sırası gelmişken belirtmekte fayda olduğuna inanıyorum. Güven aralığının kamuoyunda ve literatürde sık sık yanlış yorumlandığı ve adlandırıldığı görülmektedir. Diğer bir deyişle, güven aralığı (confidence interval) ile güven düzeyi (confidence level) karıştırılmaktadır. Burada güven aralığı eğer yüzde olarak ifade edilmişse bu güven düzeyini, yüzde olarak ifade edilmemişse güven aralığını ifade etmektedir. % 95 güven düzeyine sahip olmak, sonuçlarınızın herkese anket yapmış gibi neredeyse aynı olduğundan emin olduğunuz anlamına gelir.

Güven aralığını etkileyen faktörler nelerdir?

Güven aralığını etkileyen faktörler şöyle sıralanabilir.

  1. Örneklem büyüklüğü: örneklem büyüklüğü (n) artıkça elde edilen cevapların popülasyonu doğrulama olasılığı o kadar artar. Diğer bir deyişle, örneklem büyüklüğünün artması güven aralığını daraltır. Ancak bu artış lineer olmayabilir.
  2. Örneklem seçiminde kullanılan yöntem: eğer örneklem olasıklı örneklem yöntemleri kullanılmadan ya da bu yöntemler kullanılsa bile hatalı örneklem seçimi yapılmışsa güven aralıklarını etkileyebilir. Dolayısıyla popülasyon parametresi olan ortalamalar doğru bir şekilde tahmin edilmemiş olur.
  3. Güven düzeyi (% 95’ten % 99’a yükselmesi) yükseldikçe güven aralığı daralır.
  4. Örneklem ortalaması arttıkça güven aralığının genişliği aynı kalır. Dolayısıyla, örneklem ortalaması aralığın genişliğinde bir rol oynamaz.
  5. Örneklem standart sapmasının azalması varyansın azalması anlamına geldiğinden hata oranı düşer. Bu durum güven aralığının daralmasına ve daha yüksek doğruluk (accuracy) ile popülasyon ortalamasının tahmini anlamına gelmektedir.

Güven aralığından yeterince bahsettikten sonra şimdi uygulama aşamasına geçebiliriz. Uygulamada kullanılan popülasyon veri seti beden kitle endeksi (BKİ) değerlerini içeren ve 1000 (N) gözlemden oluşan sentetik veri setidir. Olasılıklı örneklem yöntemlerinden basit tekrarlı tesadüfi örnekleme yöntemiyle 7 ve 50 aralığında BKİ değerleri üretilmiştir. BKİ değerleri üretilirken Sağlık Bakanlığı resmi web sitesindeki BKİ alt ve üst referans değerlerinden yararlanılmıştır. Burada belirlenen BKİ alt ve üst limitleri şöyledir:

Parametre DeğeriKategori
8.5 kg/m2’nin altında isezayıf
18.5-24.9 kg/m2 arasında isenormal kilolu
25-29.9 kg/m2 arasında isefazla kilolu
30-34.9 kg/m2 arasında iseI.Derece obez
35-39.9 kg/m2 arasında ise II.Derece obez
40 kg/m2 üzerinde ise III.Derece morbid obez
Kaynak: https://www.sbn.gov.tr/BKindeksi.aspx

İlk olarak popülasyondan her birinin örneklem büyüklüğü 31 olan 3 farklı örneklem çekilmiştir. Çekilen örneklemler popülasyondaki ID koduyla birlikte Tablo 1’de verilmiştir.

Tablo 1: Üç Farklı Örneklem Seçimi (n=31)

ID1Örneklem1ID2Örneklem2ID3Örneklem3
2348,012418,116832,87
2231,829030,136011,73
5641,076143,588441,64
5710,668219,046832,87
9842,074120,023049,89
6312,444817,6934,97
8118,764731,98530,5
9534,552418,112527,06
5710,66679,486931,2
8219,049842,0757,76
1739,172231,821512,08
109,011739,177531,55
1931,99636,164946,61
9310,347814,761122,15
57,7657,766832,87
6931,28932,926832,87
7531,559534,558118,76
9217,959842,074027,74
8932,927814,763311,46
1739,177140,09679,48
3112,157318,228348,09
4817,61341,633918,04
57,763228,521931,9
5848,99930,762348,01
5018,955018,955216,68
649,39746,014027,74
9534,557715,451512,08
1638,021931,98118,76
6011,73657,699534,55
6629,01679,483711,01
8711,026011,731341,63

Tablo 1’deki her bir örnekleme ait tanımlayıcı istatistikler Tablo 2’de verilmiştir. Tablo 1’de verilen tanımlayıcı istatistikler (descriptive statistics) standart sapma hariç aynı zamanda Şekil 3’teki kutu diyagram üzerinde yer alan parametre değerleridir.

Tablo 2: Örneklem Grubuna Göre Tanımlayıcı İstatistikler

ParametreÖrneklem1Örneklem 2Örneklem3
Ortalama25,7825,9527,57
Standart Sapma13,6912,0912,58
Minimum Değer7,767,697,76
1. Dörtte Birlik11,7315,4516,68
2. Dörtte Birlik (Medyan)29,0128,5230,50
3. Dörtte Birlik38,0236,1634,55
Maksimum Değer49,3946,0149,89
Fark (interquartile range)26,2920,7117,87

Tablo 2’de 3. dörtte birlik ve 1. dörtte birlik arasındaki değerlerin farkı alınarak çeyrekler arası aralık (interquartile range) hesaplanmıştır. 3. dörtte birlik ve 1. dörtte birlik aralığı uç değerleri (outliers) barındırmamaktadır. Bu aralıktaki veriler dışında veriler veri setinden çıkartılarak (imputation) analize devam edilebilir. Ancak bu durumda veri kaybı olacağı unutulmamalıdır. Yukarıda her bir örnekleme ait parametre değerleri kullanılarak (standart sapma hariç) her bir örneklem grubuna ait kutu diyagrama Şekil 3’te yer verilmiştir. Şekil 3’e esas teşkil eden tanımlayıcı istatistiklerin yukarıda verilmesinin nedeni kutu diyagram üzerindeki bu istatistiklerin yerinin karşılaştırmalı olarak gösterilmek istenmesidir. Böylece kutu diyagramların okunması ve anlaşılması daha da kolaylaştırılmış olur.

Şekil 3: Örneklem Grubuna Göre Kutu Diyagramlar (Box Plots)

Şekil 3’teki kutu diyagramdan öne çıkan bulgular şöyledir;

  • Örneklem 3 diğer gruplara göre daha sola çarpıktır.
  • Örneklem 1 diğer gruplara göre daha yüksek varyansa sahip ve daha az simetriktir. Varyansın bu grupta daha yüksek olduğu yukarıda tanımlayıcı istatistikler kısmında da yer verilen standart sapma değerinin yüksek olmasından da anlaşılabilir. Zira standart sapmanın karesi de varyansı bize vermektedir.
  • Bütün örneklem gruplarında uç değerler (outliers) bulunmaktadır.

Güven aralıklarını vermeden önce popülasyona ait temel parametreleri vermekte fayda olduğu düşünülmektedir. Bu amaçla popülasyon parametre değerleri Tablo 3’te sunulmuştur.

Tablo 3: Popülasyon Parametreleri

Popülasyon ParametreleriDeğer
Ortalama (µ)28,5
Varyans148,0
Standart Sapma12,2

Örneklem gruplarına ait üretilen güven aralıkları ise Tablo 4’te verilmiştir. Tablo 4’e göre öne çıkan bulgular şöyledir:

  • Ortalamasının 27,6, ortalamanın standart hatasının (se) 2,1 olduğu örneklem3 grubu popülasyon ortalamasını en doğru tahmin eden grup olarak öne çıkmıştır. Bu grupta güven aralığı genişliği diğer gruplara göre daha dar olup “23,47 ≤ CI ≤31,67” şeklindedir. Buradan örneklem beden kitle endeksi ortalamasının % 95 olasılıkla 23,47 ile 31,67 arasında olduğunu söyleyebiliriz. Örneklem 3 grubunu ise güven aralığı genişliği (CI width) 11,1 olan örneklem2 grubu izlemiştir.

Tablo 3: Örneklem Grubuna Göre Güven Aralıkları

Örneklem ParametreleriÖrneklem1Örneklem2Örneklem3
Ortalama (m)25,825,927,6
Element Varyans (s^2)181,3141,5153,1
Standart Sapma (s)13,511,912,4
Örneklem büyüklüğünün popülasyon içindeki yüzdesi (f)3,103,103,10
Örneklem varyansı (var(x))5,854,564,94
Standart Hata (se)3,82,82,1
Alfa (a/2) değeri (güven aralığının olasılık değeri)0,0250,0250,025
Serbestlik derecesi (degrees of fredom) (n-1)-t tablosu303030
Z tablo değeri1,961,961,96
%95 Güven Aralığı Alt Limit (Lower boundary of CI)18,320,423,5
%95 Güven Aralığı Üst Limit (Upper boundary of CI33,331,531,7
Güven Aralığı Genişliği (CI Width)15,011,18,2
Güven aralığı gösterimi18,3 ≤ CI ≤33,2620,39 ≤ CI ≤31,5123,47 ≤ CI ≤31,67
 Karar
En iyi güven aralığına sahip örneklemÖrneklem 3

Tablo 3’teki güven aralıkları genişlikleri baz alınarak örneklem gruplarına göre güven aralıkları Şekil 4’te verilmiştir. Görüleceği üzere güven aralığı genişliği en dar olan örneklem grubu 8,2 ile örneklem 3 grubudur.

Şekil 4: Örneklem Gruplarına Göre Güven Aralığı Genişlikleri

Burada yapılan güven aralığı deneysel çalışmasının excel uzantılı dosyasını aşağıda linkten indirebilirsiniz.

Güven aralığının hesaplanmasına yönelik olarak hazırladığım simülasyonu ise aşağıdaki linkten indirebilirsiniz.

Yapılan bu çalışmanın özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına bir katkı sunacağı düşünülmektedir.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla…

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

https://www.sbn.gov.tr/BKindeksi.aspx

https://www.statisticshowto.com/probability-and-statistics/confidence-interval/

http://www.stat.yale.edu/Courses/1997-98/101/confint.htm

https://researchbasics.education.uconn.edu/confidence-intervals-and-levels/

https://researchbasics.education.uconn.edu/confidence-intervals-and-levels/

https://online.stat.psu.edu/statprogram/reviews/statistical-concepts/confidence-intervals

http://web.pdx.edu/~stipakb/download/PA551/boxplot.html

Field, Andy. (2009). Discovering Statistics Using SPSS. Third Edition.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s