Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak t Dağılım Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for Calculation of Confidence Interval (CI) Based on t Distribution Table Using Simple Random Sampling Method without Replacement

Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Bu çalışmada bahsedilen bu sorulara cevaplar bulunacaktır. Bu amaçla olasılıklı örneklem yöntemlerinden biri olan ön yargısız (without bias) basit tesadüfi tekrarsız örneklem yöntemi kullanılmıştır. Basit tekrarlı örneklem yöntemi ile ise rastgele beden kitle endeksi verileri üretilmiştir. Üretilen bu sentetik veriler üzerinden t dağılım tablosu kullanılarak deneysel güven aralığı çalışması hazırlanmıştır. Diğer programlama dilleri kullanılarak veya paket programlar üzerinde de bu çalışmanın yapılması her zaman mümkündür. Bunu da yapabilirdim ancak Microsoft Office Excel 2016 kullanılarak güven aralığı çalışması yapılmasının daha uygun olacağını düşündüm. Bunun nedeni excel üzerinde okuyucuya fonksiyon (formül) etkileşimleri gösterilerek konu hakkında daha fazla katkı sunulması amaçlanmasıdır. İki farklı güven aralığı çalışmasına yer verilmiştir. İlkinde güven aralığı çalışmasında elde edilen değerler sabitlenmiştir. İkincisi ise simülasyona izin verecek dinamik bir şekilde excel uzantılı dosya içerisinde sunulmuştur.Bunun nedeni seçilen örneklemlerdeki parametre ve güven aralıkları değişimlerinin karşılaştırmalı ve dinamik olarak sunulmak istenmesidir.

Güven aralığı nedir?

Maliyetlerin yüksekliği, uzun zaman alması, güncel ve derinlemesine veri elde edilmesi gibi temel öncelikler esas alınarak sıklıkla kişiler ya da kurumlar popülasyonun tamamının yerine bu popülasyonu temsil eden örneklem üzerinde araştırma yapmayı tercih ederler. Ancak seçilen örneklemin popülasyonun tamamını temsil etmesi isteniyorsa yeterli örneklem büyüklüğü (n) belirlenerek mutlaka olasılıklı örneklem yöntemlerinden biri veya birkaçı birlikte kullanılmalıdır. Popülasyonun tamamı yerine bu popülasyondan seçilen örneklem söz konusu olunca örneklem popülasyonu ne kadar temsil ediyor soruyu ortaya çıkmaktadır. Güven aralığı ise aslında tam da bize bunu söylemektedir. Güven aralığı, popülasyon ortalamasının tahmincisi olup, bize örneklem ortalamalarının popülasyon ortalamasından ne kadarlık bir sapma olduğunu göstermektedir. Güven aralığının bir alt limit (lower bound)’i ve üst limit (upper bound)’i vardır. Bu alt ve üst limitlerin olması güven aralığına adını vermektedir. Yani örneklemden elde edilen güven aralıkları popülasyon ortalamasını mutlaka içerecektir. Burada güven aralığındaki alt ve üst limitin yorumlanması önem arz etmektedir. Alt ve üst limitler arasında fark ne kadar az ise, diğer bir deyişle güven aralığı genişliği (CI Width) ne kadar dar ise örneklem ortalaması popülasyon ortalamasına o kadar yakın ve örneklem ortalamasını o kadar doğru tahmin ediyor demektir. Tersi bir durum, örneklem ortalamasının popülasyon ortalamasından uzaklaşması anlamı taşımaktadır ki, bu durum örneklemin popülasyonu kötü temsili anlamına gelmektedir.

Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır?

Genel olarak, güven aralığını hesaplamak için adım adım ele alınması gereken parametreler Şekil 1’de verilmiştir.

Şekil 1: Güven Aralığı Hesaplama Adımları

Şekil 1’de görüleceği üzere ilk olarak popülasyondan çekilen örneklemin ortalaması hesaplanır. Ortalama ise aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Eşitlik örneklem ortalamasının hesaplanmasına yönelik olduğu için “X” parametresi kullanılmıştır. Örneklem ortalaması bütün gözlem değerlerinin toplamının toplam gözlem sayısına bölünmesi ile elde edilir. Eşitlikte küçük “n” örneklem büyüklüğünü ifade etmektedir.

Eğer popülasyon ortalamasını hesaplamış olsaydık eşitlikte n yerine büyük “N” e yer verecektik. Burada N popülasyondaki gözlem sayısını ifade etmektedir. Popülasyon ortalaması (μ) ise bütün gözlem değerlerinin toplamının toplam gözlem sayısı (N)’na bölünmesi ile elde edilmekte olup, aşağıdaki eşitlik yardımıyla hesaplanır.

Örnekleme ait standart sapmanın hesaplanmasında ise aşağıdaki eşitlikten faydalanılır. Burada standart sapma ile aslında örneklem ortalamasından ne kadarlık bir sapma olduğunu gösteriyoruz. Adım adım örneklem standart sapması şöyle hesaplanır:

  1. Örneklemdeki gözlem değerlerinin ortalaması hesaplanır.
  2. Her bir gözlemin gözlem ortalamasından farkı alınır.
  3. Her bir gözleme ait hesaplanan farkın karesi hesaplanır.
  4. Her bir gözleme ait hesaplanan farkların karesi toplanır.
  5. Elde edilen fark kareleri toplamı örneklemdeki gözlem sayısının bir eksiğine bölünür.
  6. Elde edilen değerin karesi hesaplanır.

Popülasyon standart sapmasının hesaplanması ise örneklem standart sapmasına benzer olup tek fark karekök içindeki eşitliğin paydasında büyük “N” e, diğer bir deyişle popülasyondaki toplam gözlem sayısına yer verilmesidir. Yukarıda örneklem standart sapmasındaki işlemler popülasyon standart sapması için de yapılır.

Element varyansı ise örneklem standart sapmasının karesi olup, aşağıdaki eşitlik yardımıyla hesaplanmaktadır.

Eğer örneklemin popülasyon içinde yüzdesi (f=(n/N) x 100) %5’ten büyükse örneklem varyansının hesaplanması ve bunun üzerinden standart hata hesaplanması yoluna gidilmelidir. Örneklem varyansı ise aşağıdaki eşitlik yardımıyla hesaplanır.

Popülasyon varyansı ise popülasyon standart sapmasının karesinin alınması ile hesaplanır. Aşağıdaki eşitlik yardımıyla popülasyon varyansı hesaplanır.

Standart hata (se), diğer bir ifade ile ortalamanın standart hatası aşağıdaki eşitlik yardımıyla hesaplanmaktadır. Örneklemin standart sapması (s)’nın karekök içerisindeki örneklem gözlem sayısı (n)’na bölünmesi bize ortalamanın standart hatası (standard error of the mean)’nı verir. Örneklem büyüklüğünün artırılması büyük sayı yasası (law of large numbers) ve merkezi limit teoremi (central limit teorem)’ne dayalı olarak standart hatayı azaltır ve bu istenen bir durumdur. Böylece, örneklem dağılımı standart normal dağılıma (ortalaması 0, standart sapması 1) evrilir.

Güven aralığı nasıl hesaplanır?

Güven aralığının belirlenmesini sağlayan eşitliklere yer verildikten sonra sırasıyla şimdi çok yalın bir şekilde t dağılım tablosu için güven aralığı eşitliğini alt ve üst limitten başlayarak verelim. t dağılımı, ingilizce ifadeyle student’s t distribution, ingiliz istatistikçi William Sealy Gosset tarafından 1908 yılında ortaya konulmuştur. Bu çalışmada güven aralığı, ortalaması ve standart sapması bilinen bir popülasyon üzerinden hesaplanmıştır. Eşitliklerde belirtilen n-1 serbestlik derecesi (degrees of fredom)’ni belirtmekte olup, n örneklem büyüklüğü göstermektedir.

Güven aralığının alt ve üst limitini verdikten sonra bir bütün olarak güven aralığı (confidence interval) eşitliğini verelim. Eşitliğin ortasında yer verilen μ popülasyon ortalamasını göstermektedir. Daha önce de belirtildiği üzere güven aralıklarıyla aslında popülasyon ortalamasını tahmin ediyoruz.

Güven aralığının alt ve üst, diğer bir deyişle iki kuyruklu (two tailed) alfa katsayıları aşağıdaki şekil üzerinde verilmiştir. Z dağılım tablosu ortalaması 0, standart sapması 1 olan standart normal dağılımı kullanmaktadır. Standart normal dağılım eğrisi şeklinden dolayı can eğrisi (bell curve) olarak da adlandırılmaktadır. Eğrinin altında alanın toplamı 1’e eşittir. Burada belirlenen güven düzeyi % 95’tir. Bu güven düzeyi sosyal bilimler dışında özellikle sağlık bilimlerinde % 95’in üzerine çıkabilmektedir daha kesin çıkarımlar (inferences) alınmak istendiğinden . t dağılım tablosu aslında örneklem büyüklüğü artıkça z dağılım eğrisine evrilmektedir. Ancak örneklem büyüklüğü (n<31)’nün düşük olmasından dolayı t dağılım tablosunun kullanılması daha yaygın bir uygulamadır.

Aşağıda şekilde ise t dağılımının örneklem büyüklüğüne göre seyri verilmiştir. Burada örneklem büyüklüğü artıkça dağılımın standart normal dağılıma evrildiği görülmektedir.

Güven aralığı eşitliğinde görüleceği üzere güven aralığının hesaplanması için gerekli parametreler örneklemin ortalaması, standart hatası (se) ve t tablo değeridir. Burada t tablo yerine pekala Z dağılım tablo değeri de alınabilirdi. Ancak örneklem büyüklüğümüz bu çalışma kapsamında 30 ve altında (n<30) olduğu için t (student t) dağılım tablosu kullanılmıştır. Ancak isteğe bağlı olarak çalışmada 30’un üzerinde örneklem büyüklüğü (n) belirlenerek Z tablo değeri hesaplanabilir. Buna ilişkin uygulama yaptığım örnek çalışma mevcuttur. Merak edenler için çalışmanın linki aşağıdadır.

Tekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak Z Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması

Diğer taraftan, genel olarak sosyal bilimlerdeki istatistiksel analiz ve araştırmalarda güven düzeyleri % 95 olarak alındığı için bu araştırmada da bu düzey benimsenmiştir. Güven düzeyinin % 95 olarak alınması % 5’lik hata payının kabul edildiğini göstermektedir. Hazırlamış olduğum çalışmalar, özellikle de simülasyon çalışması % 95 üzeri ve altı güven düzeyleri için de kolaylıkla uyarlanabilme özelliğine sahiptir.

Sırası gelmişken belirtmekte fayda olduğuna inanıyorum. Güven aralığının kamuoyunda ve literatürde sık sık yanlış yorumlandığı ve adlandırıldığı görülmektedir. Diğer bir deyişle, güven aralığı (confidence interval) ile güven düzeyi (confidence level) karıştırılmaktadır. Burada güven aralığı eğer yüzde olarak ifade edilmişse bu güven düzeyini, yüzde olarak ifade edilmemişse güven aralığını ifade etmektedir. % 95 güven düzeyine sahip olmak, sonuçlarınızın herkese anket yapmış gibi neredeyse aynı olduğundan emin olduğunuz anlamına gelir.

Güven aralığını etkileyen faktörler nelerdir?

Güven aralığını etkileyen faktörler şöyle sıralanabilir.

  1. Örneklem büyüklüğü: örneklem büyüklüğü (n) artıkça elde edilen cevapların popülasyonu doğrulama olasılığı o kadar artar. Diğer bir deyişle, örneklem büyüklüğünün artması güven aralığını daraltır. Ancak bu artış lineer olmayabilir.
  2. Örneklem seçiminde kullanılan yöntem: eğer örneklem olasıklı örneklem yöntemleri kullanılmadan ya da bu yöntemler kullanılsa bile hatalı örneklem seçimi yapılmışsa güven aralıklarını etkileyebilir. Dolayısıyla popülasyon parametresi olan ortalamalar doğru bir şekilde tahmin edilmemiş olur.
  3. Güven düzeyi (% 95’ten % 99’a yükselmesi) yükseldikçe güven aralığı daralır.
  4. Örneklem ortalaması arttıkça güven aralığının genişliği aynı kalır. Dolayısıyla, örneklem ortalaması aralığın genişliğinde bir rol oynamaz.
  5. Örneklem standart sapmasının azalması varyansın azalması anlamına geldiğinden hata oranı düşer. Bu durum güven aralığının daralmasına ve daha yüksek doğruluk (accuracy) ile popülasyon ortalamasının tahmini anlamına gelmektedir.

Güven aralığından yeterince bahsettikten sonra şimdi uygulama aşamasına geçebiliriz. Uygulamada kullanılan popülasyon veri seti beden kitle endeksi (BKİ) değerlerini içeren ve 1000 (N) gözlemden oluşan sentetik veri setidir. Olasılıklı örneklem yöntemlerinden basit tekrarlı tesadüfi örnekleme yöntemiyle 7 ve 50 aralığında BKİ değerleri üretilmiştir. BKİ değerleri üretilirken Sağlık Bakanlığı resmi web sitesindeki BKİ alt ve üst referans değerlerinden yararlanılmıştır. Burada belirlenen BKİ alt ve üst limitleri şöyledir:

Parametre DeğeriKategori
8.5 kg/m2’nin altında isezayıf
18.5-24.9 kg/m2 arasında isenormal kilolu
25-29.9 kg/m2 arasında isefazla kilolu
30-34.9 kg/m2 arasında iseI.Derece obez
35-39.9 kg/m2 arasında ise II.Derece obez
40 kg/m2 üzerinde ise III.Derece morbid obez
Kaynak: https://www.sbn.gov.tr/BKindeksi.aspx

İlk olarak popülasyondan tekrarsız basit tesadüfi örneklem yöntemi kullanarak her birinin örneklem büyüklüğü sırasıyla 35, 31 ve 34 olan 3 farklı örneklem çekilmiştir. Çekilen örneklemler popülasyondaki ID koduyla birlikte Tablo 1’de verilmiştir.

Tablo 1: Üç Farklı Örneklem Seçimi

Örneklem1
ID
BKİÖrneklem2
ID
BKİÖrneklem3
ID
BKİ
2342,1640,9249,7
335,91235,717,2
2215,82342,1258,0
1448,7427,01938,3
640,92743,92743,9
522,0716,2227,0
1646,617,2427,0
219,52918,3846,7
2027,7335,92027,7
1546,21750,0335,9
1030,61646,62627,9
1938,33046,8936,7
1750,02215,81750,0
17,2936,71646,6
1326,12627,9219,5
936,71546,21546,2
1824,1846,7640,9
846,71824,11824,1
1235,72027,72342,1
427,01448,7522,0
249,71122,11235,7
716,2522,01326,1
227,0219,51448,7
1122,1249,7716,2

Güven aralıklarını vermeden önce popülasyona ait temel parametreleri vermenin fayda olduğu düşünülmektedir. Bu amaçla popülasyon parametre değerleri Tablo 2’te sunulmuştur.

Tablo 2: Popülasyon Parametreleri

Popülasyon ParametreleriDeğer
Ortalama (µ)28,6
Varyans153,0
Standart Sapma12,4
N1000

Örneklem gruplarına ait üretilen güven aralıkları ise Tablo 3’te verilmiştir. Tablo 3’e göre öne çıkan bulgular şöyledir:

  • Ortalamasının 30,1, ortalamanın standart hatasının (se) 2,2 olduğu örneklem 2 grubu popülasyon ortalamasını en doğru tahmin eden grup olarak öne çıkmıştır. Bu grupta güven aralığı genişliği (8,9) diğer gruplara göre daha dar olup güven aralığı (CI) 25,62 ≤ µ ≤34,51 şeklindedir. Buradan örneklem 2 beden kitle endeksi ortalamasının % 95 olasılıkla veya güven düzeyinde 25,62 ile 34,51 arasında olduğunu söyleyebiliriz. Örneklem 2 grubunu ise güven aralığı genişliği (CI width) 10,2 olan örneklem 3 grubu izlemiştir.

Tablo 3: Örneklem Grubuna Göre Güven Aralıkları

Tablo 3’teki güven aralıkları genişlikleri baz alınarak örneklem gruplarına göre güven aralıkları Şekil 2’te verilmiştir. Görüleceği üzere güven aralığı genişliği en dar olan örneklem grubu 8,89 ile örneklem 2 grubudur. Buradan şöyle bir yorum yapabiliriz: örneklem büyüklüğü (n)’nün artması varyansın azalmasına, varyansın azalması ise standart hata (se)’nın düşmesini sağlar. Buna bağlı olarak güven aralığı (CI width) daralır ve daha keskin (precision) ve daha doğru (accuracy) bir güven aralığı elde edilmiş olur.

Şekil 2: Örneklem Gruplarına Göre Güven Aralığı Genişlikleri

Burada t (student’s t) dağılım tablosu üzerinden yapılan güven aralığı deneysel çalışmasının excel uzantılı dosyasını aşağıda linkten indirebilirsiniz.

t dağılım tablosu üzerinden güven aralığının hesaplanmasına yönelik olarak hazırladığım simülasyonu ise aşağıdaki linkten indirebilirsiniz. Simülasyon çalışmasında bazı sayfalardaki formüller şifre ile korunmuştur. Değişiklik yapılması istenmesi durumundan sayfa korumasının kaldırılması için şifre olarak “tevfik” girilmesi yeterlidir. Özellikle bu simülasyon çalışmasının sahada ve akademide faaliyet gösteren çalışanlara çok faydalı olacağı düşünülmektedir. Bu çalışmanın içerisinde örneklem seçiminden örneklem büyüklüğünün belirlenmesine kadar pek çok konu mevcuttur.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Note: It can not be cited or copied without referencing.

Yararlanılan Kaynaklar

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s