Koronavirüs Pandemisinde Vaka Sayılarının Tahmini Üzerine Bir Çalışma: A Study on Forecasting the Number of Cases in Coronavirus Pandemic

Giriş

Coronavirüsler (CoV), soğuk algınlığından Orta Doğu Solunum Sendromu (MERS-CoV) ve Şiddetli Akut Solunum Sendromu (SARS-CoV) gibi daha ciddi hastalıklara kadar pek çok hastalığa neden olan büyük bir virüs ailesidir. Bu yeni virüse, yüzey çıkıntıları taç görünümünde olduğu için coronavirus adı verilmiş olup, bu virüs ailesi tek zincirli, pozitif polariteli, zarflı RNA virüsleridir.

Koronavirüs hastalığı (COVID-19), 2019 yılında keşfedilen ve daha önce insanlarda tanımlanmamış yeni bir suştur. Suş, bir bakteri veya virüsün farklı alt türlerinin, aralarında genetik farklılıklar bulunan grupları olarak adlandırılır.

Koronavirüsler zoonotiktir, yani hayvanlar ve insanlar arasında bulaşırlar. Ayrıntılı araştırmalar SARS-CoV’nin misk kedilerinden insanlara ve MERS-CoV’un tek hörgüçlü develerden insanlara bulaştığını göstermiştir. Bilinen birkaç koronavirüs henüz insanları enfekte etmeyen hayvanlarla taşınmaktadır.

Enfeksiyon belirtileri arasında solunum semptomları, ateş, öksürük, nefes darlığı ve solunum güçlüğü bulunur. Daha ciddi vakalarda, enfeksiyon pnömoniye, ciddi akut solunum sendromuna, böbrek yetmezliğine ve hatta ölüme neden olabilir. Solunum sistemi hastalıklarından biri olan pnömoni ya da halk arasında zatürre bakteriler başta olmak üzere mikroorganizmalara bağlı olarak ortaya çıkan akciğer dokusunun iltihaplanmasıdır. Grip gibi bu hastalık da bağışıklık (immun) sistemini baskılayan hastalıklardan biridir. Özellikle ileri yaşlardaki bireylerde hem bağışıklık sisteminin yaşla birlikte yavaşlaması hem de yaşa ve/veya diğer nedenlere bağlı olarak kronik ve diğer hastalıkların görülmesi bu yaşlardaki bireylerde ölüm oranlarını artırabilmektedir. Diğer bir deyişle, bu enfeksiyon komplikasyon yaratarak ve mevcut diğer hastalıkları tetikleyerek bu yaş gruplarında diğer yaş gruplarına göre daha öldürücü olabilir.

Enfeksiyonun yayılmasını önlemek için standart öneriler arasında düzenli el yıkama, öksürme ve hapşırma sırasında ağız ve burnun kapatılması, et ve yumurtaların iyice pişirilmesi yer alır. Öksürme ve hapşırma gibi solunum yolu rahatsızlığı belirtileri gösteren kişilerle yakın temastan kaçınmak bu hastalıktan korunmak için atılacak önemli koruyucu tedbirlerden biridir. Koronavirüsün belirtileri ve koronavirüs hakkında daha fazlasını Dünya Sağlık Örgütü (WHO) tarafından hazırlanmış aşağıdaki videoda bulabilirsiniz.

Kaynak: Dünya Sağlık Örgütü (WHO)

Ayrıca koronavirüsün insan vücuduna nasıl saldırdığına ilişkin üç boyutlu (3D) bir animasyon da video olarak aşağıda paylaşılmıştır. Burada videolar paylaşılmasının nedeni konunun içerisine görsel ve işitsel hafızayı da katarak koronavirüse derinlemesine dikkat çekmektir.

Kaynak: http://coronavirus.scientificanimations.com/

Koronavirüs salgını Çin ile birlikte diğer ülkelere de yayıldığı için Dünya Sağlık Örgütü tarafından 30/01/2020 tarihinde uluslararası halk sağlığı açısından acil durum ilan edilmiştir. Bu hastalıktan bahsedilerken lise ve üniversite yıllarımda benim de ders olarak aldığım Epidemiyoloji biliminden bahsetmemek olmaz. Epidemiyoloji, toplumda sağlıkla ilgili durumların veya olayların (hastalık dahil) dağılımını, görülme sıklıklarını ve bunları etkileyen faktörleri inceleyen bir tıp bilimi dalıdır.

Epidemiyolojik araştırmalar yapmak için çeşitli yöntemler kullanılabilir. Bu yöntemler dağılımı incelemek için sürveyans, tanımlayıcı çalışmalar ve hastalık belirleyicilerini incelemek için analitik çalışmalar olabilir. Bilindiği üzere Koronavirüs hastalığı artık pandemik bir vaka olarak adlandırılmaktadır. Epidemiyolojinin konu alanına giren pandemi dünyada birden fazla ülkede veya kıtada, çok geniş bir alanda
yayılan ve etkisini gösteren salgın hastalıklara verilen genel isim
olarak ifade edilmektedir. Diğer bir deyişle, salgın (epidemi) durumundaki bir hastalığın ülke sınırlarını aşarak diğer ülkelere yayılım göstermesidir.

Çalışma kapsamında ilk olarak koronavirüs pandemi vakalarının keşifsel analizi analizi yapılarak vakaların genel seyrini ortaya koyulması amaçlanmıştır. Ardından elde edilen vaka sayıları dikkate alınarak geleceğe yönelik bir tahmin (forecast) yapılması öngörülmüştür. Bu amaçla açık kaynak veri paylaşım platformu olan “The Humanitarian Data Exchange (HDX)” adlı platforma ait https://data.humdata.org/ web adresinden 19.03.2020 tarihinde alınan verilerle keşifsel veri analizi (EDA) ve geleceğe yönelik başlangıç niteliğinde kısa vadeli bir tahmin (forecast) çalışması yapılmıştır. Analizlerde R programlama dili kullanılmıştır. Şeffaflık olması ve öğretici olması adına bugüne kadar olduğu gibi bu çalışmada da R kod blokları paylaşılmıştır.

Elbette çalışmanın geleceğe yönelik (forecast) tahminleme yaparken başlıca kısıtları mevcuttur. Bunları analize başlamadan önce dile getirmenin fayda olduğu düşünülmektedir. Bu kısıtlar şöyledir:

  1. El hijyeni (el yıkama alışkanlıkları), kültürel kodlar ve dini inançlar (abdest alma gibi), salgının yayılmasını azalttığı bilinmektedir. Ancak bu bahsedilen nitel bağımsız faktörlere ait ölçülebilir veri olmadığından tahminleme (forecasting) kısmına dahil edilememiştir.
  2. Hava olaylarının virütük enfeksiyonlar üzerinde önemli bir etkisi vardır. Özellikle soğuk hava koşullarında bu tür enfeksiyonların insidansı ve prevelansının yüksek olduğu bilinmektedir. Geleceği yönelik sıcaklık, nem gibi günlük hava tahmin değerleri tahminleme kısmında yer almamaktadır.
  3. Yaş faktörü ve yaş grupları gibi demografik değişkenlerin koronavirüs hastalığının prevelansı açısından önemli rol oynağı bilinmektedir. Dünya Örgütüne göre ciddi hastalık riski yaşla birlikte artmaktadır; 40 yaşın üzerindeki bireyler 40 yaşın altındakilere göre daha yüksek bir risk grubundadır.
  4. Bağışıklık sisteminin zayıflığına bağlı olarak ileri yaş grubundaki bireylerin bu hastalıktan daha olumsuz etkilenmektedir. Ancak gerek Dünya Sağlık Örgütü (WHO) gerekse diğer resmi sağlık kuruluşlarında bu hastalıktan etkilenenlerin yaşı bilinmemektedir.
  5. Türkiye verisi için gün bazlı gözlem sayısı analiz yapılabilmesi için nispeten azdır. Literatürde öngörülen minimum vaka sayısı özellikle parametrik nitelikli analizler için 25 ve üzeri olması arzu edilmektedir. Ancak koronavirüse ait diğer ülke verileri ve gözlem sayıları analiz yapılması ve vakaların trendi hakkında iyi bir bilgi verdiğinden çok sorun olmayacağı düşünülmektedir.

Yukarıda bahsedilen bu kısıtlar tahminleme kısmında bir dezavantaj gibi gözükse de mevcut durumdaki vaka sayılarına yansımıştır. Tahminleme kısmında temel olarak yapılan şey, mevcut tarih ve vaka sayıları değişkenleri üzerinden öngörü yapılmasıdır. Burada, daha sonra vaka sayılarından yararlanarak epidemiyolojik hızlar oluşturulacak ve tahmin modeline dahil edilmesi öngörülmektedir. Bu nedenle, çalışmada kullanılacak hızları açıklamanın faydalı olacağı düşünülmektedir.

Epidemiyoloji biliminde hız kavramı, bir sağlık olayının nüfus içindeki görülme frekansını hesaplamada kullanılan bir ölçüttür. Hızlar, belirli bir zaman diliminde meydana gelen olayların sayısının olayın meydana geldiği nüfusa bölünerek hesaplanır. Eşitliğin payı, sağlık olayı ile karşılaşanların sayısını (X), payda ise risk altındaki nüfusu (X+Y) göstermektedir. Risk altındaki nüfus hastalığa veya sağlık olaylarına karşı duyarlı olan nüfusu ifade etmektedir. Formülize edilirse;

Hız (Rate) = (X / X +Y) * k

k katsayıyı göstermektedir.

Analizde hızlardan girdi değişkeni olarak kullanılması düşünülen ilk gösterge ölüm veya mortalite ölçütlerinden biri olan Kaba Ölüm Hızı‘dır. Bu hız nüfusun sağlık düzeyini ortaya koymada duyarlı olmasa da bir fikir vermesi açısından önemlidir. Kaba ölüm hızı aşağıdaki eşitlikte gösterilmiştir.

Kaba Ölüm Hızı (Crude Death Rate) = (Bir toplumda belirli bir süre içinde meydana gelen ölüm sayısı / Aynı toplumun aynı süredeki
(yıl ortası) nüfusu) * 1000

Girdi değişkeni olarak kullanılması düşünülen ikinci gösterge ölüm veya fatalite ölçütlerinden biri olan Fatalize Hızı‘dır. Bu gösterge kaba ölüm hızına göre daha duyarlıdır. Diğer bir ifadeyle, hastalığa yakalananların ne kadarının öldüğünü gösterir. Fatalite ise hızı ise şöyledir;

Fatalite Hızı (Fatality Rate) = (Nüfusta belirli bir süre içinde “X” hastalığından ölenlerin sayısı / Aynı nüfusun aynı süre içinde “X” hastalığına yakalananların sayısı) * 100

Morbitide veya hastalık hızları gelişmekte olan hastalığın ortaya çıkma hızını ortaya koymak için kullanılır. Bunlardan biri olan insidans,
bir hastalığın gelişme olasılığını ortaya koymak için kullanılır. Diğer taraftan, bu hızlardan prevelans ise hastalığın görülme sıklığını gösteren bir hızdır. İnsidans ve prevelans da analizde girdi değişkenleri olarak kullanılması düşünülmektedir. İnsidans aşağıdaki eşitlik yardımıyla hesaplanmaktadır.

İnsidans (Incidence) = (Bir nüfusta belirli bir sürede saptanan YENİ vaka sayısı / Aynı toplumun yıl ortası nüfusu) * k

İnsidans hızının kümülatif şekli ise atak hızlarını göstermektedir.

Prevelans ise aşağıdaki eşitlik yardımıyla hesaplanmaktadır.

Prevelans (Prevalence) = (Belirli bir sürede toplam (eski+yeni) vaka sayısı / Risk altındaki kişi sayısı) * k

Tanımlayıcı İstatistikler

Bu kısımda yukarıda bahsedilen epidemiyolojik hızların uygulama sonuçlarına yer verilecektir. Tablolarda sunulmuş ham veriler Türkiye İstatistik Kurumu (TÜİK)’dan ve Dünya Sağlık Örgütü (DSÖ) raporlarından ve Sağlık Bakanlığı basın açıklamalarından elde edilerek tarafımdan analiz edilmiştir. İlk olarak günlük vaka sayıları ile ölen kişi sayıları Tablo 1’de verilmiştir. Tablodaki başlıkların ve değişkenlerin ingilizce verilmesinin nedeni kaynak belirtmek koşuluyla yararlanmak isteyen herkese açık olmasıdır. Tablo 1’e göre öne çıkan bulgular şöyledir:

  • Toplam vaka sayısı 2433’e ulaştığı 25.03.2020 tarihinde görülen yeni vaka sayısı 561 olup, bu sayı Türkiye’de salgının başlağı günden bugüne kadar en yüksek vaka sayısıdır.
  • Kümülatif vaka sayısından kümülatif ölen kişi sayısı çıkarılmasından sonra kalan toplam aktif vaka sayısı 2220’dir.
  • Salgından ölen toplam kişi sayısı 59 olup, en çok ölümün yaşandığı gün 25.03.2020 tarihidir.

Tablo 1. 25 Mart 2020 Tarihi İtibariyle Koronavirüs Vaka Sayıları / Number of Coronavirus Cases As of March 25, 2020

Epidemiyolojik hızları gösteren bulgular ise Tablo 2’de sunulmuştur. Tablo 2’ye göre öne çıkan bulgular şöyledir:

  • Sağlık düzeyini belirlemede duyarlı bir gösterge olmasa da fikir vermesi açısından kaba ölüm hızı hesaplanmıştır. Buna göre kaba ölüm hızı en yüksek seviyesine ulaştığı 25.3.2020 tarihinde milyonda 0,18’dir. Katsayı 1000 yerine milyon alınmasının nedeni ortaya konulan bulgunun çok küçük değer almasından kaynaklanmaktadır. Toplam vaka sayına göre kaba ölüm hızı ise milyonda yaklaşık 1’tir.
  • 60 ve üzeri yaş üzerindekiler yüksek risk grubuna girdiği için ve genellikle açıklanan ölüm sayıları bu yaş gruba ait olduğu için varsayımsal olarak bu yaş gruba özel kaba ölüm hızı da hesaplanmıştır. Bu yaş grubunda hesaplanan kaba ölüm hızı 25.3.2020 tarihinde milyonda yaklaşık 1,4’tür. Toplam vaka sayına göre bu yaş grubuna özel kaba ölüm hızı ise milyonda 5,3’tür.
  • Fatalize hızının en yüksek olduğu tarih binde yaklaşık 43 ile 21.3.2020 tarihidir. Toplam vaka sayılarına göre fatalize hızı ise binde yaklaşık 24’tür.

Tablo 2. 25 Mart 2020 Tarihi İtibariyle Koronavirüs Vakalarının Epidemiyolojik Hızları / Epidemiological Rates of Coronavirus Cases As of March 25, 2020, Turkey

Gelecek koronavirüs vaka sayılarının tahmininde TBATS yöntemi kullanılmıştır. Bu tahmin yöntemi, De Livera, Hyndman ve Snyder (2011) tarafından geliştirilen alternatif bir yöntemdir. Yöntem, trigonometrik mevsimsellik, Box-Cox dönüşümü, ARMA hataları, Trend ve Mevsimsellik bileşenlerinden oluşur. Bu bileşenlerin ingilizce baş harfleri bir araya gelerek kısaca TBATS yöntemini oluşturur.

Şimdi dilerseniz adım adım uygulamaya geçerek “The Humanitarian Data Exchange (HDX)” adlı web sitesinden csv (Comma seperated value) uzantılı olarak indirilen onaylanmış vaka sayıları veri setini tanıyalım.

Çalışma kapsamında vaka sayısı tahmini yapılacak ülkeler İtalya ve Türkiye olacaktır. Bu amaçla onaylanmış koronavirüs vaka verileri kullanılarak 19.03.2020 tarihinden 09.04.2020 tarihine kadar (bu tarih dahil) 21 günlük bir tahmin ortaya konulacaktır. Ancak Türkiye veri setine 21.03.2020 tarihli açıklanan onaylanmış vaka sayıları da dahil edildiğinden 22.03.2020 tarihinden 11.04.2020 tarihine kadar bir tahmin yapılması öngörülmüştür.

Uygulama ve Sonuçlar: Keşifsel Veri Analizi

Yüklenecek R kütüphaneleri (R Kod Bloğu)

sapply(c("dplyr","tibble","tidyr","ggplot2","formattable","ggthemes","hrbrthemes","forecast","xts","zoo","stringr","lubridate","readxl","xlsx"), require, character.only = TRUE)

Veri setinin yüklenmesi (R Kod Bloğu)

data <- read_csv("time_series-ncov-Confirmed.csv",  col_types = cols(Lat = col_double(), Long = col_double(), 
        Value = col_double()))

Veri setindeki değişkenler ve değişkenlerin veri türü (R Kod Bloğu)

Bu kısımda veri setindeki 1. sütun ve 1. satır çıkarılmıştır. Daha sonra tibble esnek veri tablosuna alındıktan sonra değişkenlerin türü ve vaka sayısı incelenmiştir. Veri seti toplam 27144 gözlem ve 5 değişkenden oluşmaktadır.

df<-as_tibble(data[-1,-1])

df<-tibble(Country=df$`Country/Region`, Date=as.Date(df$Date), Value=df$Value, Lat=df$Lat, Long=df$Long)

str(df)

Veri setindeki değişkenler ve değişkenlerin veri türü (Sonuç)

Classes ‘tbl_df’, ‘tbl’ and 'data.frame':	27144 obs. of  5 variables:
 $ Country: chr  "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
 $ Date   : Date, format: "2020-03-19" "2020-03-18" ...
 $ Value  : num  22 22 22 21 16 11 7 7 7 5 ...
 $ Lat    : num  33 33 33 33 33 33 33 33 33 33 ...
 $ Long   : num  65 65 65 65 65 65 65 65 65 65 ...

Veri setindeki ülkeler (R Kod Bloğu)

unique(df$Country)

Veri setindeki ülkeler (Sonuç)

Veri setinde koronavirüs salgınının yaşandığı 155 ülke bulunmaktadır.

 [1] "Afghanistan"                      "Albania"                         
  [3] "Algeria"                          "Andorra"                         
  [5] "Antigua and Barbuda"              "Argentina"                       
  [7] "Armenia"                          "Australia"                       
  [9] "Austria"                          "Azerbaijan"                      
 [11] "Bahamas, The"                     "Bahrain"                         
 [13] "Bangladesh"                       "Barbados"                        
 [15] "Belarus"                          "Belgium"                         
 [17] "Benin"                            "Bhutan"                          
 [19] "Bolivia"                          "Bosnia and Herzegovina"          
 [21] "Brazil"                           "Brunei"                          
 [23] "Bulgaria"                         "Burkina Faso"                    
 [25] "Cambodia"                         "Cameroon"                        
 [27] "Canada"                           "Central African Republic"        
 [29] "Chad"                             "Chile"                           
 [31] "China"                            "Colombia"                        
 [33] "Congo (Brazzaville)"              "Congo (Kinshasa)"                
 [35] "Costa Rica"                       "Cote d'Ivoire"                   
 [37] "Croatia"                          "Cruise Ship"                     
 [39] "Cuba"                             "Cyprus"                          
 [41] "Czechia"                          "Denmark"                         
 [43] "Djibouti"                         "Dominican Republic"              
 [45] "Ecuador"                          "Egypt"                           
 [47] "El Salvador"                      "Equatorial Guinea"               
 [49] "Estonia"                          "Eswatini"                        
 [51] "Ethiopia"                         "Fiji"                            
 [53] "Finland"                          "France"                          
 [55] "Gabon"                            "Gambia, The"                     
 [57] "Georgia"                          "Germany"                         
 [59] "Ghana"                            "Greece"                          
 [61] "Guatemala"                        "Guinea"                          
 [63] "Guyana"                           "Holy See"                        
 [65] "Honduras"                         "Hungary"                         
 [67] "Iceland"                          "India"                           
 [69] "Indonesia"                        "Iran"                            
 [71] "Iraq"                             "Ireland"                         
 [73] "Israel"                           "Italy"                           
 [75] "Jamaica"                          "Japan"                           
 [77] "Jordan"                           "Kazakhstan"                      
 [79] "Kenya"                            "Korea, South"                    
 [81] "Kosovo"                           "Kuwait"                          
 [83] "Kyrgyzstan"                       "Latvia"                          
 [85] "Lebanon"                          "Liberia"                         
 [87] "Liechtenstein"                    "Lithuania"                       
 [89] "Luxembourg"                       "Malaysia"                        
 [91] "Maldives"                         "Malta"                           
 [93] "Martinique"                       "Mauritania"                      
 [95] "Mauritius"                        "Mexico"                          
 [97] "Moldova"                          "Monaco"                          
 [99] "Mongolia"                         "Montenegro"                      
[101] "Morocco"                          "Namibia"                         
[103] "Nepal"                            "Netherlands"                     
[105] "New Zealand"                      "Nicaragua"                       
[107] "Nigeria"                          "North Macedonia"                 
[109] "Norway"                           "Oman"                            
[111] "Pakistan"                         "Panama"                          
[113] "Paraguay"                         "Peru"                            
[115] "Philippines"                      "Poland"                          
[117] "Portugal"                         "Qatar"                           
[119] "Romania"                          "Russia"                          
[121] "Rwanda"                           "Saint Lucia"                     
[123] "Saint Vincent and the Grenadines" "San Marino"                      
[125] "Saudi Arabia"                     "Senegal"                         
[127] "Serbia"                           "Seychelles"                      
[129] "Singapore"                        "Slovakia"                        
[131] "Slovenia"                         "Somalia"                         
[133] "South Africa"                     "Spain"                           
[135] "Sri Lanka"                        "Sudan"                           
[137] "Suriname"                         "Sweden"                          
[139] "Switzerland"                      "Taiwan*"                         
[141] "Tanzania"                         "Thailand"                        
[143] "Togo"                             "Trinidad and Tobago"             
[145] "Tunisia"                          "Turkey"                          
[147] "Ukraine"                          "United Arab Emirates"            
[149] "United Kingdom"                   "Uruguay"                         
[151] "US"                               "Uzbekistan"                      
[153] "Venezuela"                        "Vietnam"                         
[155] "Zambia"                          

Dünyadaki Koronavirüs Salgın Verisinin Keşifsel Analizi (R Kod Bloğu)

world<-df%>%filter(Value>0)

world %>% ggplot(aes(Value)) + stat_ecdf(geom = "point")+
            labs(title="Dünyadaki Koronavirüs Pandemi Vakalarının Deneysel Kümülatif Dağılım Fonksiyonu (ECDF)")+
            xlab("Vaka Sayısı") + ylab("Kümülatif Olasılık")+
            labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")+
            theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))

#Tarihe Göre Vaka Sayıları ve Gözlem Sayısı
world %>% group_by(Date) %>% summarise(Sum = sum(Value), n = n())

Dünyadaki Koronavirüs Salgın Verisinin Keşifsel Analizi (Sonuç)

Dünyadaki benzersiz gün bazlı gözlem sayısı 58, toplam onaylanmış vaka sayısı ise 242708’dir.

Çindeki Koronavirüs Salgın Verisinin Keşifsel Analizi (R Kod Bloğu)

china<-df%>%filter(Value>0)

#Koronavirüs Pandemi Vakalarının Deneysel Kümülatif Dağılım Fonksiyonu
china %>% ggplot(aes(Value)) + stat_ecdf(geom = "point")+
            labs(title="Çindeki Vakaların Deneysel Kümülatif Dağılım Fonksiyonu (ECDF)")+
            xlab("Vaka Sayısı") + ylab("Kümülatif Olasılık")+
            labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")+
            theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))

#Tarihe Göre Vaka Sayıları ve Gözlem Sayısı
china %>% group_by(Date) %>% summarise(Sum = sum(Value), n = n())

Çindeki Koronavirüs Salgın Verisinin Keşifsel Analizi (Sonuç)

Çin’deki benzersiz gün bazlı gözlem sayısı 58, toplam onaylanmış vaka sayısı ise 81156’dır.

Güney Kore Verisinin Keşifsel Analizi (R Kod Bloğu)

gkore<-df%>%filter(str_detect(Country, "Korea, South"), Value>0)

#Koronavirüs Pandemi Vakalarının Deneysel Kümülatif Dağılım Fonksiyonu (ECDF)
gkore %>% ggplot(aes(Value)) + stat_ecdf(geom = "point")+
            labs(title="Güney Koredeki Vakaların Deneysel Kümülatif Dağılım Fonksiyonu (ECDF)")+
            xlab("Vaka Sayısı") + ylab("Kümülatif Olasılık")+
            labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")+
  theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))

#Tarihe Göre Vaka Sayıları ve Gözlem Sayısı
gkore %>% summarise(Sum = sum(Value), n = n())

Güney Kore Verisinin Keşifsel Analizi (Sonuç)

Güney Korede benzersiz gün bazlı gözlem sayısı 58, toplam onaylanmış vaka sayısı ise 8565’tir.

İtalya Verisinin Keşifsel Analizi (R Kod Bloğu)

italy<-df%>%filter(str_detect(Country, "Korea, South"), Value>0)

#Koronavirüs Pandemi Vakalarının Deneysel Kümülatif Dağılım Fonksiyonu (ECDF)
italy %>% ggplot(aes(Value)) + stat_ecdf(geom = "point")+
            labs(title="İtalyadaki Vakaların Deneysel Kümülatif Dağılım Fonksiyonu (ECDF)")+
            xlab("Vaka Sayısı") + ylab("Kümülatif Olasılık")+
            labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")+
  theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))

İtalya Verisinin Keşifsel Analizi (Sonuç)

Türkiye Verisinin Keşifsel Analizi (R Kod Bloğu)

turkey<-df %>%filter(str_detect(Country, "Turkey"), Value>0)
value<-sort(as.vector(turkey$Value))
valueadd<-c(359, 670)
case<-combine(value, valueadd)
date<-sort(seq(from = as.Date("2020-03-11"), to = as.Date("2020-03-21"), by = 1))
turkey1<-tibble(Date=date,Value=case)

#Koronavirüs Pandemi Vakalarının Deneysel Kümülatif Dağılım Fonksiyonu (ECDF)
turkey1 %>% ggplot(aes(Value)) + stat_ecdf(geom = "line", color="red", size=1)+
           labs(title="Türkiyedeki Vakaların Deneysel Kümülatif Dağılım Fonksiyonu (ECDF)")+
           xlab("Vaka Sayısı") + ylab("Kümülatif Olasılık")+
           theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))+
           labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")

Türkiye Verisinin Keşifsel Analizi (Sonuç)

Türkiye’deki benzersiz gün bazlı gözlem sayısı 11, toplam onaylanmış vaka sayısı ise 670’dir.

Uygulama ve Sonuçlar: Tahmin

Bu kısımda mevcut verilerden hareketle ilk olarak İtalya verisinden hareket ederek 20.03.2020 tarihinden başlayarak 09.04.2020 tarihine kadar (bu tarih dahil) vaka sayıları tahmin edilecektir. Ancak Türkiye veri setine 21.03.2020 tarihli açıklanan onaylanmış vaka sayıları da dahil edildiğinden 22.03.2020 tarihinden 11.04.2020 tarihine kadar bir tahmin yapılması öngörülmüştür.

İtalya Verisinden 21 Günlük Tahmin (R Kod Bloğu)

italy1<-italy %>% group_by(Date) %>% summarise(Sum = sum(Value), n = n())
y10<-italy1$Date

set<-ts(as.vector(italy1[,2]), as.vector(y10))

italyset<- msts(set,seasonal.periods=c(7,365.25))

model <- tbats(italyset)
sonuc<-forecast(model,h=21)

#Nokta Tahminlerin Grafiği
today1 <- seq(from = as.Date("2020-03-20"), to = as.Date("2020-04-09"), by = 1)
today2<-as.Date(today1, format = "%d - %m - %Y")
today3<-as_tibble(sonuc)
tbats<-cbind(Tarih=today2,today3)

tbats %>% ggplot(aes(x=Tarih, y=format(`Point Forecast`, scientific=F)))+
          geom_point(size=2, color="red")+
          ggtitle("Tahmini Vaka Sayıları:İtalya") +
          xlab("Tarih") + ylab("Tahmini Vaka Sayıları")+
          labs(caption = "Source: Tevfik Bulut")+
          scale_x_date(date_labels = "%Y %b %d")+
              labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")+
          theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))

#% 95 güven aralıklı tahminler
tbats %>% ggplot(aes(x=Tarih, y=`Point Forecast`))+
          geom_line(size=1, color="red")+
          ggtitle("% 95 Güven Aralıklı Tahmini Vaka Sayıları:İtalya") +
           xlab("Tarih") + ylab("Tahmin Değeri")+
           scale_x_date(date_labels = "%Y %b %d")+
           geom_line(aes(y = `Lo 95`, color = "darkred", linetype = "dotted"))+
           geom_line(aes(y = `Hi 95`, color="steelblue", linetype="twodash"))+
           labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")+
          theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))

İtalya Verisinden 21 Günlük Nokta Tahminler (Sonuç)

İtalya Verisinden 21 Günlük % 95 Güven Aralıklı Tahminler (Sonuç)

Aşağıdaki şekilde ortadaki kırmızı eğri nokta tahminleri, onun üstündeki % 95 güven aralığı üst sınırını, kırmızı eğrinin altında kalan eğrisi ise % 95 güven aralığı alt sınırını göstermektedir. Diğer bir deyişle, burada % 5 hata payıyla tahminler ortaya konulmuştur.

İtalya Verisi 21 Günlük Tahmin Tablosu

Türkiye Verisinden 21 Günlük Tahmin (R Kod Bloğu)

turkey1<-turkey1%>% group_by(Date) %>% summarise(Sum = sum(Value), n = n())

y10<-turkey1$Date

#tail(y10)

set<-ts(as.vector(turkey1[,2]), as.vector(y10))

turkeyset<- msts(set,seasonal.periods=c(7,365.25))

model <- tbats(turkeyset)
sonuc<-forecast(model,h=21)

today1 <- seq(from = as.Date("2020-03-22"), to = as.Date("2020-04-11"), by = 1)
today2<-as.Date(today1, format = "%d - %m - %Y")
today3<-as_tibble(sonuc)
tbats<-cbind(Tarih=today2,today3)
tbats<-as_tibble (tbats)
tbats<-tbats %>% mutate_if(is.numeric, round, 0)

formattable(tbats[, -c(3:4)], list(Point = color_bar("lightgray", proportion)))

#Nokta Tahminlerin Grafiği
tbats %>% ggplot(aes(x=Tarih, y=format(`Point Forecast`, scientific=F)))+
          geom_point(size=2, color="red")+
          ggtitle("Tahmini Vaka Sayıları:Türkiye") +
          xlab("Tarih") + ylab("Tahmini Vaka Sayısı")+
          labs(caption = "Source: Tevfik Bulut")+
          scale_x_date(date_labels = "%Y %b %d")+
              labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")+
          theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))

#% 95 güven aralıklı tahminler
tbats %>% ggplot(aes(x=Tarih, y=`Point Forecast`))+
          geom_line(size=1, color="red")+
          ggtitle(" % 95 Güven Aralıklı Tahmini Vaka Sayıları: Türkiye") +
          xlab("Tarih") + ylab("Tahmini Vaka Sayısı")+
          scale_x_date(date_labels = "%Y %b %d")+
          geom_line(aes(y = `Lo 95`, color = "darkred", linetype = "dotted"))+
          geom_line(aes(y = `Hi 95`, color="steelblue", linetype="twodash"))+
          labs(caption = "Analyzed by Tevfik Bulut, Data Source:https://data.humdata.org, 2020-03-19")+
          theme(plot.caption = element_text(color = "blue", face="italic", hjust=0.5))

Türkiye Verisinden 21 Günlük Nokta Tahminler (Sonuç)

Türkiye Verisinden 21 Günlük % 95 Güven Aralıklı Tahminler (Sonuç)

Aşağıdaki şekilde ortadaki kırmızı eğri nokta tahminleri, onun üstündeki % 95 güven aralığı üst sınırını, kırmızı eğrinin altında kalan eğrisi ise % 95 güven aralığı alt sınırını göstermektedir. Diğer bir deyişle, burada % 5 hata payıyla tahminler ortaya konulmuştur.

Türkiye Verisi 21 Günlük Tahmin Tablosu

Özetle yapılan keşifsel veri analizi ile koronavirüs pandemisinin trendi ve tahminleme (forecasting) çalışmasıyla ise öngörü yapılması amaçlanmıştır.

Bu arada koronavirüsle ilgili olarak farklı ülkelerin web siteleri incelendiğinde vaka sayılarının takibini sağlama ve şeffaf olması adına bu platformlar üzerinden anlık veri paylaşımı yaptıkları görülmektedir. Benim bu noktada vaka sayılarına ilişkin veri setlerinin Sağlık Bakanlığımız sitesinde de yayınlanması yönünde küçük bir önerim olacaktır. Diğer bir konu da mümkünse onaylanmış vaka sayıları ile birlikte enfekte olan, tedavisi tamamlanan ve hastalıktan ölen kişilerin demografik özellikleri de hasta veri setinde yer alırsa veriyi kullananlar ve sürece katkı sağlayanlar/sağlayacaklar açısından çok faydalı olacaktır.

Diğer bir konu, bilindiği üzere ülkemiz yaklaşık 4 milyona yakın Suriyeli mülteciye ev sahipliği yapmaktadır. Mültecilerin beslenme, hijyen ve barınma koşulları dünyada olduğu gibi ülkemizde de vatandaşlarımıza göre daha düşük olduğu bilinen bir gerçektir. Dolayısıyla sıradan bir vatandaş olarak şahsım adına koronavirüs salgınıyla ulusal mücadelede mültecilerin, diğer bir deyişle misafirlerimizin en zayıf halka olduğunu düşünmekteyim ve vaka sayılarını tırmandıracağından son derece endişeliyim. Bu noktaya muhakkak dikkat ediliyordur ancak bu konuda endişe taşıdığımdan bu hususu yine de paylaşmak istedim.

Son olarak, Sağlık Bakanlığımızın koronavirüs salgını ile mücadelede aldığı proaktif önlemler ve bu salgına karşı sağlık personelimizin fedakarca gayret göstermesi gerçekten takdir edilmesi gerekir. Buradan kendilerini alkışlıyor ve kendilerine teşekkürü bir borç biliyorum.

Faydalı olması ve farkındalık oluşturması dileğiyle.

Bilimle ve teknolojiyle kalınız.

Saygılarımla.

Note: It can not be cited or copied without referencing.

Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.

Yararlanılan Kaynaklar

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s