ALAN ARAŞTIRMALARINDA KAYIP DEĞER PROBLEMİ VE ÇÖZÜM ÖNERİLERİ

 

 

 

Yrd. Doç. Dr. AYŞE OĞUZLAR*

 

 

Kayıp veya eksik veriler alan araştırmalarında problemler yaratmaktadır. Bu problemi çözmek amacıyla kayıp değerlerin yerine atıf yapmaksızın geliştirilen çözüm teknikleri ile, kayıp değerlerin yerine uygun değerlerin atfedilmesini sağlayan atfetme teknikleri bulunmaktadır. Fakat hangi atıf tekniğinin kullanılması gerektiği büyük ölçüde kayıp değer mekanizmasına bağlıdır. Bu kayıp değer mekanizmaları MAR, MCAR ve NI’ dır. Bu mekanizmalara bağlı olarak da liste bazında silme, çiftler bazında silme, yerine ortalamayı koyma, hot deck atfı, regresyon atfı, EM ve çoklu atıf teknikleri en sık kullanılan temel tekniklerdir.

 

 

ANAHTAR KELİMELER: missing value, incomplete data, imputation, multiple imputation, missing data mechanisms, missing at random, missing completely at random, nonignorable.

 

 

 

 

1. GİRİŞ

 

 

            Alan araştırmalarında kayıp değer problemine sıkça rastlanılmaktadır. Kayıp değerler analizlerde sorun yaratmaktadır. Çünkü istatistiksel analizler ve paket programları, verilerin tümünün var olduğu durumlar için geliştirilmiştir. Bu noktadan hareketle verilerimizin arasında kayıp değerler varsa ki genellikle bu problemle yüz yüze gelinmektedir, ne yapmamız gerekir sorusundan hareketle böyle bir çalışma içerisine girilmiştir. Ayrıca kayıp değer analizine, kayıp değer içeren herhangi bir veri tabanı için diğer istatistiksel analizler uygulanmadan önce başvurulması gerekilen bir ön analiz olarak bakmakta yarar vardır. Kayıp değer analizi ile, kayıp değerler uygun değerlerle tamamlanır ve diğer analizler için uygun bir zemin hazırlanır.

 

Alan araştırması çalışmalarında verilerin kayıp olması için üç ana neden vardır:

 

  1. Soru atlanılmıştır, yanıt veren kişi soruyu yanıtlamamıştır veya yanıtlayıcının cevabı kayıt edilmemiş veya uygun bir biçimde kodlanamamıştır.
  2. Soruya yanıtlayıcı tarafından uygun bir cevap bulunamamıştır.
  3. Yanıtlayıcının soruya ilişkin bir fikri bulunmamaktadır[1].

 

Araştırmada yer alan ve kayıp değer veya değerleri içeren birimler, bir bilgi yokluğunu temsil ederler, dolayısıyla bir bilgi kaybına neden olurlar.Standart istatistiksel yöntemler ve paket programları tam bilgi durumu için düzenlenmişlerdir ve bu kayıp değer içeren birimlere uygulandıklarında yanlı tahminlere sebebiyet vereceklerdir.

 

 

 

 

Kayıp değer problemi için çeşitli çözüm ve atıf teknikleri geliştirilmiştir. İlerleyen bölümlerde bu çözüm ve tekniklere detaylı olarak değinilecektir. Daha öncesinde ise kayıp değer mekanizmalarından bahsetmek yerinde olacaktır. Çünkü hangi çözüm veya atıf tekniğinin uygulanması gerektiği, diğer bir deyişle hangi çözüm ve atıf tekniğinin uygun olabileceği kayıp değer mekanizmalarına bağlıdır.

 

 

  1. KAYIP DEĞER MEKANİZMALARI

 

 

Kayıp değerler için çözüm ve atıf tekniklerinin doğru kullanımı, geçerli sonuçlara ulaşabilmek açısından oldukça önemlidir. Uygun çözüm ve atıf tekniğinin seçiminin kayıp değer mekanizmalarına bağlı olduğundan bahsedilmişti. Little ve Rubin bu mekanizmaları üç temel kategoriye ayırmaktadır: Tamamıyla rassal olarak kayıp (Missing Completely at Random, MCAR), rassal olarak kayıp (Missing at Random, MAR) ve ihmal edilemez (Nonignorable, NI)[2].

 

  1. Tamamıyla rassal olarak kayıp (MCAR): A ve B gibi iki değişken verildiğinde, yanıt olasılığı A ve B değişkenlerinden bağımsız ise, kayıp veri MCAR olarak ele alınır. Diğer deyişle ‘kayıp olma (missingness)’ analizde yer alan spesifik değişkenlerle ilişkili değildir. MCAR koşullarının sağlanıp sağlanmadığı yanıt verenler ile yanıt vermeyenler arasındaki gözlenen verilerin dağılımlarının karşılaştırılmasıyla sağlanabilir. Eğer veriler için MCAR sağlanıyorsa, Liste bazında silme (listwise deletion) veya diğer bir ifade ile durum bazında silme (casewise deletion) çözüm teknikleri iyi bir seçim oluşturacaktır. Bu teknikler pek çok istatistiksel paket programında mevcuttur. Avantajı ise basitliği ve hesaplama süresinin kısalığıdır. Eğer veriler MCAR değil ise, sonuçlar yanlı olacaktır ve bu sebepledir ki diğer daha gürbüz (robust) teknikler bu durumda daha uygun olacaktır.

 

  1. Rassal olarak kayıp (MAR): A ve B gibi iki değişken verildiğinde, yanıt olasılığı A’ ya bağlı fakat B’ ye bağlı değil ise, kayıp veri MAR olarak düşünülür. Çok sayıda kayıp veri atıf tekniği bu varsayıma uygun olarak geliştirilmiştir. EM, regresyon ve çoklu atıf (Multiple İmputation) tekniği MAR durumu için uygun atıf teknikleridir.

 

  1. İhmal edilemez (NI): A ve B gibi iki değişken verildiğinde, yanıt olasılığı A’ ya bağlı ve B’ ye de bağlı olması mümkün ise, kayıp veri NI olarak düşünülebilir. Diğer bir deyişle ‘kayıp olma’ rassal değildir ve veri tabanındaki bir diğer değişkenden tahmin edilemez. Aşağıda söz edilecek atıf tekniklerinin tümü NI durumunda yanlı sonuçlara sebebiyet verecektir.

 

 

 

 

 

 

 

 

 

 

  1. KAYIP DEĞERLER İÇİN GELİŞTİRİLEN ÇÖZÜM VE ATIF TEKNİKLERİ

 

 

Kayıp değer durumunda geçerli çözüm ve atıf tekniklerinin bulunduğundan daha önce bahsedilmişti. Bu başlık altında bu atıf tekniklerinin en temel olanları anlatılmaya çalışılacaktır. Bu atıf tekniklerinin yanında liste veya durum bazında veri silme (listwise veya casewise data deletion-LD veya CD) ve çiftler bazında veri silme (pairwise data deletion-PD) gibi atıf yapmadan kayıp değer problemini ortadan kaldıracak çözüm tekniklerinden de bahsedilmiştir. Yerine ortalamayı koyma (mean substitution), regresyon atfı (regression imputation), hot deck atfı (hot deck imputation), beklenen maksimizasyon yaklaşımı (expectation maximization (EM) approach), ve çoklu atıf (multiple imputation) en çok kullanılan atıf teknikleridir.

İzleyen bölümlerde sırasıyla atıf yapmadan kayıp değer problemini çözmeye yönelik liste bazında veri silme veya durum bazında veri silme ile çiftler bazında veri silme ve yerine ortalamayı koyma tekniklerine ve atıf tekniklerine kısaca değinilmiş ve hangi durumlarda kullanılabileceğine yer verilmiştir. Ayrıca bu atıf yöntemlerinin kuvvetli ve zayıf yönlerine değinilmiştir.

 

 

3.1.  Liste Bazında veya Durum Bazında Veri Silme (Listwise or Casewise Data Deletion-LD  veya CD)

 

 

Bu çözüm tekniğine göre, eğer bir kayıt herhangi bir analizde kullanılan herhangi bir değişken için kayıp veri içeriyorsa, tüm kayıt analizden çıkarılır. Diğer bir deyişle tüm kayıtları olan yanıtlayıcı analizde yer alır ve diğerleri analiz dışı bırakılır. Bu yaklaşım kayıp veriler için kullanılan en temel yöntemdir ve SAS ve SPSS gibi sıkça kullanılan istatistiksel paket programlarında yer almaktadır. MCAR ve NI durumlarında kullanılması yanlı sonuçlara sebebiyet verecektir. MAR durumunda kullanılabilecek bir yöntemdir.

                                                   

Aşağıda görülen Tablo 1’ de sayısal bir örneğe yer verilmiştir.

 

Tablo 1. Sayısal Örnek[3]

 

Durum

Değişken 1

Değişken 2

Değişken 3

1

13

23

21

2

14

22

17

3

15

-

11

4

16

18

-

5

17

17

12

6

-

20

8

7

-

20

15

 

 

            Bu tabloda 3 değişken ve 7 durum söz konusudur. 21 gözlem değerinin 4 tanesi kayıptır. Liste bazında veya durum bazında silme yöntemine göre kayıp değer içeren 3., 4., 6. ve 7. durumlar hesaplama dışı bırakılarak, kayıp değer içermeyen 1., 2. ve 3. durumlara dayanılarak hesaplamalar yapılacaktır.

 

 

3.2.  Çiftler Bazında Veri Silme (Pairwise Deletion-PD)

 

Bu yönteme göre her değişken çifti için tüm durumları tam olan gözlemlerden korelasyon/kovaryans tahminleri hesaplanır. Örneğin Tablo 1’ deki örneğe göre, değişken 1 ve değişken 2 için kovaryans tahmini 1., 2., 4. ve 5. durumlara dayanılarak hesaplanacaktır.

 

PD her bir korelasyon için en iyi tahmini sağlar. Çünkü elde edilebilir tüm bilgiyi kullanmaktadır. PD verilere ilişkin daha fazla bilgiyi kullandığından, LD’ den daha etkin bir yöntemdir. Eğer veriler MAR koşulunu sağlıyorsa aynı LD’ de olduğu gibi tahminler yanlı olacaktır.

 

PD için özel bir problem, sonuç olarak elde edilen korelasyon matrisinin pozitif tanımlı olmayabilmesi problemidir. Bu korelasyon matrisinin tersinin kullanılması durumunda probleme yol açacaktır.

 

PD yöntemi için bir diğer problem, uygun örneklem büyüklüğünün belirlenmesi için paket programların iyi bir yol sağlayamamasıdır. Örneğin SPSS, en küçük çiftler bazında korelasyonun örneklem büyüklüğünü N olarak kabul eder. Bu örneklem büyüklüğü tahmini, korelasyonların çoğu yaklaşık olarak tam bilgiye dayandığı durumlarda doğru bir tahmin olmayacaktır.

 

LD ile PD kıyaslandığında PD daha iyi sonuçlar sağlamaktadır (matris pozitif tanımlı olduğunda) fakat aşağıda değinilecek diğer yöntemler PD’ den daha avantajlıdır[4].

 

 

3.3.  Yerine Ortalamayı Koyma (Mean Substitution)

 

 

Kayıp değer için sıkça kullanılan bir starateji, kayıp değer içeren değişkenin ortalamasını kayıp değerin yerine kullanmaktır. Eğer ortalama gelir 500 dolar ise, gelirini beyan etmeyen bir kişi için gelir 500 dolar kabul edilir. Ortalamanın bu şekilde atanmasındaki mantık, kişiye ilişkin diğer her hangi bir bilgi olmadan, herhangi normal dağılımlı bir değişken için değerlerin en iyi tahmininin ortalama oluşudur (örneğin gelir gibi eğik değişkenler için en iyi yol medyan gelirin kayıp değerler için kullanılmasıdır.).

 

 

 

 

Eğer veriler yaklaşık olarak normal dağılım göstermekteyse ve MAR koşulu sağlanıyorsa, bu yöntem standartlaştırılmamış yanlı parametre tahmini olmayacaktır. Diğer taraftan çok sayıda cevaplayıcı bir değişkene ilişkin benzer skorlara sahipse (örneğin gelirleri 500 dolar ise), kayıp değerli değişkenler arasındaki kovaryans ve değişkenler arasındaki varyans daralacaktır. Varyansın daralması R2 ve β gibi standardize olmuş katsayıların tahminlerini azaltacaktır. Azaltılmış varyans normal olarak standart hataları arttırmakta ve t oranlarını azaltmakla birlikte, yerine ortalamayı koyma yöntemi aynı zamanda örneklem büyüklüğünün artıracaktır. Bu yapay olarak şişirilmiş örneklem büyüklüğünün kullanılması sonucunda, bu yöntem t oranlarını daha anlamlı hale getirecektir.

Bu yöntemle bağlantılı diğer bir yöntem olan yerine grup ortalamasını koyma yaklaşımı daha anlamlı sonuçlara ulaşılmasını sağlayacaktır[5]. Bu yönteme göre, kayıp değer içeren değişkene bağlı olarak daha homojen olan gruplar için ortalama kayıp değerlerin yerine kullanılır. Bu yaklaşım yerine ortalamayı koyma yaklaşımından daha iyi sonuçlar sağlar. Kayıp değerler için atıflar daha yerindedir ve varyans çok fazla daraltılmamış olur. Fakat yine de bu yaklaşım varyansı daraltır ve bu yolla kovaryanslar/korelasyonlar yanlı sonuç verir.

 

 

3.4.  Regresyon Atfı (Regression Imputation)

 

 

Çoklu regresyon kayıp değerlere atıf yapmak için kullanılan bir diğer yöntemdir. Bu yöntem, kayıp değer içeren her bir değişkeninin, diğer tüm değişkenler üzerine veya ilişkili değişkenler üzerine regresyon denkleminin kurulmasını içerir. Bu regresyon denkleminden elde edilecek tahmini değer, kayıp değerlere atıfta bulunmak için kullanılır. Regresyon atfı kullanıldığında bir rassal hatanın modele dahil edilmesi önemlidir. Bu hata terimi ya rassal olarak belirlenir, ya bir rassal normal sapmadır veya kullanıcı tarafından belirlenecek serbestlik derecesine bağlı bir rassal t değeri olabilir[6]. Bu atıf tekniği, bağımsız değişkenlerdeki kayıp değerlerin atfı için kullanıldığında, bu durum çoklu doğrusal bağlılığa katkıda bulunacaktır çünkü kayıp değerler için atıfta bulunulan değerler modeldeki diğer değişkenler ile ilişkili olacaktır. Regresyona dayalı atıf tekniğinde modele dahil edilmeyen diğer değişkenlerin kullanılması da mümkündür. Fakat bu durumda daha zayıf tahmin değerleri elde edilecektir.

Regresyon atfını kullanmanın bir avantajı, atıfta bulunulacak kayıp değer içeren değişkenin her bir kayıp değeri için farklı bir bağımsız değişkenler kümesini kullanmasıdır. Bu yaklaşımın yerine ortalamayı koyma yaklaşımından bir avantajı, kayıp değer içeren değişkenlerin varyans ve kovaryanslarını korumasıdır. Çünkü bir değişkenin kayıp her bir durumu, diğer değişkenlerin değerlerine bağlıdır ve her seferinde farklı bir tahmin değerini verecektir. Bu yöntemin aşağıda anlatılacak EM yaklaşımından dezavantajı ise daha sınırlı sayıda bilgiyi kullanmasıdır.

 

 

 

 

 

 

3.5.  Hot deck Atfı (Hot deck imputation)

 

Hot deck atfında, veri matrisindeki kayıp gözlemler benzer gözlemlerle doldurulur. Aşağıdaki Tablo 2 bu amaçla verilmiş bir örnek durumu içermektedir[7].

 

            Tablo 2. Hot deck atfı için örnek

 

Durum

Değişken1

Değişken2

Değişken3

Değişken4

1

4

1

2

3

2

5

4

2

5

3

3

4

2

 

 

 

            Tablo 2 incelendiğinde, değişken 4 için 3. durum değerinin bir kayıp değer içerdiği görülebilir. Hot deck atfı, değerlerin tam olduğu durumları araştırır ve kayıp değer için, en çok benzer olduğuna inanılan gözlem değerini atfeder. Örnek için tam gözlem değerine sahip durumlar 1 ve 2’ dir. Bu 2 durum değerleri incelendiğinde, durum 2 için değerlerin, durum 3’ e daha benzer olduğu sonucuna ulaşmaktayız. Dolayısıyla durum 3’ün Değişken 4 için kayıp olan değerini 5 olarak belirleyebiliriz.

            Hot deck atfı uzun bir kullanım tarihine sahiptir. Bu atıf, liste bazında veri silme, çiftler bazında veri silme, yerine ortalamayı koyma yöntemlerinden üstün bir tekniktir. Hot deck atfının avantajları arasında kavramsal basitliği, değişkenlerin ölçüm düzeylerini koruması (kategorik değişkenler kategorik olarak, sürekli değişkenler sürekli olarak kalır) ve tamamlanmış veri matrisi elde edilmesi sayılabilir.

Tamamlanmış veri matrisi sayesinde de standart istatistiksel analizler uygulanabilir.

Hot deck atfının en önemli dezantajı, ‘benzerlik’ kavramının tanımlanmasındaki güçlüktür. Bu nedenle hot deck prosedürü kayıp veriler için standart bir yol sağlamamaktadır. Bu benzerliğin belirlenebilmesi için verici (donor)durumların seçimini başarabilecek bir yazılım gerekmektedir. Daha ileri bir hot deck algoritmasına göre, benzer bir kayıttan daha fazla sayıda kayıt belirlenir ve bu verici (donor) kayıtlardan biri kayıp değerlerin atfı için rassal olarak seçilir. Ayrıca eğer uygunsa, bu verici durumların ortalaması kayıp değerlerin atfı için kullanılır.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.6.  Beklenti Maksimizasyonu (Expectation Maximization-EM)

 

 

Beklenti maksimizasyonu (EM), iki farklı adımdan oluşan iteratif bir prosedürdür. Bu prosedürün ne şekilde işlediğini göstermek amacıyla Tablo 3’ de görülen Kuramsal verilerden hareket edilecektir[8].

 

 

            Tablo 3. Kuramsal Veriler

 

Durumlar

V1

V2

V3

V4

1

5

4

3

2

2

-

3

2

1

3

2

-

4

5

4

-

2

-

3

5

2

2

-

-

6

5

4

3

2

7

3

2

1

1

8

3

2

5

-

...

...

...

...

...

 

 

            Tablo 3’ de – ile işaretli hücreler kayıp değer içeren hücrelerdir. V1 ile sembolize edilen 1. değişken ile işe başlanacak olursa, bu değişken için ilk kayıp değerin 2 nolu durumda ortaya çıktığını görmekteyiz. Bu durum için oluşan kayıp değer, durum 2 için V2, V3 ve V4 değişkenlerindeki değerler kullanarak atfedilecektir. Doğrusallık ve normal dağılım varsayımları altında, herhangi bir istatistiksel paket programında bulabileceğimiz doğrusal regresyon denklemini, bizim için en iyi tahminci olacaktır:V1’=B0+B1V2+B2V3+B3V4. V1 ile sembolize edilen 1. değişken için diğer bir kayıp değer 4. durumda meydana gelmiştir. Bu kayıp değeri atfetmek için ise V1’=B0+B1V2+B2V4 doğrusal regresyon denklemi kullanılacaktır. V3 değişkeni regresyon denklemine alınmamıştır çünkü 4. durum için V3 değişkeninin de değeri kayıptır. Bu süreç, tüm kayıp değerler atfedilinceye değin aşağıya doğru devam etmektedir.

Bu yaklaşımın kullanılmasında, tahmin edilen değere eklenmek üzere rassal olarak bir hata değerinin belirlenmesi gerekmektedir. Eğer bir regresyon denkleminden elde edilen tahmin güçlü bir tahmin ise (örneğin R2’ si büyükse), denkleme küçük bir hata değeri eklenir. Tersine bir regresyon denkleminden elde edilen tahmin güçlü bir tahmin değilse, büyük bir hata değeri denkleme eklenecektir. Bu hata değerlerini elde etmenin kolay bir yolu, örneğin V1 kayıp değer içermiyorsa, V1 için elde edilecek kalıntıları bu hata değeri için kullanmaktır. Bu hata değerlerinden biri atfedilen değere eklenmek veya çıkarılmak üzere rassal olarak seçilir. Böylece bu iteratif prosedürün ilk adımı tamamlanmış olur. Sonuçta kayıp değer içermeyen bir veri matrisi elde edilmiş olur ve bu yeni veri matrisine dayalı olarak kovaryans matrisi hesaplanır.

 

 

            İkinci adımda ise, birinci adımda oluşturulan atfedilmiş değerler içeren ham veri matrisi ele alınır ve süreç tekrarlanır. Tablo 3’ deki kuramsal veri örneğimize dönersek, 4. duruma gelindiğinde, V1’değerinin değerini tahmin etmek için yalnızca V2 ve V4 değerlerini kullanmak yerine aynı zamanda V3 değişkeni için bir önceki adımda bulunan atıf değeri de kullanılacaktır. 2. durumu ele aldığımızda ise V2, V3 ve V4 kayıp değeri tahmin etmek için kullanılıyordu. Bu ikinci aşamada 2. durumda yer alan kayıp değeri atfetmek için kullanacağımız regresyon denklemi daha iyi tahminler sağlayacaktır çünkü 1. aşamadan elde ettiğimiz atfedilmiş değerler kullanılacaktır. İkinci aşamadan elde edilecek bu regresyon kümesi, daha fazla bilgi kullandığı için daha iyi tahminler sağlayacaktır İkinci aşama tamamlandığında yeni bir veri matrisi ve kovaryans matrisi elde edilecektir.

 

            Bir sonraki aşama olarak süreç sürdürülür ve üçüncü veri matrisi ve kovaryans matrisi elde edilir. Eğer üçüncü veri matrisi ikinciden anlamlı bir biçimde farklılık gösterirse, dördüncü aşamaya geçilir. En son elde edilen ardıl iki kovaryans matrisi hemen hemen benzer ise iteratif süreç durdurulur.

 

            Doğrusallık ve normal dağılım şartıyla bu prosedürün uygulanabileceğinden bahsetmiştik. Fakat özel tahmin yöntemleri bilinen herhangi bir dağılıma uygun olan kategorik veriler veya kategorik olmayan veriler için kullanılabilir. EM algoritmasını kullanan yazılım programları daha çok normallik varsayımına dayanmakta ve atıf için regresyonu kullanmaktadır.

 

            Yukarıda sözü edilen diğer atıf yöntemleri gibi EM yaklaşımı da geçerli olmayan standart hatalara yol açacaktır. EM yaklaşımı çoklu atıf yöntemi için genişletildiğinde, standart hataların geçerli tahminlerini elde edilmesi mümkün olabilecektir.

 

 

3.7. Çoklu Atıf (Multiple İmputation-MI)

 

 

            Çoklu atıf tekniği (MI), kayıp değerlerin yerine m tekrar sayısı ve m>1 olmak üzere simüle edilmiş versiyonlarının kullanıldığı bir Monte Carlo tekniğidir[9]. Buradaki m sayısı oldukça küçüktür (3-10 arasında). Bu teknik üç temel adımı gerektirir: atfetme (imputation), analiz etme (analysis) ve bir araya getirme (pooling). Bu adımlar arasında başarması en zor olanı atfetme adımıdır. Bu adımda karşılaşılabilecek tipik problemler şunlardır:

 

·        Herhangi bir gözlemin kayıp olması, o gözlemin değerine bağlıdır. Örneğin yüksek veya düşük gelir düzeyine sahip kişiler gelir sorusunu atlama eğilimindedir.

·        Kayıp değerler veriler kümesinin her hangi bir yerinde görülebilir.

·        Atfetme adımda kullanılan yöntem, daha sonra yapılması düşünülen tamamlanmış veriler ile analiz aşamasının öngörülmesini zorunlu kılar.

 

 

 

Atfedilen veriler için tekrar uygulanan analiz adımı, atfedilme uygulanmadan önce yapılan aynı analizden daha basittir. Çünkü kayıp değerlerin sıkıntısı ortadan kalkmıştır. Bir araya getirme adımı ise, m defa tekrarlanmış analizlerden, p değerleri, güven aralıkları, varyanslar ve ortalamaların hesaplanmasını içerir. Bu hesaplamalar da genel olarak basit hesaplamalardır.

MI’ lar yaratacak yeni hesapsal yöntemlerin ve yazılımların oluşumuyla teknik, araştırmaları kayıp değerlerle engellenen biomedikal ve sosyal bilim araştırmacıları için artan bir biçimde çekici bir hal almaktadır.

            Çoklu atıf tekniğinin çok sayıda avantajlı yönü vardır. Her şeyden önce oldukça iyi anlaşılabilecek bir tekniktir. Aynı zamanda analizde yer alan değişkenlerin normalliği ihlal ettiği durumda da gürbüz sonuçlar verir. Liste bazında veri bozma, çiftler bazında veri bozma ve yerine ortalamayı koyma yöntemlerinden pek çok durumda üstündür. Dezavantajı ise üçten ona kadar veri kümesinde atıf işlemi yaparken yoğun zaman gerektirmesidir.

            Yukarıda sözü edilen atıf tekniklerinden başka tam bilgi en çok olabilirlik tahmini (full information maximum likelihood estimation), yapısal denklem modelleme yaklaşımı (structural equation modeling approach) ve örüntü karışımı model yaklaşımı (pattern mixture model approach) diğer atıf yöntemlerinden bazılarıdır. Bu yöntemler sık kullanılmadığından çalışmaya dahil edilmemiştir.

            Aşağıda yer alan Tablo 4’ de atıf yöntemlerinin uygulanmasını sağlayan belli başlı programlar, varsayımları ve programlar hakkındaki yorumlar belirtilmiştir. Tablo 5’ de ise atıf yöntemlerinin güçlü ve zayıf yönleri ele alınmıştır.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Tablo 4. Atıf Yöntemlerinin Uygulanmasını Sağlayan Belli Başlı Programlar, Varsayımları ve Programlar Hakkındaki Yorumlar[10]

 

Yazılım Adı

Yöntem

Varsayımlar

Yorum

 

Amelia

Çoklu Atıf (Multiple Imputation)

Veriler MAR koşulunu sağlamakta.

Kullanım kolaylığı basit ve orta düzey arasında

 

 

SAS

Yerine Ortalamayı Koyma (Mean Substitution)

Veriler MCAR koşulunu sağlamakta.

Kullanımı kolay fakat kayıp verilerin sayısı az olduğunda (örneğin %5) tavsiye edilir.

 

SAS/IML

Çoklu Atıf (Multiple Imputation)

Veriler MAR koşulunu sağlamakta.

İlk kez kullanmaya başlayacaklar için kolay değil.

Paul Allison’ un SAS Makrosu

Çoklu Atıf (Multiple Imputation)

Veriler MAR koşulunu sağlamakta.

İlk kez kullanmaya başlayacaklar için kolay değil.

 

SPSS Temelinde

Ortalamayı Yerine Koyma

 

Veriler MCAR koşulunu sağlamakta.

Kullanımı kolay fakat kayıp verilerin sayısı az olduğunda (örneğin %5) tavsiye edilir.

 

 

SPSS Missing Value Analysis modülü

 

 

EM

Regresyon Atfı

 

 

Veriler MAR koşulunu sağlamakta.

Kullanımı kolay. Parametre tahminleri yansız, fakat standart hatalar ve t istatistikleri yansız değil.

 

 

NORM

 

 

Çoklu Atıf (Multiple Imputation)

 

 

Veriler MAR koşulunu sağlamakta.

En son versiyonunda yer alan yardım sistemi analizdeki adımlar boyunca ne yapılması gerektiğini anlatmakta.

 

 

SOLAS

Çoklu Atıf (Multiple Imputation)

Hot Deck Regresyon

Araştırmacının seçtiği tekniğe bağlı olarak veriler MAR veya MCAR koşulunu sağlamakta.

 

 

Kullanımı kolay.

SIRNORM SAS makro program seti

Çoklu Atıf (Multiple Imputation)

Veriler MAR koşulunu sağlamakta.

İlk kez kullanmaya başlayacaklar için kolay değil.

 

 

 

 

 

 

 

 

 

 

Tablo. 5. Çözüm ve Atıf Yöntemlerinin Güçlü ve Zayıf Yönleri[11]

Yöntem

Güçlü Yönleri

Zayıf Yönleri

 

 

 

Liste bazında veya durum bazında silme/tam durum analizi

 

 

Pozitif tanımlı korelasyon matrisi üretir.

Tüm analiz tek örnekleme dayanır.

Basittir.

En az güçlü prosedürdür.

Eğer veriler MAR koşulunu sağlamıyorsa, sonuçlar yanlı olabilir.

Eldeki verilere önem vermez.

Varyansı düşürür ve beta ağırlıkları gibi R2’ yi de daraltır.

 

 

 

 

Çiftler bazında silme

 

 

Eldeki verilerin tümünü kullanır.

Liste bazında silmeden daha güçlü bir yöntemdir.

Basittir.

Ürettiği korelasyon matrisi pozitif tanımlı değildir.

Her bir korelasyon farklı örnekleme dayanır.

Eğer veriler MAR koşulunu sağlıyorsa, iyi tahminler ve standart hatalar üretir.

 

 

 

 

Yerine ortalamayı koyma

 

 

 

Hesaplanması kolaydır.

Varyansları ve bu sebepten de kovaryans ve korelasyonları düşürür.

beta ağırlıklarını ve R2’ yi daraltır. Veriler MAR koşulunu sağlasa bile, yanlı olarak şişirilmiş örneklem büyüklüğü sağlar.

 

 

 

 

Yerine alt grup ortalamasını koyma

 

Makul derecede hesaplanması kolaydır.

Varyansın çoğunu korur ve bu sebeple yerine ortalamayı koyma yönteminden daha az yanlıdır.

Varyansı düşürür ve bu nedenle de kovaryans ve korelasyonlar düşer.

Veriler MAR koşulunu sağlasa bile, yanlı olarak şişirilmiş örneklem büyüklüğü sağlar (fakat yerine ortalamayı koyma yönteminden daha az).

 

 

 

 

 

 

 

Regresyon atfı

 

 

 

Kayıp değer için iyi bir tahmin sağlar.

SPSS programı rassal hatanın eklenmesine olanak tanır.

EM’ den farklı olarak atfedilecek her bir değişken için tahmincilerin farklı bir kümesini kullanır.

SPSS programı kullanılarak rassal hatanın eklenmesi sağlanmazsa, bir stokastik hata teriminin eksikliğinden dolayı, sonuçlar tahminin üzerinde çıkmaktadır.

SPSS programı kullanılarak rassal hatanın eklenmesi sağlanmazsa, çoklu bağlılık problemi oluşur.

SPSS programı kullanılarak rassal hatanın eklenmesi sağlanmazsa, varyansı aşağıya çeker.

Tek iterasyon prosedürü olduğundan dolayı, EM kadar çok bilgi kullanmaz.

 

 

 

 

EM

Güçlü ve üstün bir çözüm sağlar.

Tüm verileri kullanır.

Atıfa stokastik hata terimini dahil eder.

 

SPSS, MCAR koşulunun sağlanıp sağlanmadığının araştırılması (Little’ın) için bir ki-kare testi geliştirmiştir.

 

 

 

Özel program gerektirir.

Eğer önemli mekanizmalar dahil edilmediğiyse, yanlı sonuçlar doğurur.

Mevcut programlar normal teori ile sınırlandırılmıştır.

 

 

 

Çoklu atıf

Güçlü ve üstün bir çözüm sağlar.

Atıfa stokastik hata terimini dahil eder.

Standart hataların daha iyi tahminlerini sağlar.

 

Özel program gerektirir.

Eğer önemli mekanizmalar dahil edilmediğiyse, yanlı sonuçlar doğurur.

PC platformaları için mümkün bir program olmadığından bezdiricidir.

4.                 UYGULAMA

 

Uygulama çalışması olarak Dünya Bankasının web sayfasında yer alan 207 ülkeye ilişkin 54 değişkenlik bir veri tabanı baz alınmıştır[12]. Bu 54 değişken incelendiğinde, bazı değişken değerlerinin tümünün kayıp olduğu gözlemlendi. Bazı değişkenlerin ise çok büyük oranda kayıp değer içerdiği gözlemlendi. Bu amaçla bir sınır getirilmesi gerektiği, getirilmediği takdirde, sonuçların anlamsız olabileceğine karar verildi. Bu sınırın ne olması gerektiği konusunda elimizde bir delil bulunmadığından, değerlerinin %60’ ı ve daha fazlası kayıp olan değişkenlerin analizden atılması kararlaştırıldı. Çünkü böyle büyük miktarda bilgi kaybı analiz sonuçlarını sağlıksız kılacaktı. Büyük miktarlarda bilgi kaybının olduğu durumlarda çoklu atıf tekniği önerilmektedir[13]. Uygulama kısmında SPSS 10.0 programı kullanıldığından ve bu programda liste bazında silme, çiftler bazında silme, EM ve regresyon atıf teknikleri ele alındığından, %60 ve daha fazla değeri kayıp olan değişkenleri analiz dışına çıkarmak zorunda kalınmıştır. Bu değişkenlerin atılmasıyla, kalan 36 değişken üzerinden işlemlere devam edildi. Böylece 7452 gözlem değerinden oluşan bir veri tabanı oluşturuldu. Bu 36 değişkenin neler olduğu ve kısaltmaları şu şekildedir:

 

1.      Tarım, katma değerli (GSYIH’ nın yüzdesi olarak)-TARIM

2.      Kişi başına düşen yardım (cari $ olarak)-KİŞİYAR

3.      Havayollarından yapılan kalkışlar (bin)-HAVAYOL

4.      Mal ve hizmet ihracatı (GSYIH’ nın yüzdesi olarak)-İHRACAT

5.      Toplam doğurganlık oranı (kadın başına düşen doğum)-TOPDOĞO

6.      Doğrudan yabancı yatırım, net girişler (cari $ olarak)-DOĞYAYA

7.      Kişi başına düşen tatlı su kaynakları (metre küp olarak)-KİTAKAY

8.      Piyasa fiyatıyla GSYIH (cari $ olarak)-PFGSYIH

9.      GSYIH büyüme oranı (yıllık % olarak)-GSYIHBO

10.  Kişi başına düşen GSMH, Atlas yöntemine göre (cari dolar olarak)-KİGSMH

11.  Gayri safi milli hasıla, Atlas yöntemine göre (cari dolar olarak)-GSMH

12.  Gayri safi yurtiçi yatırım (GSYIH' nın %' si olarak)-GSYİY

13.  Yüksek teknoloji ihracatı (imalat ihracatının % si olarak)-YTEKİHR

14.  Okuma yazma oranı, yetişkin bayan (15 yaş ve üstü bayanların % si olarak)-OKYOBN

15.  Okuma yazma oranı, yetişkin erkek (15 yaş ve üstü erkeklerin % si olarak)-OKYOER

16.  Mal ve hizmet ithalatı(GSYIH' nın yüzdesi olarak)-İTHALAT

17.  Endüstri, katma değerli (GSYIH' nın yüzdesi olarak)-ENDÜSTRİ

18.  Enflasyon, GSYIH deflatörü (yıllık % olarak)-ENFLASY

19.  İnternet kullanıcıları (her 10000 kişide)-İNTERKUL

20.  Doğumdan itibaren ortalama ömür (yıl olarak)-ORTLÖM

 

 

 

 

 

 

21.  Para ve para benzerinin büyüme oranı (yıllık % olarak)-PARABÜY

22.  Ölüm oranı, bebeklerde (her 1000 canlı doğumda)-ÖLORBE

23.  Ölüm oranı, beş yaş altı (her 1000 canlı doğumda)-ÖLORBAL

24.  Kişisel bilgisayarlar (her 1000 kişide)-BİLGİSAY

25.  Nüfus yoğunluğu (her km kareye düşen kişi sayısı)-NÜFUSYO

26.  Nüfus büyüme oranı (yıllık % olarak)-NÜFBÜYO

27.  Toplam nüfus-NÜFUS

28.  Borcun bugünkü değeri ($ olarak)-BORBÜGD

29.  Hizmet ve benzerleri, katma değerli (GSYIH' nın % si olarak)-HİZMET

30.  Kısa vadeli borçlar ($ olarak)-KIVABOR

31.  Yüzölçüm (km kare)-YÜZÖLÇ

32.  Telefon hattı (her 1000 kişide)-TELHAT

33.  Toplam borç servis karşılama (cari dolar olarak)-TOPBOR

34.  Ticaret (GSYIH' nın % si olarak)-TİCAR1

35.  Ticaret (GSYIH mallarının % si olarak)-TİCAR2

36.  Kentli nüfus (toplamın %' si olarak)-KENTNÜF

 

 

Bu 36 değişken Excel çalışma sayfasına kopyalanıp, oradan SPSS 10.0 istatistiksel paket programına yüklenilmiştir. SPSS’ e veriler yüklenildikten sonra, kayıp değerler için bir sayı atanıp, SPSS’ in o değeri kayıp değer olarak algılaması sağlanılmıştır. Veri tabanı hazırlandıktan sonra, Analyze modülünün Missing Value Analysis modülüne girilmiştir. SPSS 10.0’ ın Missing Value Analysis alt modülünün, tahmin tekniği olarak liste bazında silme, çiftler bazında silme, EM ve regresyon tekniklerini kullandığından daha önce söz edilmişti. İlk olarak özetleyici istatistiklerin yer aldığı bir tablo elde edilmiştir. Elde edilen tablo, Tablo 6’ da görülmektedir.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Tablo 6.

 

Tablo 6’ da her bir değişken için elde edilen, var olan gözlem sayısı (N), ortalamalar, standart sapmalar, kayıp değer sayıları ve yüzdeleri, aykırı değer sayısı yüksek ve düşük olmak üzere görülmektedir. Tablo incelendiğinde, en yüksek kayıp değer sayısına ve dolayısıyla yüzdesine sahip olan değişkenin 119 tane kayıp değer içeren ve değerlerinin %57,5’ u kayıp olan YTEKİHR olduğu görülebilir. Diğer tüm değişkenlerin kayıp değer yüzdesi %50’ inin altında bulunmuştur. Aykırı değerlerin ise, tablonun altında gösterilen üst sınırın üstünde daha çok yoğunlaştığı gözlemlenebilir. Ayrıca SPSS paket programından hareketle veri ve kayıp örüntülerinin detaylı tablolarını elde etmek mümkündür. Fakat analize alınan değişkenler ve ülke sayısı çok fazla olduğundan veri ve kayıp örüntüleri tablolarına çalışmada yer verilmemiştir.

 

 

 

 

 

 

 

 

            Özetleyici istatistiklerin ardından verilerimizin hangi kayıp değer mekanizmasına sahip olabileceğine ilişkin bir ön inceleme niteliğinde olan ve değişkenlerin her bir çifti arasında, varolan ve kayıp değerlerin ortalamaları arasında anlamlı bir fark olup olmadığını belirlemek amacıyla t testleri uygulanmıştır. Bu testler uygulanırken bir belirleyici (indicator) değişken tanımlanmıştır. SPSS her bir değişken için kayıp belirleyici değişken yaratmaktadır. Bu belirleyici değişken o değişkeninin değerinin varolup olmadığını belirtir. Belirleyici değişkenler SPSS tarafından görüntülenmemektedir fakat t testleri ve kayıp eşleşme oranları elde edilirken bu değişkenlerden yararlanılmaktadır.

t istatistiklerini yorumlarken eğer t istatistiği, t tablo değerinden daha küçük çıkarsa, değişken ikilisinin varolan ve kayıp değerlerinin ortalamaları arasında bir fark olmadığı sonucuna varılmalıdır. Bu ikili karşılaştırmalarda %5’den daha az oranda kayıp değer içeren eşleşmeler ele alınmamıştır. Ayrıca %5’den daha azı kayıp olan 5 değişken (NÜFUS, İNTERKUL, KENTNÜF, NÜFUSYO ve YÜZÖLÇ) için kıyaslama yapılmamıştır.

Sonuç olarak 1116 karşılaştırma sonucu ve t istatistiği elde edilmiştir. t istatistiklerinin elde edildiği bu ikili karşılaştırmalar bize verilerin MCAR veya MAR mekanizmasına bağlı olup olmadığını belirlemek için bir ipucu vermektedir. Eğer ikili karşılaştırmalarda varolan ve kayıp değer ortalamaları arasında anlamlı bir fark yoksa, verilerin MCAR mekanizmasına, fark varsa MAR mekanizmasına bağlı olduğunu gösterecektir. Veriler için üçüncü durum olan NI mekanizmasının sağlanması beklenmemektedir, çünkü kayıp olma uygulamaya konu olan veri tabanı için değişkenin gözlemlenen değerlerine bağlı olmadığı varsayılmaktadır. Fakat bu kadar çok sayıda ikili karşılaştırmayı yorumlayarak hangi değişkenler kümesinin MCAR mekanizmasına, hangilerinin MAR mekanizmasına bağlı olduğunu belirlemek mümkün olamamaktadır. Bu yöntem daha az sayıda değişken ve gözlemin olduğu durumlarda daha sağlıklı bir yol sağlayacaktır. Bu ikili karşılaştırmalardan ve t istatistiklerinden, ancak ikili karşılaştırma amacıyla yararlanılabilecektir. Değişken sayısı arttıkça değişken kümesinin kayıp değer mekanizmasının t istatistikleriyle değerlendirilmesi imkansız bir hal almaktadır. t istatistik değerlerine çok fazla yer kapladığından ve analizde yararlanılmadığından yer verilmemiştir.

            t istatistiklerinin ardından SPSS, aşağıda Tablo 7‘de verilen uygunsuz birleşme oranları tablosunu sağlamaktadır. Bu tabloda köşegen elemanlar ilgili değişkenin kayıp oranını gösterirken, köşegen dışı elemanlar satırda yer alan değişkenin değerleri kayıp iken, diğer değişkenin varolan değerlerinin yüzdesini göstermektedir. Bu tabloda köşegen dışı elemanlar ne oranda büyükse, iki değişkenin o ölçüde MAR mekanizmasına, ne oranda küçükse ise o oranda MCAR mekanizmasına bağlı olabileceğine ilişkin ipuçları vermektedir. Tablodan yararlanılarak hangi değişkenlerin analize dahil edilmesiyle, hangi mekanizmanın elde edilebileceğine ilişkin ipuçları sağlanmaktadır. Bu tablodan Little’ ın MCAR testi uygulanmasının ardından sonuçların haklılığının ispatlanması amacıyla yararlanılacaktır.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Uygunsuz eşleşme oranları tablosu gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Uygunsuz eşleşme oranları tablosunun devamı gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Değişkenlerin hangi kayıp değer mekanizmasına bağlı olduğunun belirlenmesinde, yukarıda da bahsedildiği gibi, SPSS paket programında EM algoritmasına bağlı olarak hesaplanan Little’ın MCAR testinden yararlanılacaktır. SPSS paket programı, veriler için EM algoritmasını uygularken iki varsayım yapmaktadır. Birincisi ele alınan değişkenin sürekli olması gerektiğidir. Bu sebeple kesikli değişkenler analiz dışı tutulmalıdır. İkincisi ise değişkenlerin normal dağılıma sahip olduğu varsayılmaktadır. Öncelikle kesikli değişkenleri analiz dışına çıkartmamız bu aşamada gereklidir. Kesikli değişkenler DOĞYAYA, PFGSYİH, KİGSMH, GSMH, BORBUGD, KIVABOR, YÜZÖLÇ ve TOPBOR değişkenleridir ve bu değişkenler MCAR testi hesaplanırken, hesaplama dışı kalacaktır. NÜFUS değişkeni ise hiç kayıp değer içermediğinden analiz dışı tutulmuştur. İkinci varsayım değişkenlerin normal dağılıma sahip olması gerektiği varsayımı idi. Geriye kalan sürekli 27 değişken için normallik testleri yapılmıştır. Bu normallik testleri sonucunda TOPDOĞO, GSYİHBO, GSYİY, ENDÜSTRİ, HİZMET ve KENTNÜF değişkenlerinin normal dağılım göstermediği saptandığından bu değişkenler de analiz dışı tutulmuştur.

Kalan 21 değişken için Little’ ın MCAR testi uygulanmıştır. p=0,00 olasılık düzeyinde 1434 serbestlik dereceli Ki-kare değeri 2021,285 olarak bulunmuştur. Bu sonuç bize, değişken kümesinin sahip olduğu kayıp değer mekanizmasının MCAR olduğunu gösteren sıfır hipotezini red etmemiz gerektiğini belirtmektedir. Dolayısıyla bu değişken kümesinin sahip olduğu kayıp değer mekanizmasının MAR olduğunu anlamaktayız. Kayıp değer mekanizmasının NI olamayacağından çünkü her bir değişkenin değerlerinin birbirinden bağımsız olduğundan daha önce söz etmiştik.

Kayıp değer mekanizmasının MAR olduğuna ilişkin ipuçlarını Tablo 7' de yer alan uygunsuz eşleşme oranları tablosundan da görmekteyiz. Analize dahil edilen TARIM, KİŞİYAR, HAVAYOL, İHRACAT, KİTAKAY, YTEKİHR, OKYOBN, OKYOER, İTHALAT, ENFLASY, İNTERKUL, ORTLÖM, PARABÜY, ÖLORBE, ÖLORBAL, BİLGİSAY, NÜFUSYO, NÜFBÜYO, TELHAT, TİCAR1 ve TİCAR2 değişkenleri için uygunsuz eşleşme oranlarına bakıldığında özellikle YTEKİHR, TİCAR2, OKYOER ve OKYOBN gibi değişkenler için oranlar yüksek olduğundan, bu değişkenleri içerecek kayıp değer mekanizmasının MAR olabileceği yolunda ipuçları sağlamaktayız. Buna karşılık yine Tablo 7' de ORTLÖM, NÜFBÜYO, ÖLORBAL, KİTAKAY ve HAVAYOL gibi değişkenler için uygunsuz eşleşme oranlarının düşük olduğunu görmekteyiz. Bu değişkenler kümesinin kendi içinde kayıp değer mekanizmasının MCAR olabileceğine dair şüphelerimiz olsa da, diğer değişkenlerin de analize dahil edilmesiyle meydana gelen mekanizmanın MAR olduğunu, Little' ın MCAR testi sonuçlarından anlamaktayız.

Aşağıda yer alan Tablo 8 ise cetvelleştirilmiş örüntü tablosunu göstermektedir. Tablonun ilk satırından tüm değişken değerleri tam olan ülke sayısının 36 olduğu anlaşılmaktadır. Tabloda yer alan ´ işaretli değişkenler analiz dışına tutulduğunda kaç tane tüm değişken değerleri tamamlanmış ülke sayısı elde edeceğimiz ise tablonun en sağındaki değerlerden anlaşılmaktadır. Tablonun en solundaki değerler ise ´ ile işaretli değişken veya değişkenlerin kaç ülke için kayıp olduğunu göstermektedir. 18 tane ülke için yalnızca YTEKİHR değişkeninin değerlerinin olmadığını, bu değişkenin analiz dışı tutulmasıyla tüm değişken değerleri tam olacak ülke sayısının 54 olacağını tablodan görebilmekteyiz. Yine tablodan yalnızca TİCAR2 ve YTEKİHR değişken değerlerinin aynı anda kayıp olduğu ülke sayısının 5 olduğunu ve bu iki değişkenin analizden çıkarılmasıyla tüm değişken değerleri tamamlanacak ülke sayısının 63 olduğunu görmekteyiz.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Cetvelleştirilmiş örüntü tablosu gelecek!

 

 

 

 

 

Kayıp değer mekanizmasının MAR olduğunun belirlenmesinin ardından, bu kayıp değer mekanizması için uygun olan EM ve regresyon atfı tekniklerinin uygulanmasına geçilmiştir. EM ve regresyon atfı teknikleri için 21 değişken analize dahil edilmiştir. SPSS paket programı EM ve regresyon atfında yer alacak hem bağımlı hem de bağımsız değişken kümesinin aynı olması gerektiği varsayımından hareket ettiğinden, 21 değişkenin tümü hem bağımsız hem de bağımlı değişken olarak ele alınmıştır. Var olan tüm değerler, EM ve regresyon atıfları için tahmin edilen ortalama ve standart sapmalar sırasıyla aşağıda Tablo 9 ve Tablo 10' da görülmektedir.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

            Tahmin edilen ortalama ve standart sapma değerlerinin ardından SPSS, EM ve regresyon atfı tekniklerinden elde edilen kovaryans ve korelasyon matrislerini vermektedir. EM atıf tekniğinden elde edilen kovaryans ve korelasyon matrisleri sırasıyla Tablo 11 ve 12' de, regresyon atıf tekniğinden elde edilen kovaryans ve korelasyon matrisleri ise sırasıyla Tablo 13 ve 14' de görülmektedir. EM ve regresyon atfından elde edilen bu ortalama, standart sapma değerleri ile kovaryans ve korelasyon matrisleri daha sonra yapılacak başka istatistiksel analiz tekniklerinde kullanılabilecektir. Bu özetleyici bilgilerin yanında SPSS, kayıp değerler için EM ve regresyon atfı ile elde ettiği değerlerin kaydedilmesine olanak sağlamaktadır. Böylece bu tekniklerin uygulanması sonucunda tüm değişken değerlerinin tam olduğu bir veri tabanı elde edilmiştir.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

EM atfı için bulunan kovaryanslar tablosu gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

EM atfı için bulunan kovaryanslar tablosu gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

EM atfı için bulunan korelasyonlar tablosu gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

EM atfı için bulunan korelasyonlar tablosu gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Regresyon Atfı için bulunan kovaryanslar tablosu gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Regresyon Atfı için bulunan kovaryanslar tablosu gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Regresyon Atfı için bulunan korelasyonlar tablosu gelecek!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5. SONUÇ

 

            Çalışmamızda kayıp değer probleminin çözümü için geliştirilen teknikler ve atıf tekniklerinin en temel olanları ve en sık kullanılanları özetlenmeye çalışılmıştır. Liste bazında veya durum bazında veri silme ve çiftler bazında veri silme teknikleri atıf yapmadan kayıp değer problemini çözmeye yönelik tekniklerdir. Bunun yanında yerine ortalamayı koyma, regresyon, hot deck, EM ve çoklu atıf teknikleri ise kayıp değerler yerine atıf yapılmasına olanak veren tekniklerdir. Bu tekniklerin kuvvetli ve zayıf yönleri tablolaştırılarak verilmiştir. Bu arada çalışmamızda kayıp değer mekanizmalarından bahsedilmiştir. Bu kayıp değer mekanizmaları MCAR, MAR ve NI' dır. MCAR mekanizmasına göre kayıp olma o değişken kümesindeki değişkenlerin kendi değerlerine ve başka değişkenlere bağlı değildir. MAR mekanizmasına göre, kayıp olma değişkenin kendi değerine bağlı değil ama diğer değişkenlerin değerlerine bağlıdır. NI mekanizmasına göre ise, kayıp olma değişkenin kendi değerlerine ve başka değişkenlerin değerlerine bağlıdır. Kayıp değer mekanizmalarına bağlı olarak hangi çözüm tekniklerinin kullanılabileceği ve bu tekniklerin hangi programlarda yer aldığı bu programlar hakkındaki yorumlar bir tablo halinde sunulmuştur.

            Uygulama bölümünde dünya bankasının web sayfasından elde edilen 207 ülkeye ilişkin 54 değişkenlik bir veri tabanı baz alınmıştır. 54 değişken incelendiğinde, bazı değişken değerlerinin tümünün kayıp, bazı değişkenlerin ise çok büyük oranda kayıp değer içerdiği gözlemlendi. Bu amaçla bir sınır getirilmesine karar verildi ve değerlerinin %60’ ı ve daha fazlası kayıp olan değişkenlerin analizden atılması kararlaştırıldı. Bu değişkenlerin atılmasıyla, kalan 36 değişken üzerinden işlemlere devam edildi. Böylece 7452 gözlem değerinden oluşan bir veri tabanı oluşturuldu. Uygulama kısmında SPSS 10.0 istatistiksel paket programı kullanılmıştır. Bu program liste bazında veri silme, çiftler bazında veri silme, EM ve regresyon atıf tekniklerinin kullanılmasına olanak tanımaktadır. Bu tekniklerin uygulanmasına geçmeden önce, değişkenlerin sahip olduğu kayıp değer mekanizmasının belirlenmesi gerekmektedir. Değişkenler arasındaki mekanizmanın ne olabileceğine yönelik ipuçları taşıyan t testleri ile uygunsuz eşleşme oranları tabloları elde edilmiştir. Fakat bu kadar çok sayıda değişken ile bu tabloları yorumlamak mümkün olamamıştır.

            Değişkenlerin sahip olduğu mekanizmanın MCAR olup olmadığını belirleyebilmek için EM algoritmasına bağlı olarak hesaplanan Little' ın MCAR testi uygulanmıştır. Fakat EM tekniğinin kullanılabilmesi için değişkenlerin sürekli ve normal dağılıma sahip olması gerektiği varsayımından hareketle, kesikli ve normal dağılım göstermeyen değişkenler analizden dışlanmıştır. Bu şekilde 21 değişken analize alınmış ve bu değişkenler arasındaki kayıp değer mekanizmasının MCAR olamayacağı sonucuna ulaşılmıştır. Değişkenlerin sahip olduğu mekanizmanın NI olamayacağı çünkü değişkenlerin kendi değerlerinin birbirinden bağımsız olduğu varsayılarak, kayıp değer mekanizmasının MAR olduğu sonucuna ulaşılmıştır.

            MAR kayıp değer mekanizmasına bağlı olan ve SPSS 10.0 paket programında yer alan EM ve regresyon atıf teknikleri uygulanmıştır. Sonuç olarak bulunan ortalama, standart sapma, kovaryans ve korelasyon değerleri daha sonra uygulanacak analizlerde kullanılabilmektedir. Ayrıca SPSS, EM ve regresyon atfı tekniklerinin kullanılmasıyla, kayıp değerler yerine atfedilen değerlerin yer aldığı tüm değişken değerlerinin tam olduğu veri kümesini de vermektedir.

 

 

 

 

 

 

KAYNAKÇA

 

Acock Alan C., ‘Working with Missing Data’, http://www.orst.edu/instruct/hdfs632/MissingData.html

 

Dünya bankası, http://devdata.worldbank.org/data

 

General FAQ#25:Handling missing or incomplete data, http://www.utexas.edu/cc/faqs/stat/general/gen25.html.

 

Kim Yong, ‘The Curse of the Missing Data’ http://209.68.240.11:8080/2ndMoment/978476655/index_html.

 

SEM Dialogue, Pairwise deletion of missing data, http://www.smallwaters.com/faq-sem/faqs-snet6.html.

 

The Multiple İmputation FAQ page, http://www.stat.psu.edu/~jls/mifaq.html.

 

Wothke Werner, ‘Longitudinal and multi-group modeling with missing data’, White papers on Structural Equation Modeling,2000, http://www.smallwaters.com/whitepapers/longmiss/

 

 



* Uludağ Üniversitesi, İ.İ.B.F., Ekonometri Bölümü Öğretim Üyesi.

[1] Yong Kim, ‘The Curse of the Missing Data’, s.1., http://209.68.240.11:8080/2ndMoment/978476655/index_html.

[2] Yong Kim, a.g.k.,s.4.

[3] Werner Wothke, ‘Longitudinal and multi-group modeling with missing data’, White papers on Structural Equation Modeling, 2000, s. 3., http://www.smallwaters.com/whitepapers/longmiss/.

 

[4] Alan C. Acock, ‘Working with Missing Data’, s.6., http://www.orst.edu/instruct/hdfs632/MissingData.html.

 

[5] Alan C. Acock, a.g.k., s.7.

[6] Alan C. Acock, a.g.k., s.9.

[7] General FAQ#25:Handling missing or incomplete data, http://www.utexas.edu/cc/faqs/stat/general/gen25.html.

 

[8] Alan C. Acock, a.g.k., s.11.

 

[9] The Multiple İmputation FAQ page, http://www.stat.psu.edu/~jls/mifaq.html.

 

[10] General FAQ#25:Handling missing or incomplete data, http://www.utexas.edu/cc/faqs/stat/general/gen25.html

[11] Alan C. Acock, a.g.k., s.31.

[12] Bkz Dünya bankası web sayfasının adresi: http://devdata.worldbank.org/data

[13] Bkz. SEM Dialogue, Pairwise deletion of missing data, s.8, http://www.smallwaters.com/faq-sem/faqs-snet6.html.