ALAN ARAŞTIRMALARINDA KAYIP DEĞER PROBLEMİ VE ÇÖZÜM ÖNERİLERİ

 

 

 

Yrd. Doç. Dr. AYŞE OĞUZLAR*

 

 

Kayıp veya eksik veriler alan araştırmalarında problemler yaratmaktadır. Bu problemi çözmek amacıyla kayıp değerlerin yerine atıf yapmaksızın geliştirilen çözüm teknikleri ile, kayıp değerlerin yerine uygun değerlerin atfedilmesini sağlayan atfetme teknikleri bulunmaktadır. Fakat hangi atıf tekniğinin kullanılması gerektiği büyük ölçüde kayıp değer mekanizmasına bağlıdır. Bu kayıp değer mekanizmaları MAR, MCAR ve NI’ dır. Bu mekanizmalara bağlı olarak da liste bazında silme, çiftler bazında silme, yerine ortalamayı koyma, hot deck atfı, regresyon atfı, EM ve çoklu atıf teknikleri en sık kullanılan temel tekniklerdir.

 

 

ANAHTAR KELİMELER: missing value, incomplete data, imputation, multiple imputation, missing data mechanisms, missing at random, missing completely at random, nonignorable.

 

 

 

 

1. GİRİŞ

 

 

            Alan araştırmalarında kayıp değer problemine sıkça rastlanılmaktadır. Kayıp değerler analizlerde sorun yaratmaktadır. Çünkü istatistiksel analizler ve paket programları, verilerin tümünün var olduğu durumlar için geliştirilmiştir. Bu noktadan hareketle verilerimizin arasında kayıp değerler varsa ki genellikle bu problemle yüz yüze gelinmektedir, ne yapmamız gerekir sorusundan hareketle böyle bir çalışma içerisine girilmiştir. Ayrıca kayıp değer analizine, kayıp değer içeren herhangi bir veri tabanı için diğer istatistiksel analizler uygulanmadan önce başvurulması gerekilen bir ön analiz olarak bakmakta yarar vardır. Kayıp değer analizi ile, kayıp değerler uygun değerlerle tamamlanır ve diğer analizler için uygun bir zemin hazırlanır.

 

Alan araştırması çalışmalarında verilerin kayıp olması için üç ana neden vardır:

 

  1. Soru atlanılmıştır, yanıt veren kişi soruyu yanıtlamamıştır veya yanıtlayıcının cevabı kayıt edilmemiş veya uygun bir biçimde kodlanamamıştır.
  2. Soruya yanıtlayıcı tarafından uygun bir cevap bulunamamıştır.
  3. Yanıtlayıcının soruya ilişkin bir fikri bulunmamaktadır[1].

 

Araştırmada yer alan ve kayıp değer veya değerleri içeren birimler, bir bilgi yokluğunu temsil ederler, dolayısıyla bir bilgi kaybına neden olurlar.Standart istatistiksel yöntemler ve paket programları tam bilgi durumu için düzenlenmişlerdir ve bu kayıp değer içeren birimlere uygulandıklarında yanlı tahminlere sebebiyet vereceklerdir.

 

 

 

 

Kayıp değer problemi için çeşitli çözüm ve atıf teknikleri geliştirilmiştir. İlerleyen bölümlerde bu çözüm ve tekniklere detaylı olarak değinilecektir. Daha öncesinde ise kayıp değer mekanizmalarından bahsetmek yerinde olacaktır. Çünkü hangi çözüm veya atıf tekniğinin uygulanması gerektiği, diğer bir deyişle hangi çözüm ve atıf tekniğinin uygun olabileceği kayıp değer mekanizmalarına bağlıdır.

 

 

  1. KAYIP DEĞER MEKANİZMALARI

 

 

Kayıp değerler için çözüm ve atıf tekniklerinin doğru kullanımı, geçerli sonuçlara ulaşabilmek açısından oldukça önemlidir. Uygun çözüm ve atıf tekniğinin seçiminin kayıp değer mekanizmalarına bağlı olduğundan bahsedilmişti. Little ve Rubin bu mekanizmaları üç temel kategoriye ayırmaktadır: Tamamıyla rassal olarak kayıp (Missing Completely at Random, MCAR), rassal olarak kayıp (Missing at Random, MAR) ve ihmal edilemez (Nonignorable, NI)[2].

 

  1. Tamamıyla rassal olarak kayıp (MCAR): A ve B gibi iki değişken verildiğinde, yanıt olasılığı A ve B değişkenlerinden bağımsız ise, kayıp veri MCAR olarak ele alınır. Diğer deyişle ‘kayıp olma (missingness)’ analizde yer alan spesifik değişkenlerle ilişkili değildir. MCAR koşullarının sağlanıp sağlanmadığı yanıt verenler ile yanıt vermeyenler arasındaki gözlenen verilerin dağılımlarının karşılaştırılmasıyla sağlanabilir. Eğer veriler için MCAR sağlanıyorsa, Liste bazında silme (listwise deletion) veya diğer bir ifade ile durum bazında silme (casewise deletion) çözüm teknikleri iyi bir seçim oluşturacaktır. Bu teknikler pek çok istatistiksel paket programında mevcuttur. Avantajı ise basitliği ve hesaplama süresinin kısalığıdır. Eğer veriler MCAR değil ise, sonuçlar yanlı olacaktır ve bu sebepledir ki diğer daha gürbüz (robust) teknikler bu durumda daha uygun olacaktır.

 

  1. Rassal olarak kayıp (MAR): A ve B gibi iki değişken verildiğinde, yanıt olasılığı A’ ya bağlı fakat B’ ye bağlı değil ise, kayıp veri MAR olarak düşünülür. Çok sayıda kayıp veri atıf tekniği bu varsayıma uygun olarak geliştirilmiştir. EM, regresyon ve çoklu atıf (Multiple İmputation) tekniği MAR durumu için uygun atıf teknikleridir.

 

  1. İhmal edilemez (NI): A ve B gibi iki değişken verildiğinde, yanıt olasılığı A’ ya bağlı ve B’ ye de bağlı olması mümkün ise, kayıp veri NI olarak düşünülebilir. Diğer bir deyişle ‘kayıp olma’ rassal değildir ve veri tabanındaki bir diğer değişkenden tahmin edilemez. Aşağıda söz edilecek atıf tekniklerinin tümü NI durumunda yanlı sonuçlara sebebiyet verecektir.

 

 

 

 

 

 

 

 

 

 

  1. KAYIP DEĞERLER İÇİN GELİŞTİRİLEN ÇÖZÜM VE ATIF TEKNİKLERİ

 

 

Kayıp değer durumunda geçerli çözüm ve atıf tekniklerinin bulunduğundan daha önce bahsedilmişti. Bu başlık altında bu atıf tekniklerinin en temel olanları anlatılmaya çalışılacaktır. Bu atıf tekniklerinin yanında liste veya durum bazında veri silme (listwise veya casewise data deletion-LD veya CD) ve çiftler bazında veri silme (pairwise data deletion-PD) gibi atıf yapmadan kayıp değer problemini ortadan kaldıracak çözüm tekniklerinden de bahsedilmiştir. Yerine ortalamayı koyma (mean substitution), regresyon atfı (regression imputation), hot deck atfı (hot deck imputation), beklenen maksimizasyon yaklaşımı (expectation maximization (EM) approach), ve çoklu atıf (multiple imputation) en çok kullanılan atıf teknikleridir.

İzleyen bölümlerde sırasıyla atıf yapmadan kayıp değer problemini çözmeye yönelik liste bazında veri silme veya durum bazında veri silme ile çiftler bazında veri silme ve yerine ortalamayı koyma tekniklerine ve atıf tekniklerine kısaca değinilmiş ve hangi durumlarda kullanılabileceğine yer verilmiştir. Ayrıca bu atıf yöntemlerinin kuvvetli ve zayıf yönlerine değinilmiştir.

 

 

3.1.  Liste Bazında veya Durum Bazında Veri Silme (Listwise or Casewise Data Deletion-LD  veya CD)

 

 

Bu çözüm tekniğine göre, eğer bir kayıt herhangi bir analizde kullanılan herhangi bir değişken için kayıp veri içeriyorsa, tüm kayıt analizden çıkarılır. Diğer bir deyişle tüm kayıtları olan yanıtlayıcı analizde yer alır ve diğerleri analiz dışı bırakılır. Bu yaklaşım kayıp veriler için kullanılan en temel yöntemdir ve SAS ve SPSS gibi sıkça kullanılan istatistiksel paket programlarında yer almaktadır. MCAR ve NI durumlarında kullanılması yanlı sonuçlara sebebiyet verecektir. MAR durumunda kullanılabilecek bir yöntemdir.

                                                   

Aşağıda görülen Tablo 1’ de sayısal bir örneğe yer verilmiştir.

 

Tablo 1. Sayısal Örnek[3]

 

Durum

Değişken 1

Değişken 2

Değişken 3

1

13

23

21

2

14

22

17

3

15

-

11

4

16

18

-

5

17

17

12

6

-

20

8

7

-

20

15

 

 

            Bu tabloda 3 değişken ve 7 durum söz konusudur. 21 gözlem değerinin 4 tanesi kayıptır. Liste bazında veya durum bazında silme yöntemine göre kayıp değer içeren 3., 4., 6. ve 7. durumlar hesaplama dışı bırakılarak, kayıp değer içermeyen 1., 2. ve 3. durumlara dayanılarak hesaplamalar yapılacaktır.

 

 

3.2.  Çiftler Bazında Veri Silme (Pairwise Deletion-PD)

 

Bu yönteme göre her değişken çifti için tüm durumları tam olan gözlemlerden korelasyon/kovaryans tahminleri hesaplanır. Örneğin Tablo 1’ deki örneğe göre, değişken 1 ve değişken 2 için kovaryans tahmini 1., 2., 4. ve 5. durumlara dayanılarak hesaplanacaktır.

 

PD her bir korelasyon için en iyi tahmini sağlar. Çünkü elde edilebilir tüm bilgiyi kullanmaktadır. PD verilere ilişkin daha fazla bilgiyi kullandığından, LD’ den daha etkin bir yöntemdir. Eğer veriler MAR koşulunu sağlıyorsa aynı LD’ de olduğu gibi tahminler yanlı olacaktır.

 

PD için özel bir problem, sonuç olarak elde edilen korelasyon matrisinin pozitif tanımlı olmayabilmesi problemidir. Bu korelasyon matrisinin tersinin kullanılması durumunda probleme yol açacaktır.

 

PD yöntemi için bir diğer problem, uygun örneklem büyüklüğünün belirlenmesi için paket programların iyi bir yol sağlayamamasıdır. Örneğin SPSS, en küçük çiftler bazında korelasyonun örneklem büyüklüğünü N olarak kabul eder. Bu örneklem büyüklüğü tahmini, korelasyonların çoğu yaklaşık olarak tam bilgiye dayandığı durumlarda doğru bir tahmin olmayacaktır.

 

LD ile PD kıyaslandığında PD daha iyi sonuçlar sağlamaktadır (matris pozitif tanımlı olduğunda) fakat aşağıda değinilecek diğer yöntemler PD’ den daha avantajlıdır[4].

 

 

3.3.  Yerine Ortalamayı Koyma (Mean Substitution)

 

 

Kayıp değer için sıkça kullanılan bir starateji, kayıp değer içeren değişkenin ortalamasını kayıp değerin yerine kullanmaktır. Eğer ortalama gelir 500 dolar ise, gelirini beyan etmeyen bir kişi için gelir 500 dolar kabul edilir. Ortalamanın bu şekilde atanmasındaki mantık, kişiye ilişkin diğer her hangi bir bilgi olmadan, herhangi normal dağılımlı bir değişken için değerlerin en iyi tahmininin ortalama oluşudur (örneğin gelir gibi eğik değişkenler için en iyi yol medyan gelirin kayıp değerler için kullanılmasıdır.).

 

 

 

 

Eğer veriler yaklaşık olarak normal dağılım göstermekteyse ve MAR koşulu sağlanıyorsa, bu yöntem standartlaştırılmamış yanlı parametre tahmini olmayacaktır. Diğer taraftan çok sayıda cevaplayıcı bir değişkene ilişkin benzer skorlara sahipse (örneğin gelirleri 500 dolar ise), kayıp değerli değişkenler arasındaki kovaryans ve değişkenler arasındaki varyans daralacaktır. Varyansın daralması R2 ve β gibi standardize olmuş katsayıların tahminlerini azaltacaktır. Azaltılmış varyans normal olarak standart hataları arttırmakta ve t oranlarını azaltmakla birlikte, yerine ortalamayı koyma yöntemi aynı zamanda örneklem büyüklüğünün artıracaktır. Bu yapay olarak şişirilmiş örneklem büyüklüğünün kullanılması sonucunda, bu yöntem t oranlarını daha anlamlı hale getirecektir.

Bu yöntemle bağlantılı diğer bir yöntem olan yerine grup ortalamasını koyma yaklaşımı daha anlamlı sonuçlara ulaşılmasını sağlayacaktır[5]. Bu yönteme göre, kayıp değer içeren değişkene bağlı olarak daha homojen olan gruplar için ortalama kayıp değerlerin yerine kullanılır. Bu yaklaşım yerine ortalamayı koyma yaklaşımından daha iyi sonuçlar sağlar. Kayıp değerler için atıflar daha yerindedir ve varyans çok fazla daraltılmamış olur. Fakat yine de bu yaklaşım varyansı daraltır ve bu yolla kovaryanslar/korelasyonlar yanlı sonuç verir.

 

 

3.4.  Regresyon Atfı (Regression Imputation)

 

 

Çoklu regresyon kayıp değerlere atıf yapmak için kullanılan bir diğer yöntemdir. Bu yöntem, kayıp değer içeren her bir değişkeninin, diğer tüm değişkenler üzerine veya ilişkili değişkenler üzerine regresyon denkleminin kurulmasını içerir. Bu regresyon denkleminden elde edilecek tahmini değer, kayıp değerlere atıfta bulunmak için kullanılır. Regresyon atfı kullanıldığında bir rassal hatanın modele dahil edilmesi önemlidir. Bu hata terimi ya rassal olarak belirlenir, ya bir rassal normal sapmadır veya kullanıcı tarafından belirlenecek serbestlik derecesine bağlı bir rassal t değeri olabilir[6]. Bu atıf tekniği, bağımsız değişkenlerdeki kayıp değerlerin atfı için kullanıldığında, bu durum çoklu doğrusal bağlılığa katkıda bulunacaktır çünkü kayıp değerler için atıfta bulunulan değerler modeldeki diğer değişkenler ile ilişkili olacaktır. Regresyona dayalı atıf tekniğinde modele dahil edilmeyen diğer değişkenlerin kullanılması da mümkündür. Fakat bu durumda daha zayıf tahmin değerleri elde edilecektir.

Regresyon atfını kullanmanın bir avantajı, atıfta bulunulacak kayıp değer içeren değişkenin her bir kayıp değeri için farklı bir bağımsız değişkenler kümesini kullanmasıdır. Bu yaklaşımın yerine ortalamayı koyma yaklaşımından bir avantajı, kayıp değer içeren değişkenlerin varyans ve kovaryanslarını korumasıdır. Çünkü bir değişkenin kayıp her bir durumu, diğer değişkenlerin değerlerine bağlıdır ve her seferinde farklı bir tahmin değerini verecektir. Bu yöntemin aşağıda anlatılacak EM yaklaşımından dezavantajı ise daha sınırlı sayıda bilgiyi kullanmasıdır.

 

 

 

 

 

 

3.5.  Hot deck Atfı (Hot deck imputation)

 

Hot deck atfında, veri matrisindeki kayıp gözlemler benzer gözlemlerle doldurulur. Aşağıdaki Tablo 2 bu amaçla verilmiş bir örnek durumu içermektedir[7].

 

            Tablo 2. Hot deck atfı için örnek

 

Durum

Değişken1

Değişken2

Değişken3

Değişken4

1

4

1

2

3

2

5

4

2

5

3

3

4

2

 

 

 

            Tablo 2 incelendiğinde, değişken 4 için 3. durum değerinin bir kayıp değer içerdiği görülebilir. Hot deck atfı, değerlerin tam olduğu durumları araştırır ve kayıp değer için, en çok benzer olduğuna inanılan gözlem değerini atfeder. Örnek için tam gözlem değerine sahip durumlar 1 ve 2’ dir. Bu 2 durum değerleri incelendiğinde, durum 2 için değerlerin, durum 3’ e daha benzer olduğu sonucuna ulaşmaktayız. Dolayısıyla durum 3’ün Değişken 4 için kayıp olan değerini 5 olarak belirleyebiliriz.

            Hot deck atfı uzun bir kullanım tarihine sahiptir. Bu atıf, liste bazında veri silme, çiftler bazında veri silme, yerine ortalamayı koyma yöntemlerinden üstün bir tekniktir. Hot deck atfının avantajları arasında kavramsal basitliği, değişkenlerin ölçüm düzeylerini koruması (kategorik değişkenler kategorik olarak, sürekli değişkenler sürekli olarak kalır) ve tamamlanmış veri matrisi elde edilmesi sayılabilir.

Tamamlanmış veri matrisi sayesinde de standart istatistiksel analizler uygulanabilir.

Hot deck atfının en önemli dezantajı, ‘benzerlik’ kavramının tanımlanmasındaki güçlüktür. Bu nedenle hot deck prosedürü kayıp veriler için standart bir yol sağlamamaktadır. Bu benzerliğin belirlenebilmesi için verici (donor)durumların seçimini başarabilecek bir yazılım gerekmektedir. Daha ileri bir hot deck algoritmasına göre, benzer bir kayıttan daha fazla sayıda kayıt belirlenir ve bu verici (donor) kayıtlardan biri kayıp değerlerin atfı için rassal olarak seçilir. Ayrıca eğer uygunsa, bu verici durumların ortalaması kayıp değerlerin atfı için kullanılır.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.6.  Beklenti Maksimizasyonu (Expectation Maximization-EM)

 

 

Beklenti maksimizasyonu (EM), iki farklı adımdan oluşan iteratif bir prosedürdür. Bu prosedürün ne şekilde işlediğini göstermek amacıyla Tablo 3’ de görülen Kuramsal verilerden hareket edilecektir[8].

 

 

            Tablo 3. Kuramsal Veriler

 

Durumlar

V1

V2

V3

V4

1

5

4

3

2

2

-

3

2

1

3

2

-

4

5

4

-

2

-

3

5

2

2

-

-

6

5

4

3

2

7

3

2

1

1

8

3

2

5

-

...

...

...

...

...

 

 

            Tablo 3’ de – ile işaretli hücreler kayıp değer içeren hücrelerdir. V1 ile sembolize edilen 1. değişken ile işe başlanacak olursa, bu değişken için ilk kayıp değerin 2 nolu durumda ortaya çıktığını görmekteyiz. Bu durum için oluşan kayıp değer, durum 2 için V2, V3 ve V4 değişkenlerindeki değerler kullanarak atfedilecektir. Doğrusallık ve normal dağılım varsayımları altında, herhangi bir istatistiksel paket programında bulabileceğimiz doğrusal regresyon denklemini, bizim için en iyi tahminci olacaktır:V1’=B0+B1V2+B2V3+B3V4. V1 ile sembolize edilen 1. değişken için diğer bir kayıp değer 4. durumda meydana gelmiştir. Bu kayıp değeri atfetmek için ise V1’=B0+B1V2+B2V4 doğrusal regresyon denklemi kullanılacaktır. V3 değişkeni regresyon denklemine alınmamıştır çünkü 4. durum için V3 değişkeninin de değeri kayıptır. Bu süreç, tüm kayıp değerler atfedilinceye değin aşağıya doğru devam etmektedir.

Bu yaklaşımın kullanılmasında, tahmin edilen değere eklenmek üzere rassal olarak bir hata değerinin belirlenmesi gerekmektedir. Eğer bir regresyon denkleminden elde edilen tahmin güçlü bir tahmin ise (örneğin R2’ si büyükse), denkleme küçük bir hata değeri eklenir. Tersine bir regresyon denkleminden elde edilen tahmin güçlü bir tahmin değilse, büyük bir hata değeri denkleme eklenecektir. Bu hata değerlerini elde etmenin kolay bir yolu, örneğin V1 kayıp değer içermiyorsa, V1 için elde edilecek kalıntıları bu hata değeri için kullanmaktır. Bu hata değerlerinden biri atfedilen değere eklenmek veya çıkarılmak üzere rassal olarak seçilir. Böylece bu iteratif prosedürün ilk adımı tamamlanmış olur. Sonuçta kayıp değer içermeyen bir veri matrisi elde edilmiş olur ve bu yeni veri matrisine dayalı olarak kovaryans matrisi hesaplanır.

 

 

            İkinci adımda ise, birinci adımda oluşturulan atfedilmiş değerler içeren ham veri matrisi ele alınır ve süreç tekrarlanır. Tablo 3’ deki kuramsal veri örneğimize dönersek, 4. duruma gelindiğinde, V1’değerinin değerini tahmin etmek için yalnızca V2 ve V4 değerlerini kullanmak yerine aynı zamanda V3 değişkeni için bir önceki adımda bulunan atıf değeri de kullanılacaktır. 2. durumu ele aldığımızda ise V2, V3 ve V4 kayıp değeri tahmin etmek için kullanılıyordu. Bu ikinci aşamada 2. durumda yer alan kayıp değeri atfetmek için kullanacağımız regresyon denklemi daha iyi tahminler sağlayacaktır çünkü 1. aşamadan elde ettiğimiz atfedilmiş değerler kullanılacaktır. İkinci aşamadan elde edilecek bu regresyon kümesi, daha fazla bilgi kullandığı için daha iyi tahminler sağlayacaktır İkinci aşama tamamlandığında yeni bir veri matrisi ve kovaryans matrisi elde edilecektir.

 

            Bir sonraki aşama olarak süreç sürdürülür ve üçüncü veri matrisi ve kovaryans matrisi elde edilir. Eğer üçüncü veri matrisi ikinciden anlamlı bir biçimde farklılık gösterirse, dördüncü aşamaya geçilir. En son elde edilen ardıl iki kovaryans matrisi hemen hemen benzer ise iteratif süreç durdurulur.

 

            Doğrusallık ve normal dağılım şartıyla bu prosedürün uygulanabileceğinden bahsetmiştik. Fakat özel tahmin yöntemleri bilinen herhangi bir dağılıma uygun olan kategorik veriler veya kategorik olmayan veriler için kullanılabilir. EM algoritmasını kullanan yazılım programları daha çok normallik varsayımına dayanmakta ve atıf için regresyonu kullanmaktadır.

 

            Yukarıda sözü edilen diğer atıf yöntemleri gibi EM yaklaşımı da geçerli olmayan standart hatalara yol açacaktır. EM yaklaşımı çoklu atıf yöntemi için genişletildiğinde, standart hataların geçerli tahminlerini elde edilmesi mümkün olabilecektir.

 

 

3.7. Çoklu Atıf (Multiple İmputation-MI)

 

 

            Çoklu atıf tekniği (MI), kayıp değerlerin yerine m tekrar sayısı ve m>1 olmak üzere simüle edilmiş versiyonlarının kullanıldığı bir Monte Carlo tekniğidir[9]. Buradaki m sayısı oldukça küçüktür (3-10 arasında). Bu teknik üç temel adımı gerektirir: atfetme (imputation), analiz etme (analysis) ve bir araya getirme (pooling). Bu adımlar arasında başarması en zor olanı atfetme adımıdır. Bu adımda karşılaşılabilecek tipik problemler şunlardır:

 

·        Herhangi bir gözlemin kayıp olması, o gözlemin değerine bağlıdır. Örneğin yüksek veya düşük gelir düzeyine sahip kişiler gelir sorusunu atlama eğilimindedir.

·        Kayıp değerler veriler kümesinin her hangi bir yerinde görülebilir.

·        Atfetme adımda kullanılan yöntem, daha sonra yapılması düşünülen tamamlanmış veriler ile analiz aşamasının öngörülmesini zorunlu kılar.

 

 

 

Atfedilen veriler için tekrar uygulanan analiz adımı, atfedilme uygulanmadan önce yapılan aynı analizden daha basittir. Çünkü kayıp değerlerin sıkıntısı ortadan kalkmıştır. Bir araya getirme adımı ise, m defa tekrarlanmış analizlerden, p değerleri, güven aralıkları, varyanslar ve ortalamaların hesaplanmasını içerir. Bu hesaplamalar da genel olarak basit hesaplamalardır.

MI’ lar yaratacak yeni hesapsal yöntemlerin ve yazılımların oluşumuyla teknik, araştırmaları kayıp değerlerle engellenen biomedikal ve sosyal bilim araştırmacıları için artan bir biçimde çekici bir hal almaktadır.

            Çoklu atıf tekniğinin çok sayıda avantajlı yönü vardır. Her şeyden önce oldukça iyi anlaşılabilecek bir tekniktir. Aynı zamanda analizde yer alan değişkenlerin normalliği ihlal ettiği durumda da gürbüz sonuçlar verir. Liste bazında veri bozma, çiftler bazında veri bozma ve yerine ortalamayı koyma yöntemlerinden pek çok durumda üstündür. Dezavantajı ise üçten ona kadar veri kümesinde atıf işlemi yaparken yoğun zaman gerektirmesidir.

            Yukarıda sözü edilen atıf tekniklerinden başka tam bilgi en çok olabilirlik tahmini (full information maximum likelihood estimation), yapısal denklem modelleme yaklaşımı (structural equation modeling approach) ve örüntü karışımı model yaklaşımı (pattern mixture model approach) diğer atıf yöntemlerinden bazılarıdır. Bu yöntemler sık kullanılmadığından çalışmaya dahil edilmemiştir.

            Aşağıda yer alan Tablo 4’ de atıf yöntemlerinin uygulanmasını sağlayan belli başlı programlar, varsayımları ve programlar hakkındaki yorumlar belirtilmiştir. Tablo 5’ de ise atıf yöntemlerinin güçlü ve zayıf yönleri ele alınmıştır.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Tablo 4. Atıf Yöntemlerinin Uygulanmasını Sağlayan Belli Başlı Programlar, Varsayımları ve Programlar Hakkındaki Yorumlar[10]

 

Yazılım Adı

Yöntem

Varsayımlar

Yorum

 

Amelia

Çoklu Atıf (Multiple Imputation)

Veriler MAR koşulunu sağlamakta.

Kullanım kolaylığı basit ve orta düzey arasında

 

 

SAS

Yerine Ortalamayı Koyma (Mean Substitution)

Veriler MCAR koşulunu sağlamakta.

Kullanımı kolay fakat kayıp verilerin sayısı az olduğunda (örneğin %5) tavsiye edilir.

 

SAS/IML

Çoklu Atıf (Multiple Imputation)

Veriler MAR koşulunu sağlamakta.

İlk kez kullanmaya başlayacaklar için kolay değil.

Paul Allison’ un SAS Makrosu

Çoklu Atıf (Multiple Imputation)

Veriler MAR koşulunu sağlamakta.

İlk kez kullanmaya başlayacaklar için kolay değil.

 

SPSS Temelinde

Ortalamayı Yerine Koyma

 

Veriler MCAR koşulunu sağlamakta.

Kullanımı kolay fakat kayıp verilerin sayısı az olduğunda (örneğin %5) tavsiye edilir.

 

 

SPSS Missing Value Analysis modülü

 

 

EM

Regresyon Atfı

 

 

Veriler MAR koşulunu sağlamakta.

Kullanımı kolay. Parametre tahminleri yansız, fakat standart hatalar ve t istatistikleri yansız değil.

 

 

NORM

 

 

Çoklu Atıf (Multiple Imputation)