ALAN ARAŞTIRMALARINDA KAYIP DEĞER PROBLEMİ VE ÇÖZÜM ÖNERİLERİ
Yrd. Doç. Dr. AYŞE OĞUZLAR*
ANAHTAR
KELİMELER: missing value, incomplete data, imputation, multiple imputation,
missing data mechanisms, missing at random, missing completely at random,
nonignorable.
Alan araştırmalarında kayıp değer problemine sıkça rastlanılmaktadır. Kayıp değerler analizlerde sorun yaratmaktadır. Çünkü istatistiksel analizler ve paket programları, verilerin tümünün var olduğu durumlar için geliştirilmiştir. Bu noktadan hareketle verilerimizin arasında kayıp değerler varsa ki genellikle bu problemle yüz yüze gelinmektedir, ne yapmamız gerekir sorusundan hareketle böyle bir çalışma içerisine girilmiştir. Ayrıca kayıp değer analizine, kayıp değer içeren herhangi bir veri tabanı için diğer istatistiksel analizler uygulanmadan önce başvurulması gerekilen bir ön analiz olarak bakmakta yarar vardır. Kayıp değer analizi ile, kayıp değerler uygun değerlerle tamamlanır ve diğer analizler için uygun bir zemin hazırlanır.
Alan araştırması çalışmalarında verilerin kayıp olması için üç ana neden vardır:
Araştırmada yer alan ve kayıp değer veya değerleri içeren birimler, bir bilgi yokluğunu temsil ederler, dolayısıyla bir bilgi kaybına neden olurlar.Standart istatistiksel yöntemler ve paket programları tam bilgi durumu için düzenlenmişlerdir ve bu kayıp değer içeren birimlere uygulandıklarında yanlı tahminlere sebebiyet vereceklerdir.
Kayıp değer problemi için çeşitli çözüm ve atıf teknikleri geliştirilmiştir. İlerleyen bölümlerde bu çözüm ve tekniklere detaylı olarak değinilecektir. Daha öncesinde ise kayıp değer mekanizmalarından bahsetmek yerinde olacaktır. Çünkü hangi çözüm veya atıf tekniğinin uygulanması gerektiği, diğer bir deyişle hangi çözüm ve atıf tekniğinin uygun olabileceği kayıp değer mekanizmalarına bağlıdır.
Kayıp değerler için çözüm ve atıf tekniklerinin doğru kullanımı, geçerli sonuçlara ulaşabilmek açısından oldukça önemlidir. Uygun çözüm ve atıf tekniğinin seçiminin kayıp değer mekanizmalarına bağlı olduğundan bahsedilmişti. Little ve Rubin bu mekanizmaları üç temel kategoriye ayırmaktadır: Tamamıyla rassal olarak kayıp (Missing Completely at Random, MCAR), rassal olarak kayıp (Missing at Random, MAR) ve ihmal edilemez (Nonignorable, NI)[2].
Kayıp değer durumunda geçerli çözüm ve atıf tekniklerinin bulunduğundan daha önce bahsedilmişti. Bu başlık altında bu atıf tekniklerinin en temel olanları anlatılmaya çalışılacaktır. Bu atıf tekniklerinin yanında liste veya durum bazında veri silme (listwise veya casewise data deletion-LD veya CD) ve çiftler bazında veri silme (pairwise data deletion-PD) gibi atıf yapmadan kayıp değer problemini ortadan kaldıracak çözüm tekniklerinden de bahsedilmiştir. Yerine ortalamayı koyma (mean substitution), regresyon atfı (regression imputation), hot deck atfı (hot deck imputation), beklenen maksimizasyon yaklaşımı (expectation maximization (EM) approach), ve çoklu atıf (multiple imputation) en çok kullanılan atıf teknikleridir.
İzleyen bölümlerde sırasıyla atıf yapmadan kayıp değer problemini çözmeye yönelik liste bazında veri silme veya durum bazında veri silme ile çiftler bazında veri silme ve yerine ortalamayı koyma tekniklerine ve atıf tekniklerine kısaca değinilmiş ve hangi durumlarda kullanılabileceğine yer verilmiştir. Ayrıca bu atıf yöntemlerinin kuvvetli ve zayıf yönlerine değinilmiştir.
3.1. Liste Bazında veya Durum Bazında Veri Silme
(Listwise or Casewise Data Deletion-LD
veya CD)
Bu çözüm tekniğine göre, eğer bir kayıt herhangi bir analizde kullanılan herhangi bir değişken için kayıp veri içeriyorsa, tüm kayıt analizden çıkarılır. Diğer bir deyişle tüm kayıtları olan yanıtlayıcı analizde yer alır ve diğerleri analiz dışı bırakılır. Bu yaklaşım kayıp veriler için kullanılan en temel yöntemdir ve SAS ve SPSS gibi sıkça kullanılan istatistiksel paket programlarında yer almaktadır. MCAR ve NI durumlarında kullanılması yanlı sonuçlara sebebiyet verecektir. MAR durumunda kullanılabilecek bir yöntemdir.
Aşağıda görülen Tablo 1’ de sayısal bir örneğe yer verilmiştir.
Tablo 1. Sayısal Örnek[3]
|
Durum |
Değişken 1 |
Değişken 2 |
Değişken 3 |
|
1 |
13 |
23 |
21 |
|
2 |
14 |
22 |
17 |
|
3 |
15 |
- |
11 |
|
4 |
16 |
18 |
- |
|
5 |
17 |
17 |
12 |
|
6 |
- |
20 |
8 |
|
7 |
- |
20 |
15 |
Bu tabloda 3 değişken ve 7 durum söz konusudur. 21 gözlem değerinin 4 tanesi kayıptır. Liste bazında veya durum bazında silme yöntemine göre kayıp değer içeren 3., 4., 6. ve 7. durumlar hesaplama dışı bırakılarak, kayıp değer içermeyen 1., 2. ve 3. durumlara dayanılarak hesaplamalar yapılacaktır.
3.2. Çiftler Bazında Veri Silme (Pairwise
Deletion-PD)
Bu yönteme göre her değişken çifti için tüm durumları tam olan gözlemlerden korelasyon/kovaryans tahminleri hesaplanır. Örneğin Tablo 1’ deki örneğe göre, değişken 1 ve değişken 2 için kovaryans tahmini 1., 2., 4. ve 5. durumlara dayanılarak hesaplanacaktır.
PD her bir korelasyon için en iyi tahmini sağlar. Çünkü elde edilebilir tüm bilgiyi kullanmaktadır. PD verilere ilişkin daha fazla bilgiyi kullandığından, LD’ den daha etkin bir yöntemdir. Eğer veriler MAR koşulunu sağlıyorsa aynı LD’ de olduğu gibi tahminler yanlı olacaktır.
PD için özel bir problem, sonuç olarak elde edilen korelasyon matrisinin pozitif tanımlı olmayabilmesi problemidir. Bu korelasyon matrisinin tersinin kullanılması durumunda probleme yol açacaktır.
PD yöntemi için bir diğer problem, uygun örneklem büyüklüğünün belirlenmesi için paket programların iyi bir yol sağlayamamasıdır. Örneğin SPSS, en küçük çiftler bazında korelasyonun örneklem büyüklüğünü N olarak kabul eder. Bu örneklem büyüklüğü tahmini, korelasyonların çoğu yaklaşık olarak tam bilgiye dayandığı durumlarda doğru bir tahmin olmayacaktır.
LD ile PD kıyaslandığında PD daha iyi sonuçlar sağlamaktadır (matris pozitif tanımlı olduğunda) fakat aşağıda değinilecek diğer yöntemler PD’ den daha avantajlıdır[4].
3.3. Yerine Ortalamayı Koyma (Mean Substitution)
Kayıp değer için sıkça kullanılan bir starateji, kayıp değer içeren değişkenin ortalamasını kayıp değerin yerine kullanmaktır. Eğer ortalama gelir 500 dolar ise, gelirini beyan etmeyen bir kişi için gelir 500 dolar kabul edilir. Ortalamanın bu şekilde atanmasındaki mantık, kişiye ilişkin diğer her hangi bir bilgi olmadan, herhangi normal dağılımlı bir değişken için değerlerin en iyi tahmininin ortalama oluşudur (örneğin gelir gibi eğik değişkenler için en iyi yol medyan gelirin kayıp değerler için kullanılmasıdır.).
Eğer veriler yaklaşık olarak normal dağılım göstermekteyse ve MAR koşulu sağlanıyorsa, bu yöntem standartlaştırılmamış yanlı parametre tahmini olmayacaktır. Diğer taraftan çok sayıda cevaplayıcı bir değişkene ilişkin benzer skorlara sahipse (örneğin gelirleri 500 dolar ise), kayıp değerli değişkenler arasındaki kovaryans ve değişkenler arasındaki varyans daralacaktır. Varyansın daralması R2 ve β gibi standardize olmuş katsayıların tahminlerini azaltacaktır. Azaltılmış varyans normal olarak standart hataları arttırmakta ve t oranlarını azaltmakla birlikte, yerine ortalamayı koyma yöntemi aynı zamanda örneklem büyüklüğünün artıracaktır. Bu yapay olarak şişirilmiş örneklem büyüklüğünün kullanılması sonucunda, bu yöntem t oranlarını daha anlamlı hale getirecektir.
Bu yöntemle bağlantılı diğer bir yöntem olan yerine grup ortalamasını koyma yaklaşımı daha anlamlı sonuçlara ulaşılmasını sağlayacaktır[5]. Bu yönteme göre, kayıp değer içeren değişkene bağlı olarak daha homojen olan gruplar için ortalama kayıp değerlerin yerine kullanılır. Bu yaklaşım yerine ortalamayı koyma yaklaşımından daha iyi sonuçlar sağlar. Kayıp değerler için atıflar daha yerindedir ve varyans çok fazla daraltılmamış olur. Fakat yine de bu yaklaşım varyansı daraltır ve bu yolla kovaryanslar/korelasyonlar yanlı sonuç verir.
3.4. Regresyon Atfı (Regression Imputation)
Çoklu regresyon kayıp değerlere atıf yapmak için kullanılan bir diğer yöntemdir. Bu yöntem, kayıp değer içeren her bir değişkeninin, diğer tüm değişkenler üzerine veya ilişkili değişkenler üzerine regresyon denkleminin kurulmasını içerir. Bu regresyon denkleminden elde edilecek tahmini değer, kayıp değerlere atıfta bulunmak için kullanılır. Regresyon atfı kullanıldığında bir rassal hatanın modele dahil edilmesi önemlidir. Bu hata terimi ya rassal olarak belirlenir, ya bir rassal normal sapmadır veya kullanıcı tarafından belirlenecek serbestlik derecesine bağlı bir rassal t değeri olabilir[6]. Bu atıf tekniği, bağımsız değişkenlerdeki kayıp değerlerin atfı için kullanıldığında, bu durum çoklu doğrusal bağlılığa katkıda bulunacaktır çünkü kayıp değerler için atıfta bulunulan değerler modeldeki diğer değişkenler ile ilişkili olacaktır. Regresyona dayalı atıf tekniğinde modele dahil edilmeyen diğer değişkenlerin kullanılması da mümkündür. Fakat bu durumda daha zayıf tahmin değerleri elde edilecektir.
Regresyon atfını kullanmanın bir avantajı, atıfta bulunulacak kayıp değer içeren değişkenin her bir kayıp değeri için farklı bir bağımsız değişkenler kümesini kullanmasıdır. Bu yaklaşımın yerine ortalamayı koyma yaklaşımından bir avantajı, kayıp değer içeren değişkenlerin varyans ve kovaryanslarını korumasıdır. Çünkü bir değişkenin kayıp her bir durumu, diğer değişkenlerin değerlerine bağlıdır ve her seferinde farklı bir tahmin değerini verecektir. Bu yöntemin aşağıda anlatılacak EM yaklaşımından dezavantajı ise daha sınırlı sayıda bilgiyi kullanmasıdır.
3.5. Hot deck Atfı (Hot deck imputation)
Hot deck atfında, veri matrisindeki kayıp gözlemler benzer gözlemlerle doldurulur. Aşağıdaki Tablo 2 bu amaçla verilmiş bir örnek durumu içermektedir[7].
Tablo 2. Hot deck atfı
için örnek
|
Durum |
Değişken1 |
Değişken2 |
Değişken3 |
Değişken4 |
|
1 |
4 |
1 |
2 |
3 |
|
2 |
5 |
4 |
2 |
5 |
|
3 |
3 |
4 |
2 |
|
Tablo 2 incelendiğinde, değişken 4 için 3. durum değerinin bir kayıp değer içerdiği görülebilir. Hot deck atfı, değerlerin tam olduğu durumları araştırır ve kayıp değer için, en çok benzer olduğuna inanılan gözlem değerini atfeder. Örnek için tam gözlem değerine sahip durumlar 1 ve 2’ dir. Bu 2 durum değerleri incelendiğinde, durum 2 için değerlerin, durum 3’ e daha benzer olduğu sonucuna ulaşmaktayız. Dolayısıyla durum 3’ün Değişken 4 için kayıp olan değerini 5 olarak belirleyebiliriz.
Hot deck atfı uzun bir kullanım tarihine sahiptir. Bu atıf, liste bazında veri silme, çiftler bazında veri silme, yerine ortalamayı koyma yöntemlerinden üstün bir tekniktir. Hot deck atfının avantajları arasında kavramsal basitliği, değişkenlerin ölçüm düzeylerini koruması (kategorik değişkenler kategorik olarak, sürekli değişkenler sürekli olarak kalır) ve tamamlanmış veri matrisi elde edilmesi sayılabilir.
Tamamlanmış veri matrisi sayesinde de standart istatistiksel analizler uygulanabilir.
Hot deck atfının en önemli dezantajı, ‘benzerlik’ kavramının tanımlanmasındaki güçlüktür. Bu nedenle hot deck prosedürü kayıp veriler için standart bir yol sağlamamaktadır. Bu benzerliğin belirlenebilmesi için verici (donor)durumların seçimini başarabilecek bir yazılım gerekmektedir. Daha ileri bir hot deck algoritmasına göre, benzer bir kayıttan daha fazla sayıda kayıt belirlenir ve bu verici (donor) kayıtlardan biri kayıp değerlerin atfı için rassal olarak seçilir. Ayrıca eğer uygunsa, bu verici durumların ortalaması kayıp değerlerin atfı için kullanılır.
3.6. Beklenti Maksimizasyonu (Expectation
Maximization-EM)
Beklenti maksimizasyonu (EM), iki farklı adımdan oluşan iteratif bir prosedürdür. Bu prosedürün ne şekilde işlediğini göstermek amacıyla Tablo 3’ de görülen Kuramsal verilerden hareket edilecektir[8].
Tablo 3. Kuramsal
Veriler
|
Durumlar |
V1 |
V2 |
V3 |
V4 |
|
1 |
5 |
4 |
3 |
2 |
|
2 |
- |
3 |
2 |
1 |
|
3 |
2 |
- |
4 |
5 |
|
4 |
- |
2 |
- |
3 |
|
5 |
2 |
2 |
- |
- |
|
6 |
5 |
4 |
3 |
2 |
|
7 |
3 |
2 |
1 |
1 |
|
8 |
3 |
2 |
5 |
- |
|
... |
... |
... |
... |
... |
Tablo 3’ de – ile işaretli hücreler kayıp değer içeren hücrelerdir. V1 ile sembolize edilen 1. değişken ile işe başlanacak olursa, bu değişken için ilk kayıp değerin 2 nolu durumda ortaya çıktığını görmekteyiz. Bu durum için oluşan kayıp değer, durum 2 için V2, V3 ve V4 değişkenlerindeki değerler kullanarak atfedilecektir. Doğrusallık ve normal dağılım varsayımları altında, herhangi bir istatistiksel paket programında bulabileceğimiz doğrusal regresyon denklemini, bizim için en iyi tahminci olacaktır:V1’=B0+B1V2+B2V3+B3V4. V1 ile sembolize edilen 1. değişken için diğer bir kayıp değer 4. durumda meydana gelmiştir. Bu kayıp değeri atfetmek için ise V1’=B0+B1V2+B2V4 doğrusal regresyon denklemi kullanılacaktır. V3 değişkeni regresyon denklemine alınmamıştır çünkü 4. durum için V3 değişkeninin de değeri kayıptır. Bu süreç, tüm kayıp değerler atfedilinceye değin aşağıya doğru devam etmektedir.
Bu yaklaşımın kullanılmasında, tahmin edilen değere eklenmek üzere rassal olarak bir hata değerinin belirlenmesi gerekmektedir. Eğer bir regresyon denkleminden elde edilen tahmin güçlü bir tahmin ise (örneğin R2’ si büyükse), denkleme küçük bir hata değeri eklenir. Tersine bir regresyon denkleminden elde edilen tahmin güçlü bir tahmin değilse, büyük bir hata değeri denkleme eklenecektir. Bu hata değerlerini elde etmenin kolay bir yolu, örneğin V1 kayıp değer içermiyorsa, V1 için elde edilecek kalıntıları bu hata değeri için kullanmaktır. Bu hata değerlerinden biri atfedilen değere eklenmek veya çıkarılmak üzere rassal olarak seçilir. Böylece bu iteratif prosedürün ilk adımı tamamlanmış olur. Sonuçta kayıp değer içermeyen bir veri matrisi elde edilmiş olur ve bu yeni veri matrisine dayalı olarak kovaryans matrisi hesaplanır.
İkinci adımda ise, birinci adımda oluşturulan atfedilmiş değerler içeren ham veri matrisi ele alınır ve süreç tekrarlanır. Tablo 3’ deki kuramsal veri örneğimize dönersek, 4. duruma gelindiğinde, V1’değerinin değerini tahmin etmek için yalnızca V2 ve V4 değerlerini kullanmak yerine aynı zamanda V3 değişkeni için bir önceki adımda bulunan atıf değeri de kullanılacaktır. 2. durumu ele aldığımızda ise V2, V3 ve V4 kayıp değeri tahmin etmek için kullanılıyordu. Bu ikinci aşamada 2. durumda yer alan kayıp değeri atfetmek için kullanacağımız regresyon denklemi daha iyi tahminler sağlayacaktır çünkü 1. aşamadan elde ettiğimiz atfedilmiş değerler kullanılacaktır. İkinci aşamadan elde edilecek bu regresyon kümesi, daha fazla bilgi kullandığı için daha iyi tahminler sağlayacaktır İkinci aşama tamamlandığında yeni bir veri matrisi ve kovaryans matrisi elde edilecektir.
Bir sonraki aşama olarak süreç sürdürülür ve üçüncü veri matrisi ve kovaryans matrisi elde edilir. Eğer üçüncü veri matrisi ikinciden anlamlı bir biçimde farklılık gösterirse, dördüncü aşamaya geçilir. En son elde edilen ardıl iki kovaryans matrisi hemen hemen benzer ise iteratif süreç durdurulur.
Doğrusallık ve normal dağılım şartıyla bu prosedürün uygulanabileceğinden bahsetmiştik. Fakat özel tahmin yöntemleri bilinen herhangi bir dağılıma uygun olan kategorik veriler veya kategorik olmayan veriler için kullanılabilir. EM algoritmasını kullanan yazılım programları daha çok normallik varsayımına dayanmakta ve atıf için regresyonu kullanmaktadır.
Yukarıda sözü edilen diğer atıf yöntemleri gibi EM yaklaşımı da geçerli olmayan standart hatalara yol açacaktır. EM yaklaşımı çoklu atıf yöntemi için genişletildiğinde, standart hataların geçerli tahminlerini elde edilmesi mümkün olabilecektir.
3.7. Çoklu Atıf (Multiple İmputation-MI)
Çoklu atıf tekniği (MI), kayıp değerlerin yerine m tekrar sayısı ve m>1 olmak üzere simüle edilmiş versiyonlarının kullanıldığı bir Monte Carlo tekniğidir[9]. Buradaki m sayısı oldukça küçüktür (3-10 arasında). Bu teknik üç temel adımı gerektirir: atfetme (imputation), analiz etme (analysis) ve bir araya getirme (pooling). Bu adımlar arasında başarması en zor olanı atfetme adımıdır. Bu adımda karşılaşılabilecek tipik problemler şunlardır:
· Herhangi bir gözlemin kayıp olması, o gözlemin değerine bağlıdır. Örneğin yüksek veya düşük gelir düzeyine sahip kişiler gelir sorusunu atlama eğilimindedir.
· Kayıp değerler veriler kümesinin her hangi bir yerinde görülebilir.
· Atfetme adımda kullanılan yöntem, daha sonra yapılması düşünülen tamamlanmış veriler ile analiz aşamasının öngörülmesini zorunlu kılar.
Atfedilen veriler için tekrar uygulanan analiz adımı, atfedilme uygulanmadan önce yapılan aynı analizden daha basittir. Çünkü kayıp değerlerin sıkıntısı ortadan kalkmıştır. Bir araya getirme adımı ise, m defa tekrarlanmış analizlerden, p değerleri, güven aralıkları, varyanslar ve ortalamaların hesaplanmasını içerir. Bu hesaplamalar da genel olarak basit hesaplamalardır.
MI’ lar yaratacak yeni hesapsal yöntemlerin ve yazılımların oluşumuyla teknik, araştırmaları kayıp değerlerle engellenen biomedikal ve sosyal bilim araştırmacıları için artan bir biçimde çekici bir hal almaktadır.
Çoklu atıf tekniğinin çok sayıda avantajlı yönü vardır. Her şeyden önce oldukça iyi anlaşılabilecek bir tekniktir. Aynı zamanda analizde yer alan değişkenlerin normalliği ihlal ettiği durumda da gürbüz sonuçlar verir. Liste bazında veri bozma, çiftler bazında veri bozma ve yerine ortalamayı koyma yöntemlerinden pek çok durumda üstündür. Dezavantajı ise üçten ona kadar veri kümesinde atıf işlemi yaparken yoğun zaman gerektirmesidir.
Yukarıda sözü edilen atıf tekniklerinden başka tam bilgi en çok olabilirlik tahmini (full information maximum likelihood estimation), yapısal denklem modelleme yaklaşımı (structural equation modeling approach) ve örüntü karışımı model yaklaşımı (pattern mixture model approach) diğer atıf yöntemlerinden bazılarıdır. Bu yöntemler sık kullanılmadığından çalışmaya dahil edilmemiştir.
Aşağıda yer alan Tablo 4’ de atıf yöntemlerinin
uygulanmasını sağlayan belli başlı programlar, varsayımları ve programlar
hakkındaki yorumlar belirtilmiştir. Tablo 5’ de ise atıf yöntemlerinin güçlü ve
zayıf yönleri ele alınmıştır.
Tablo 4. Atıf Yöntemlerinin Uygulanmasını Sağlayan Belli Başlı Programlar, Varsayımları ve Programlar Hakkındaki Yorumlar[10]
|
Yazılım Adı |
Yöntem |
Varsayımlar |
Yorum |
|
Amelia |
Çoklu Atıf (Multiple Imputation) |
Veriler MAR koşulunu sağlamakta. |
Kullanım kolaylığı basit ve orta düzey arasında |
|
SAS |
Yerine Ortalamayı Koyma (Mean Substitution) |
Veriler MCAR koşulunu sağlamakta. |
Kullanımı kolay fakat kayıp verilerin sayısı az
olduğunda (örneğin %5) tavsiye edilir. |
|
SAS/IML |
Çoklu Atıf (Multiple Imputation) |
Veriler MAR koşulunu sağlamakta. |
İlk kez kullanmaya başlayacaklar için kolay değil. |
|
Paul Allison’ un SAS Makrosu |
Çoklu Atıf (Multiple Imputation) |
Veriler MAR koşulunu sağlamakta. |
İlk kez kullanmaya başlayacaklar için kolay değil. |
|
SPSS Temelinde |
Ortalamayı Yerine Koyma |
Veriler MCAR koşulunu sağlamakta. |
Kullanımı kolay fakat kayıp verilerin sayısı az
olduğunda (örneğin %5) tavsiye edilir. |
|
SPSS Missing Value Analysis modülü |
EM Regresyon Atfı |
Veriler MAR koşulunu sağlamakta. |
Kullanımı kolay. Parametre tahminleri yansız,
fakat standart hatalar ve t istatistikleri yansız değil. |
|
NORM |
Çoklu Atıf (Multiple Imputation) |
Veriler MAR koşulunu sağlamakta. |
En son versiyonunda yer alan yardım sistemi
analizdeki adımlar boyunca ne yapılması gerektiğini anlatmakta. |
|
SOLAS |
Çoklu Atıf (Multiple Imputation) Hot Deck Regresyon |
Araştırmacının seçtiği tekniğe bağlı olarak
veriler MAR veya MCAR koşulunu sağlamakta. |
Kullanımı kolay. |
|
SIRNORM SAS makro program seti |
Çoklu Atıf (Multiple Imputation) |
Veriler MAR koşulunu sağlamakta. |
İlk kez kullanmaya başlayacaklar için kolay değil. |
Tablo. 5. Çözüm ve Atıf Yöntemlerinin Güçlü ve Zayıf Yönleri[11]
|
Yöntem |
Güçlü
Yönleri |
Zayıf
Yönleri |
|
Liste
bazında veya durum bazında silme/tam durum analizi |
Pozitif
tanımlı korelasyon matrisi üretir. Tüm
analiz tek örnekleme dayanır. Basittir. |
En
az güçlü prosedürdür. Eğer veriler MAR koşulunu sağlamıyorsa, sonuçlar
yanlı olabilir. Eldeki
verilere önem vermez. Varyansı
düşürür ve beta ağırlıkları gibi R2’ yi de daraltır. |
|
Çiftler
bazında silme |
Eldeki
verilerin tümünü kullanır. Liste
bazında silmeden daha güçlü bir yöntemdir. Basittir. |
Ürettiği
korelasyon matrisi pozitif tanımlı değildir. Her
bir korelasyon farklı örnekleme dayanır. Eğer
veriler MAR koşulunu sağlıyorsa, iyi tahminler ve standart hatalar üretir. |
|
Yerine
ortalamayı koyma |
Hesaplanması
kolaydır. |
Varyansları
ve bu sebepten de kovaryans ve korelasyonları düşürür. beta
ağırlıklarını ve R2’ yi daraltır. Veriler MAR koşulunu sağlasa bile,
yanlı olarak şişirilmiş örneklem büyüklüğü sağlar. |
|
Yerine
alt grup ortalamasını koyma |
Makul
derecede hesaplanması kolaydır. Varyansın
çoğunu korur ve bu sebeple yerine ortalamayı koyma yönteminden daha az
yanlıdır. |
Varyansı
düşürür ve bu nedenle de kovaryans ve korelasyonlar düşer. Veriler
MAR koşulunu sağlasa bile, yanlı olarak şişirilmiş örneklem büyüklüğü sağlar
(fakat yerine ortalamayı koyma yönteminden daha az). |
|
Regresyon
atfı |
Kayıp
değer için iyi bir tahmin sağlar. SPSS
programı rassal hatanın eklenmesine olanak tanır. EM’
den farklı olarak atfedilecek her bir değişken için tahmincilerin farklı bir
kümesini kullanır. |
SPSS
programı kullanılarak rassal hatanın eklenmesi sağlanmazsa, bir stokastik
hata teriminin eksikliğinden dolayı, sonuçlar tahminin üzerinde çıkmaktadır. SPSS
programı kullanılarak rassal hatanın eklenmesi sağlanmazsa, çoklu bağlılık
problemi oluşur. SPSS
programı kullanılarak rassal hatanın eklenmesi sağlanmazsa, varyansı aşağıya
çeker. Tek
iterasyon prosedürü olduğundan dolayı, EM kadar çok bilgi kullanmaz. |
|
EM |
Güçlü
ve üstün bir çözüm sağlar. Tüm
verileri kullanır. Atıfa
stokastik hata terimini dahil eder. SPSS,
MCAR koşulunun sağlanıp sağlanmadığının araştırılması (Little’ın) için bir ki-kare
testi geliştirmiştir. |
Özel
program gerektirir. Eğer
önemli mekanizmalar dahil edilmediğiyse, yanlı sonuçlar doğurur. Mevcut
programlar normal teori ile sınırlandırılmıştır. |
|
Çoklu
atıf |
Güçlü
ve üstün bir çözüm sağlar. Atıfa
stokastik hata terimini dahil eder. Standart
hataların daha iyi tahminlerini sağlar. |
Özel
program gerektirir. Eğer
önemli mekanizmalar dahil edilmediğiyse, yanlı sonuçlar doğurur. PC
platformaları için mümkün bir program olmadığından bezdiricidir. |
4.
UYGULAMA
Uygulama çalışması olarak Dünya Bankasının
web sayfasında yer alan 207 ülkeye ilişkin 54 değişkenlik bir veri tabanı baz
alınmıştır[12].
Bu 54 değişken incelendiğinde, bazı değişken değerlerinin tümünün kayıp olduğu gözlemlendi.
Bazı değişkenlerin ise çok büyük oranda kayıp değer içerdiği gözlemlendi. Bu
amaçla bir sınır getirilmesi gerektiği, getirilmediği takdirde, sonuçların
anlamsız olabileceğine karar verildi. Bu sınırın ne olması gerektiği konusunda
elimizde bir delil bulunmadığından, değerlerinin %60’ ı ve daha fazlası kayıp
olan değişkenlerin analizden atılması kararlaştırıldı. Çünkü böyle büyük
miktarda bilgi kaybı analiz sonuçlarını sağlıksız kılacaktı. Büyük miktarlarda
bilgi kaybının olduğu durumlarda çoklu atıf tekniği önerilmektedir[13].
Uygulama kısmında SPSS 10.0 programı kullanıldığından ve bu programda liste
bazında silme, çiftler bazında silme, EM ve regresyon atıf teknikleri ele
alındığından, %60 ve daha fazla değeri kayıp olan değişkenleri analiz dışına
çıkarmak zorunda kalınmıştır. Bu değişkenlerin atılmasıyla, kalan 36 değişken
üzerinden işlemlere devam edildi. Böylece 7452 gözlem değerinden oluşan bir
veri tabanı oluşturuldu. Bu 36 değişkenin neler olduğu ve kısaltmaları şu
şekildedir:
1. Tarım, katma değerli (GSYIH’ nın yüzdesi
olarak)-TARIM
2. Kişi başına düşen yardım (cari $
olarak)-KİŞİYAR
3. Havayollarından yapılan kalkışlar
(bin)-HAVAYOL
4. Mal ve hizmet ihracatı (GSYIH’ nın yüzdesi
olarak)-İHRACAT
5. Toplam doğurganlık oranı (kadın başına düşen
doğum)-TOPDOĞO
6. Doğrudan yabancı yatırım, net girişler (cari
$ olarak)-DOĞYAYA
7. Kişi başına düşen tatlı su kaynakları (metre
küp olarak)-KİTAKAY
8. Piyasa fiyatıyla GSYIH (cari $
olarak)-PFGSYIH
9. GSYIH büyüme oranı (yıllık % olarak)-GSYIHBO
10. Kişi başına düşen GSMH, Atlas yöntemine göre
(cari dolar olarak)-KİGSMH
11. Gayri safi milli hasıla, Atlas yöntemine göre
(cari dolar olarak)-GSMH
12. Gayri safi yurtiçi yatırım (GSYIH' nın %' si
olarak)-GSYİY
13. Yüksek teknoloji ihracatı (imalat ihracatının
% si olarak)-YTEKİHR
14. Okuma yazma oranı, yetişkin bayan (15 yaş ve
üstü bayanların % si olarak)-OKYOBN
15. Okuma yazma oranı, yetişkin erkek (15 yaş ve
üstü erkeklerin % si olarak)-OKYOER
16. Mal ve hizmet ithalatı(GSYIH' nın yüzdesi
olarak)-İTHALAT
17. Endüstri, katma değerli (GSYIH' nın yüzdesi
olarak)-ENDÜSTRİ
18. Enflasyon, GSYIH deflatörü (yıllık %
olarak)-ENFLASY
19. İnternet kullanıcıları (her 10000
kişide)-İNTERKUL
20. Doğumdan itibaren ortalama ömür (yıl
olarak)-ORTLÖM
21. Para ve para benzerinin büyüme oranı (yıllık
% olarak)-PARABÜY
22. Ölüm oranı, bebeklerde (her 1000 canlı
doğumda)-ÖLORBE
23. Ölüm oranı, beş yaş altı (her 1000 canlı
doğumda)-ÖLORBAL
24. Kişisel bilgisayarlar (her 1000
kişide)-BİLGİSAY
25. Nüfus yoğunluğu (her km kareye düşen kişi
sayısı)-NÜFUSYO
26. Nüfus büyüme oranı (yıllık % olarak)-NÜFBÜYO
27. Toplam nüfus-NÜFUS
28. Borcun bugünkü değeri ($ olarak)-BORBÜGD
29. Hizmet ve benzerleri, katma değerli (GSYIH'
nın % si olarak)-HİZMET
30. Kısa vadeli borçlar ($ olarak)-KIVABOR
31. Yüzölçüm (km kare)-YÜZÖLÇ
32. Telefon hattı (her 1000 kişide)-TELHAT
33. Toplam borç servis karşılama (cari dolar
olarak)-TOPBOR
34. Ticaret (GSYIH' nın % si olarak)-TİCAR1
35. Ticaret (GSYIH mallarının % si olarak)-TİCAR2
36. Kentli nüfus (toplamın %' si olarak)-KENTNÜF
Bu 36 değişken Excel çalışma sayfasına
kopyalanıp, oradan SPSS 10.0 istatistiksel paket programına yüklenilmiştir.
SPSS’ e veriler yüklenildikten sonra, kayıp değerler için bir sayı atanıp,
SPSS’ in o değeri kayıp değer olarak algılaması sağlanılmıştır. Veri tabanı
hazırlandıktan sonra, Analyze modülünün Missing Value Analysis modülüne
girilmiştir. SPSS 10.0’ ın Missing Value Analysis alt modülünün, tahmin tekniği
olarak liste bazında silme, çiftler bazında silme, EM ve regresyon tekniklerini
kullandığından daha önce söz edilmişti. İlk olarak özetleyici istatistiklerin yer
aldığı bir tablo elde edilmiştir. Elde edilen tablo, Tablo 6’ da görülmektedir.
Tablo 6.

Tablo 6’ da
her bir değişken için elde edilen, var olan gözlem sayısı (N), ortalamalar, standart
sapmalar, kayıp değer sayıları ve yüzdeleri, aykırı değer sayısı yüksek ve
düşük olmak üzere görülmektedir. Tablo incelendiğinde, en yüksek kayıp değer
sayısına ve dolayısıyla yüzdesine sahip olan değişkenin 119 tane kayıp değer
içeren ve değerlerinin %57,5’ u kayıp olan YTEKİHR olduğu görülebilir. Diğer
tüm değişkenlerin kayıp değer yüzdesi %50’ inin altında bulunmuştur. Aykırı
değerlerin ise, tablonun altında gösterilen üst sınırın üstünde daha çok
yoğunlaştığı gözlemlenebilir. Ayrıca SPSS paket programından hareketle veri ve
kayıp örüntülerinin detaylı tablolarını elde etmek mümkündür. Fakat analize
alınan değişkenler ve ülke sayısı çok fazla olduğundan veri ve kayıp örüntüleri
tablolarına çalışmada yer verilmemiştir.
Özetleyici istatistiklerin ardından verilerimizin hangi kayıp değer
mekanizmasına sahip olabileceğine ilişkin bir ön inceleme niteliğinde olan ve
değişkenlerin her bir çifti arasında, varolan ve kayıp değerlerin ortalamaları
arasında anlamlı bir fark olup olmadığını belirlemek amacıyla t testleri
uygulanmıştır. Bu testler uygulanırken bir belirleyici (indicator) değişken
tanımlanmıştır. SPSS her bir değişken için kayıp belirleyici değişken
yaratmaktadır. Bu belirleyici değişken o değişkeninin değerinin varolup
olmadığını belirtir. Belirleyici değişkenler SPSS tarafından
görüntülenmemektedir fakat t testleri ve kayıp eşleşme oranları elde edilirken
bu değişkenlerden yararlanılmaktadır.
t istatistiklerini yorumlarken eğer t istatistiği, t tablo değerinden daha küçük çıkarsa, değişken ikilisinin varolan ve kayıp değerlerinin ortalamaları arasında bir fark olmadığı sonucuna varılmalıdır. Bu ikili karşılaştırmalarda %5’den daha az oranda kayıp değer içeren eşleşmeler ele alınmamıştır. Ayrıca %5’den daha azı kayıp olan 5 değişken (NÜFUS, İNTERKUL, KENTNÜF, NÜFUSYO ve YÜZÖLÇ) için kıyaslama yapılmamıştır.
Sonuç olarak 1116 karşılaştırma sonucu ve t istatistiği elde edilmiştir. t istatistiklerinin elde edildiği bu ikili karşılaştırmalar bize verilerin MCAR veya MAR mekanizmasına bağlı olup olmadığını belirlemek için bir ipucu vermektedir. Eğer ikili karşılaştırmalarda varolan ve kayıp değer ortalamaları arasında anlamlı bir fark yoksa, verilerin MCAR mekanizmasına, fark varsa MAR mekanizmasına bağlı olduğunu gösterecektir. Veriler için üçüncü durum olan NI mekanizmasının sağlanması beklenmemektedir, çünkü kayıp olma uygulamaya konu olan veri tabanı için değişkenin gözlemlenen değerlerine bağlı olmadığı varsayılmaktadır. Fakat bu kadar çok sayıda ikili karşılaştırmayı yorumlayarak hangi değişkenler kümesinin MCAR mekanizmasına, hangilerinin MAR mekanizmasına bağlı olduğunu belirlemek mümkün olamamaktadır. Bu yöntem daha az sayıda değişken ve gözlemin olduğu durumlarda daha sağlıklı bir yol sağlayacaktır. Bu ikili karşılaştırmalardan ve t istatistiklerinden, ancak ikili karşılaştırma amacıyla yararlanılabilecektir. Değişken sayısı arttıkça değişken kümesinin kayıp değer mekanizmasının t istatistikleriyle değerlendirilmesi imkansız bir hal almaktadır. t istatistik değerlerine çok fazla yer kapladığından ve analizde yararlanılmadığından yer verilmemiştir.
t istatistiklerinin
ardından SPSS, aşağıda Tablo 7‘de verilen uygunsuz birleşme oranları tablosunu
sağlamaktadır. Bu tabloda köşegen elemanlar ilgili değişkenin kayıp oranını
gösterirken, köşegen dışı elemanlar satırda yer alan değişkenin değerleri kayıp
iken, diğer değişkenin varolan değerlerinin yüzdesini göstermektedir. Bu
tabloda köşegen dışı elemanlar ne oranda büyükse, iki değişkenin o ölçüde MAR
mekanizmasına, ne oranda küçükse ise o oranda MCAR mekanizmasına bağlı
olabileceğine ilişkin ipuçları vermektedir. Tablodan yararlanılarak hangi
değişkenlerin analize dahil edilmesiyle, hangi mekanizmanın elde
edilebileceğine ilişkin ipuçları sağlanmaktadır. Bu tablodan Little’ ın MCAR
testi uygulanmasının ardından sonuçların haklılığının ispatlanması amacıyla
yararlanılacaktır.
Uygunsuz eşleşme oranları tablosu gelecek!
Uygunsuz eşleşme oranları tablosunun devamı gelecek!
Değişkenlerin hangi kayıp değer mekanizmasına bağlı olduğunun
belirlenmesinde, yukarıda da bahsedildiği gibi, SPSS paket programında EM algoritmasına
bağlı olarak hesaplanan Little’ın MCAR testinden yararlanılacaktır. SPSS paket
programı, veriler için EM algoritmasını uygularken iki varsayım yapmaktadır.
Birincisi ele alınan değişkenin sürekli olması gerektiğidir. Bu sebeple kesikli
değişkenler analiz dışı tutulmalıdır. İkincisi ise değişkenlerin normal
dağılıma sahip olduğu varsayılmaktadır. Öncelikle kesikli değişkenleri analiz
dışına çıkartmamız bu aşamada gereklidir. Kesikli değişkenler DOĞYAYA, PFGSYİH,
KİGSMH, GSMH, BORBUGD, KIVABOR, YÜZÖLÇ ve TOPBOR değişkenleridir ve bu
değişkenler MCAR testi hesaplanırken, hesaplama dışı kalacaktır. NÜFUS
değişkeni ise hiç kayıp değer içermediğinden analiz dışı tutulmuştur. İkinci
varsayım değişkenlerin normal dağılıma sahip olması gerektiği varsayımı idi.
Geriye kalan sürekli 27 değişken için normallik testleri yapılmıştır. Bu
normallik testleri sonucunda TOPDOĞO, GSYİHBO, GSYİY, ENDÜSTRİ, HİZMET ve
KENTNÜF değişkenlerinin normal dağılım göstermediği saptandığından bu
değişkenler de analiz dışı tutulmuştur.
Kalan 21 değişken için Little’ ın MCAR testi uygulanmıştır. p=0,00
olasılık düzeyinde 1434 serbestlik dereceli Ki-kare değeri 2021,285 olarak
bulunmuştur. Bu sonuç bize, değişken kümesinin sahip olduğu kayıp değer
mekanizmasının MCAR olduğunu gösteren sıfır hipotezini red etmemiz gerektiğini
belirtmektedir. Dolayısıyla bu değişken kümesinin sahip olduğu kayıp değer
mekanizmasının MAR olduğunu anlamaktayız. Kayıp değer mekanizmasının NI
olamayacağından çünkü her bir değişkenin değerlerinin birbirinden bağımsız
olduğundan daha önce söz etmiştik.
Kayıp değer mekanizmasının MAR olduğuna ilişkin ipuçlarını Tablo 7' de
yer alan uygunsuz eşleşme oranları tablosundan da görmekteyiz. Analize dahil
edilen TARIM, KİŞİYAR, HAVAYOL, İHRACAT, KİTAKAY, YTEKİHR, OKYOBN, OKYOER,
İTHALAT, ENFLASY, İNTERKUL, ORTLÖM, PARABÜY, ÖLORBE, ÖLORBAL, BİLGİSAY,
NÜFUSYO, NÜFBÜYO, TELHAT, TİCAR1 ve TİCAR2 değişkenleri için uygunsuz eşleşme
oranlarına bakıldığında özellikle YTEKİHR, TİCAR2, OKYOER ve OKYOBN gibi
değişkenler için oranlar yüksek olduğundan, bu değişkenleri içerecek kayıp
değer mekanizmasının MAR olabileceği yolunda ipuçları sağlamaktayız. Buna
karşılık yine Tablo 7' de ORTLÖM, NÜFBÜYO, ÖLORBAL, KİTAKAY ve HAVAYOL gibi
değişkenler için uygunsuz eşleşme oranlarının düşük olduğunu görmekteyiz. Bu
değişkenler kümesinin kendi içinde kayıp değer mekanizmasının MCAR
olabileceğine dair şüphelerimiz olsa da, diğer değişkenlerin de analize dahil
edilmesiyle meydana gelen mekanizmanın MAR olduğunu, Little' ın MCAR testi
sonuçlarından anlamaktayız.
Aşağıda yer alan Tablo 8 ise cetvelleştirilmiş örüntü tablosunu
göstermektedir. Tablonun ilk satırından tüm değişken değerleri tam olan ülke
sayısının 36 olduğu anlaşılmaktadır. Tabloda yer alan ´ işaretli değişkenler analiz dışına tutulduğunda
kaç tane tüm değişken değerleri tamamlanmış ülke sayısı elde edeceğimiz ise
tablonun en sağındaki değerlerden anlaşılmaktadır. Tablonun en solundaki
değerler ise ´ ile işaretli değişken veya değişkenlerin kaç ülke için kayıp olduğunu
göstermektedir. 18 tane ülke için yalnızca YTEKİHR değişkeninin değerlerinin
olmadığını, bu değişkenin analiz dışı tutulmasıyla tüm değişken değerleri tam
olacak ülke sayısının 54 olacağını tablodan görebilmekteyiz. Yine tablodan
yalnızca TİCAR2 ve YTEKİHR değişken değerlerinin aynı anda kayıp olduğu ülke
sayısının 5 olduğunu ve bu iki değişkenin analizden çıkarılmasıyla tüm değişken
değerleri tamamlanacak ülke sayısının 63 olduğunu görmekteyiz.
Cetvelleştirilmiş örüntü tablosu gelecek!
Kayıp değer mekanizmasının MAR olduğunun belirlenmesinin ardından, bu
kayıp değer mekanizması için uygun olan EM ve regresyon atfı tekniklerinin
uygulanmasına geçilmiştir. EM ve regresyon atfı teknikleri için 21 değişken
analize dahil edilmiştir. SPSS paket programı EM ve regresyon atfında yer
alacak hem bağımlı hem de bağımsız değişken kümesinin aynı olması gerektiği
varsayımından hareket ettiğinden, 21 değişkenin tümü hem bağımsız hem de
bağımlı değişken olarak ele alınmıştır. Var olan tüm değerler, EM ve regresyon
atıfları için tahmin edilen ortalama ve standart sapmalar sırasıyla aşağıda
Tablo 9 ve Tablo 10' da görülmektedir.


Tahmin edilen ortalama ve standart sapma değerlerinin ardından SPSS, EM
ve regresyon atfı tekniklerinden elde edilen kovaryans ve korelasyon
matrislerini vermektedir. EM atıf tekniğinden elde edilen kovaryans ve
korelasyon matrisleri sırasıyla Tablo 11 ve 12' de, regresyon atıf tekniğinden
elde edilen kovaryans ve korelasyon matrisleri ise sırasıyla Tablo 13 ve 14' de
görülmektedir. EM ve regresyon atfından elde edilen bu ortalama, standart sapma
değerleri ile kovaryans ve korelasyon matrisleri daha sonra yapılacak başka
istatistiksel analiz tekniklerinde kullanılabilecektir. Bu özetleyici
bilgilerin yanında SPSS, kayıp değerler için EM ve regresyon atfı ile elde
ettiği değerlerin kaydedilmesine olanak sağlamaktadır. Böylece bu tekniklerin
uygulanması sonucunda tüm değişken değerlerinin tam olduğu bir veri tabanı elde
edilmiştir.
EM atfı için
bulunan kovaryanslar tablosu gelecek!
EM atfı için
bulunan kovaryanslar tablosu gelecek!
EM atfı için
bulunan korelasyonlar tablosu gelecek!
EM atfı için
bulunan korelasyonlar tablosu gelecek!
Regresyon Atfı
için bulunan kovaryanslar tablosu gelecek!
Regresyon Atfı
için bulunan kovaryanslar tablosu gelecek!
Regresyon Atfı için
bulunan korelasyonlar tablosu gelecek!
5. SONUÇ
Çalışmamızda kayıp değer probleminin çözümü için geliştirilen teknikler
ve atıf tekniklerinin en temel olanları ve en sık kullanılanları özetlenmeye çalışılmıştır.
Liste bazında veya durum bazında veri silme ve çiftler bazında veri silme
teknikleri atıf yapmadan kayıp değer problemini çözmeye yönelik tekniklerdir.
Bunun yanında yerine ortalamayı koyma, regresyon, hot deck, EM ve çoklu atıf
teknikleri ise kayıp değerler yerine atıf yapılmasına olanak veren
tekniklerdir. Bu tekniklerin kuvvetli ve zayıf yönleri tablolaştırılarak
verilmiştir. Bu arada çalışmamızda kayıp değer mekanizmalarından
bahsedilmiştir. Bu kayıp değer mekanizmaları MCAR, MAR ve NI' dır. MCAR
mekanizmasına göre kayıp olma o değişken kümesindeki değişkenlerin kendi
değerlerine ve başka değişkenlere bağlı değildir. MAR mekanizmasına göre, kayıp
olma değişkenin kendi değerine bağlı değil ama diğer değişkenlerin değerlerine
bağlıdır. NI mekanizmasına göre ise, kayıp olma değişkenin kendi değerlerine ve
başka değişkenlerin değerlerine bağlıdır. Kayıp değer mekanizmalarına bağlı
olarak hangi çözüm tekniklerinin kullanılabileceği ve bu tekniklerin hangi
programlarda yer aldığı bu programlar hakkındaki yorumlar bir tablo halinde
sunulmuştur.
Uygulama bölümünde dünya bankasının web sayfasından elde edilen 207 ülkeye ilişkin 54 değişkenlik bir veri tabanı baz alınmıştır. 54 değişken incelendiğinde, bazı değişken değerlerinin tümünün kayıp, bazı değişkenlerin ise çok büyük oranda kayıp değer içerdiği gözlemlendi. Bu amaçla bir sınır getirilmesine karar verildi ve değerlerinin %60’ ı ve daha fazlası kayıp olan değişkenlerin analizden atılması kararlaştırıldı. Bu değişkenlerin atılmasıyla, kalan 36 değişken üzerinden işlemlere devam edildi. Böylece 7452 gözlem değerinden oluşan bir veri tabanı oluşturuldu. Uygulama kısmında SPSS 10.0 istatistiksel paket programı kullanılmıştır. Bu program liste bazında veri silme, çiftler bazında veri silme, EM ve regresyon atıf tekniklerinin kullanılmasına olanak tanımaktadır. Bu tekniklerin uygulanmasına geçmeden önce, değişkenlerin sahip olduğu kayıp değer mekanizmasının belirlenmesi gerekmektedir. Değişkenler arasındaki mekanizmanın ne olabileceğine yönelik ipuçları taşıyan t testleri ile uygunsuz eşleşme oranları tabloları elde edilmiştir. Fakat bu kadar çok sayıda değişken ile bu tabloları yorumlamak mümkün olamamıştır.
Değişkenlerin sahip olduğu mekanizmanın MCAR olup olmadığını belirleyebilmek için EM algoritmasına bağlı olarak hesaplanan Little' ın MCAR testi uygulanmıştır. Fakat EM tekniğinin kullanılabilmesi için değişkenlerin sürekli ve normal dağılıma sahip olması gerektiği varsayımından hareketle, kesikli ve normal dağılım göstermeyen değişkenler analizden dışlanmıştır. Bu şekilde 21 değişken analize alınmış ve bu değişkenler arasındaki kayıp değer mekanizmasının MCAR olamayacağı sonucuna ulaşılmıştır. Değişkenlerin sahip olduğu mekanizmanın NI olamayacağı çünkü değişkenlerin kendi değerlerinin birbirinden bağımsız olduğu varsayılarak, kayıp değer mekanizmasının MAR olduğu sonucuna ulaşılmıştır.
MAR kayıp değer mekanizmasına bağlı olan ve SPSS 10.0 paket programında yer alan EM ve regresyon atıf teknikleri uygulanmıştır. Sonuç olarak bulunan ortalama, standart sapma, kovaryans ve korelasyon değerleri daha sonra uygulanacak analizlerde kullanılabilmektedir. Ayrıca SPSS, EM ve regresyon atfı tekniklerinin kullanılmasıyla, kayıp değerler yerine atfedilen değerlerin yer aldığı tüm değişken değerlerinin tam olduğu veri kümesini de vermektedir.
KAYNAKÇA
Acock Alan C., ‘Working
with Missing Data’, http://www.orst.edu/instruct/hdfs632/MissingData.html
Dünya bankası, http://devdata.worldbank.org/data
General FAQ#25:Handling missing or incomplete data, http://www.utexas.edu/cc/faqs/stat/general/gen25.html.
Kim Yong, ‘The Curse of the Missing Data’
http://209.68.240.11:8080/2ndMoment/978476655/index_html.
SEM Dialogue, Pairwise deletion of missing data, http://www.smallwaters.com/faq-sem/faqs-snet6.html.
The Multiple İmputation
FAQ page, http://www.stat.psu.edu/~jls/mifaq.html.
Wothke Werner,
‘Longitudinal and multi-group modeling with missing data’, White papers on
Structural Equation Modeling,2000, http://www.smallwaters.com/whitepapers/longmiss/
* Uludağ Üniversitesi, İ.İ.B.F., Ekonometri Bölümü Öğretim Üyesi.
[1] Yong Kim, ‘The Curse of the Missing Data’, s.1., http://209.68.240.11:8080/2ndMoment/978476655/index_html.
[2] Yong Kim, a.g.k.,s.4.
[3] Werner Wothke, ‘Longitudinal and multi-group modeling with missing data’, White papers on Structural Equation Modeling, 2000, s. 3., http://www.smallwaters.com/whitepapers/longmiss/.
[4] Alan C. Acock, ‘Working with Missing Data’, s.6., http://www.orst.edu/instruct/hdfs632/MissingData.html.
[5] Alan C. Acock, a.g.k., s.7.
[6] Alan C. Acock, a.g.k., s.9.
[7] General FAQ#25:Handling missing or incomplete data, http://www.utexas.edu/cc/faqs/stat/general/gen25.html.
[8] Alan C. Acock, a.g.k., s.11.
[9] The Multiple İmputation FAQ page, http://www.stat.psu.edu/~jls/mifaq.html.
[10] General FAQ#25:Handling missing or incomplete data, http://www.utexas.edu/cc/faqs/stat/general/gen25.html
[11] Alan C. Acock, a.g.k., s.31.
[12] Bkz Dünya bankası web sayfasının adresi: http://devdata.worldbank.org/data
[13] Bkz. SEM Dialogue, Pairwise deletion of missing data, s.8, http://www.smallwaters.com/faq-sem/faqs-snet6.html.