YANLI KESTİRİCİLERİN BİR SINIFI VE BU SINIF İÇİN TANILAMA ÖLÇÜLERİ
A. Seda TOPÇUBAŞI* ve Nedret BİLLOR
Çukurova Üniversitesi
Balcalı, Adana
ÖZET
Çoklu lineer regresyonda; ön kestiriciler arasında
lineer bağımlılık olması ve sapan değerlerin varlığı durumunda en küçük kareler
analizi tutarlı sonuçlar vermemektedir. Ön kestiricilerin (açıklayıcı
değişkenler) lineer bağımlı olması durumunda, en küçük kareler kestiricisine
alternatif olabilecek çeşitli yanlı kestiriciler vardır. Lee ve Birch (1988)
yanlı kestiricilerin büyük bir bölümünü (ridge , genelleştirilmiş ridge , ana
bileşenler , ondalıklı rank ve Stein kestiricisi) içine alan bir sınıf
tanımladılar. Bu çalışmada yanlı kestiricilerin bir kısmını içeren bu sınıfa, Liu ve genelleştirilmiş Liu kestiricileri de
dahil edilmiştir. Ayrıca bu sınıfta yer alan
yanlı kestiricilerin kullanılması durumunda, veride tekli ve çoklu satır etkisinin
belirlenmesi için tanılama ölçüleri verilerek;
elde edilen ölçüler hesaplama
kolaylığı ve yeni ölçülerin elde edilmesini sağlayacağı düşüncesiyle tek sınıfta
toplanmıştır.
1.
GİRİŞ
En küçük kareler (E.K.K.)
kestiricisi, regresyon analizinde
bilinmeyen parametrelerin kestirilmesi için kullanılan en yaygın kestirim
yöntemlerinden biridir. Ancak E.K.K. kestiricisi, bir takım temel varsayımların
sağlanması durumunda sağlıklı sonuçlar verebilmektedir. Özellikle gözlemler ve
ön kestiriciler üzerindeki varsayımlar sağlanmadığında en küçük kareler
kestiricilerinin kararlı, küçük varyanslı ve dolayısıyla iyi kestiriciler olma
özelliği bozulur.
Ön kestiriciler matrisinin kolonlarının doğrusal bağımsız olması varsayımı en küçük kareler kestiricisinin tekliği için gerekli olan temel varsayımlardandır. Kolonlar arasında yaklaşık bir doğrusal ilişki olması iç ilişki problemi olarak isimlendirilir. Dolayısıyla veride önemli derecede iç ilişki problemi varsa E.K.K. kestiricisine alternatif olarak önerilebilen, iç ilişki problemine daha dayanıklı çok sayıda yanlı kestirici vardır (Stein, 1960; Hoerl ve Kennard, 1970,a,b; Marquardt, 1970; Liu, 1993). Bu yöntemlerden elde edilen kestiricilerin istatistiksel özelliklerinin araştırılması ve bu kestiricilerin karşılaştırılması işlemlerini kolaylaştıracağı düşüncesine dayalı olarak yanlı kestiricilerin büyük bölümünün tek bir sınıfta toplanması üzerinde çalışmalar yapılmıştır (Hocking ve ark. ,1976 ; Lee ve Birch, 1988).
E.K.K. kestiricisi için
temel varsayımlardan birisi de tüm gözlemlerin regresyon sonuçları üzerinde
eşit etkili olması varsayımıdır. Veri kümesinde
diğer gözlemlerden farklı davranan gözlemler sapan değer (outlier) olarak isimlendirilir ve bu tip gözlemlerin
belirlenmesi regresyon analizinde oldukça önemlidir. Sapan değerlerin belirlenmesine ilişkin; bir ve birden fazla satırın etkisini saptamak
üzere pek çok tanılama ölçüsü verilmiştir (Belsley ve ark, 1980 ; Cook ve
Weisberg, 1982 ; Atkinson, 1985; Chatterjee ve Hadi, 1988 ). Hesaplama
kolaylığı ve yeni ölçülerin tanımlanmasını sağladığı düşüncesiyle bu ölçülerin
büyük bir kısmını içeren JI
sınıfı verilerek bu sınıf üzerinde
çeşitli çalışmalar yapılmıştır (Hadi ve ark. ,
1995 ; Jones ve Ling, 1988).
Veri
kümesinde iç ilişki probleminin ve sapan değerlerin aynı anda bulunması karşılaşılabilecek bir diğer önemli
problemdir. Bu durumda, öncelikle iç ilişki problemini indirgemek ya da ortadan
kaldırmak için E.K.K. kestiricisi yerine yanlı kestiriciler kullanılmalıdır. İç
ilişki problemine çözüm olarak önerilen yanlı kestiricilerin kullanımı
durumunda ise sapan değerlerin belirlenebilmesi için tanılama ölçülerine
gereksinim duyulur. Literatürde yanlı kestiriciler için tanılama ölçülerine ilişkin az sayıda
çalışma vardır (Walker ve Birch, 1988 ; Walker, 1990 ; Chalton ve Troskie, 1992
; Akdeniz, 2001). Bu çalışmada E.K.K. kestiricisi için verilen tanılama
ölçülerinden yararlanarak, yanlı
kestiriciler için tanılama ölçüleri verilmiştir.
Bu
çalışmanın ikinci bölümünde yanlı kestiricilerin bir sınıfı verilmiş, üçüncü bölümde bu sınıf kestiriciler için tanılama ölçüleri
tanımlanarak bu ölçüler JI*
adı verilen bir sınıfta toplanmıştır. Verilen yöntemlerin uygulanabilirliği bir
veri kümesi kullanılarak dördüncü bölümde gösterilmiştir.
2. GENEL YANLI
KESTİRİCİLER
Standart çoklu doğrusal regresyon modeli:
y=Xb+e (1)
formunda olup, X; nxp tipinde bilinen ön kestiricilerin merkezileştirilmiş ve ölçeklendirilmiş (korelasyon formunda) matrisi, b ; px1 tipinde bilinmeyen regresyon katsayılarının, e ; nx1 tipinde E(e)=0 ortalamalı ve Var(e)=s2I varyans-kovaryans matrisli rastgele hataların vektörleridir. X¢X matrisinin özdeğerleri, (genelliği kaybetmeksizin) l1>l2>l3...>lp>0 ve L; köşegen elemanları X¢X matrisinin özdeğerleri olan pxp tipinde köşegen matristir.
X=[X1 X2 X3 ... Xp] ön
kestiricilerin matrisi olmak üzere
eğer hepsi birden sıfır olmayan c1,c2,...cp
sayıları için c1X1+
c2X2 +……+ cpXp » 0 oluyorsa, X matrisinin kolonları yaklaşık olarak
doğrusal bağımlıdır ve dolayısıyla veri kümesinde iç ilişki problemi söz
konusudur. İç ilişki problemi, en küçük kareler
kestiricisinin boyunun (normunun)
büyümesine; varyansının ve gerçek b
parametresi ile arasındaki uzaklığın artmasına neden olur. Olumsuz etkileri
nedeniyle veride ciddi bir iç ilişki probleminin olup olmadığı analiz öncesinde
araştırılmalıdır. X¢X matrisinin lj
» 0 olacak şekildeki
bir özdeğeri varsa; Vj bu özdeğere karşılık gelen özvektör olmak üzere XVj»0
olup bu küçük özdeğer iç ilişki probleminin göstergesidir. Bu nedenle özdeğerlere dayalı olarak hesaplanan koşul
sayısı ve koşul indisleri iç ilişki probleminin önemli belirleyicilerindendir.
Bu belirleyicilerin iç ilişki problemini
işaret etmesi durumunda daha küçük varyanslı bir kestirici elde
etmenin bir yolu, b
nın kestiricisinin yansız olması özelliğini değiştirmektir. b parametresinin,
* gibi öyle bir yanlı kestiricisi bulunabilir
ki; yansız
dan daha küçük
varyansa sahiptir. Hata kareler ortalaması (MSE); b ve
* arasındaki uzaklığın karesinin beklenen değeri
olup,
* yanlı kestiricisi için MSE(
*)=E[(
*- b)¢(
*- b)] şeklindedir. Hata kareler ortalaması
* kestiricisi varyans ve yanlılık teriminin karesinin
toplamı olarak;
MSE(
*)=trace(Var(
*))+[(E(
* )-b)¢ (E(
*)-b)] (2)
şeklinde verilir. Yanlı kestirim yöntemlerinde amaç; yanlılık terimi kullanarak varyansı daha küçük bir kestirici elde etmektir. Buna bağlı olarak yanlı kestirici için daha dar güven aralıkları elde edilecek ve böylece özellikle iç ilişkinin varlığı durumunda b parametresinin daha uygun bir kestiricisi elde edilmiş olacaktır. En yaygın olarak kullanılan yanlı kestiriciler; ridge, genelleştirilmiş ridge, ana bileşenler, ondalıklı rank, Stein, Liu ve genelleştirilmiş Liu kestiricileridir.
Yanlı kestiricilerin
istatistiksel özelliklerinin araştırılması ve bu kestiricilerin
karşılaştırılmasını kolaylaştıracağı düşüncesine dayalı olarak bu
kestiricilerin büyük bölümü tek bir
sınıfta toplanmıştır (Hocking ve ark. ,1976;
Lee ve Birch, 1988). V; pxp
tipinde kolonları X¢X
matrisinin özdeğerlerine karşılık gelen normalleştirilmiş özvektörler olan
ortogonal matris, Z=XV ve a=V¢b olmak üzere (1) ile verilen
modelin kanonik formu;
y=Za +e (3)
ile
verilir. Buradan (1) modelinin E.K.K. kestiricisi;
=V
olarak elde edilir.
qi=(
1
2...
i 0 0...0)¢; i=1,2,...,p yani ilk i elemanı kanonik modelin en küçük
kareler kestiricisi
ile aynı olan vektör
olsun. Dikkat edilirse qi vektörleri
lineer bağımsız p vektördür. Dolayısıyla (q1, q2,...,qp); p
boyutlu uzay için baz olarak düşünülebilir. a parametresinin kestiricileri
de p boyutlu uzayda vektörler
olduğundan, qi vektörlerinin
lineer kombinasyonu olarak yazılabilir. Başka bir deyişle a’ nın herhangi bir
kestiricisi;