YANLI KESTİRİCİLERİN BİR SINIFI VE BU SINIF İÇİN TANILAMA ÖLÇÜLERİ
A. Seda TOPÇUBAŞI* ve Nedret BİLLOR
Çukurova Üniversitesi
Balcalı, Adana
ÖZET
Çoklu lineer regresyonda; ön kestiriciler arasında
lineer bağımlılık olması ve sapan değerlerin varlığı durumunda en küçük kareler
analizi tutarlı sonuçlar vermemektedir. Ön kestiricilerin (açıklayıcı
değişkenler) lineer bağımlı olması durumunda, en küçük kareler kestiricisine
alternatif olabilecek çeşitli yanlı kestiriciler vardır. Lee ve Birch (1988)
yanlı kestiricilerin büyük bir bölümünü (ridge , genelleştirilmiş ridge , ana
bileşenler , ondalıklı rank ve Stein kestiricisi) içine alan bir sınıf
tanımladılar. Bu çalışmada yanlı kestiricilerin bir kısmını içeren bu sınıfa, Liu ve genelleştirilmiş Liu kestiricileri de
dahil edilmiştir. Ayrıca bu sınıfta yer alan
yanlı kestiricilerin kullanılması durumunda, veride tekli ve çoklu satır etkisinin
belirlenmesi için tanılama ölçüleri verilerek;
elde edilen ölçüler hesaplama
kolaylığı ve yeni ölçülerin elde edilmesini sağlayacağı düşüncesiyle tek sınıfta
toplanmıştır.
1.
GİRİŞ
En küçük kareler (E.K.K.)
kestiricisi, regresyon analizinde
bilinmeyen parametrelerin kestirilmesi için kullanılan en yaygın kestirim
yöntemlerinden biridir. Ancak E.K.K. kestiricisi, bir takım temel varsayımların
sağlanması durumunda sağlıklı sonuçlar verebilmektedir. Özellikle gözlemler ve
ön kestiriciler üzerindeki varsayımlar sağlanmadığında en küçük kareler
kestiricilerinin kararlı, küçük varyanslı ve dolayısıyla iyi kestiriciler olma
özelliği bozulur.
Ön kestiriciler matrisinin kolonlarının doğrusal bağımsız olması varsayımı en küçük kareler kestiricisinin tekliği için gerekli olan temel varsayımlardandır. Kolonlar arasında yaklaşık bir doğrusal ilişki olması iç ilişki problemi olarak isimlendirilir. Dolayısıyla veride önemli derecede iç ilişki problemi varsa E.K.K. kestiricisine alternatif olarak önerilebilen, iç ilişki problemine daha dayanıklı çok sayıda yanlı kestirici vardır (Stein, 1960; Hoerl ve Kennard, 1970,a,b; Marquardt, 1970; Liu, 1993). Bu yöntemlerden elde edilen kestiricilerin istatistiksel özelliklerinin araştırılması ve bu kestiricilerin karşılaştırılması işlemlerini kolaylaştıracağı düşüncesine dayalı olarak yanlı kestiricilerin büyük bölümünün tek bir sınıfta toplanması üzerinde çalışmalar yapılmıştır (Hocking ve ark. ,1976 ; Lee ve Birch, 1988).
E.K.K. kestiricisi için
temel varsayımlardan birisi de tüm gözlemlerin regresyon sonuçları üzerinde
eşit etkili olması varsayımıdır. Veri kümesinde
diğer gözlemlerden farklı davranan gözlemler sapan değer (outlier) olarak isimlendirilir ve bu tip gözlemlerin
belirlenmesi regresyon analizinde oldukça önemlidir. Sapan değerlerin belirlenmesine ilişkin; bir ve birden fazla satırın etkisini saptamak
üzere pek çok tanılama ölçüsü verilmiştir (Belsley ve ark, 1980 ; Cook ve
Weisberg, 1982 ; Atkinson, 1985; Chatterjee ve Hadi, 1988 ). Hesaplama
kolaylığı ve yeni ölçülerin tanımlanmasını sağladığı düşüncesiyle bu ölçülerin
büyük bir kısmını içeren JI
sınıfı verilerek bu sınıf üzerinde
çeşitli çalışmalar yapılmıştır (Hadi ve ark. ,
1995 ; Jones ve Ling, 1988).
Veri
kümesinde iç ilişki probleminin ve sapan değerlerin aynı anda bulunması karşılaşılabilecek bir diğer önemli
problemdir. Bu durumda, öncelikle iç ilişki problemini indirgemek ya da ortadan
kaldırmak için E.K.K. kestiricisi yerine yanlı kestiriciler kullanılmalıdır. İç
ilişki problemine çözüm olarak önerilen yanlı kestiricilerin kullanımı
durumunda ise sapan değerlerin belirlenebilmesi için tanılama ölçülerine
gereksinim duyulur. Literatürde yanlı kestiriciler için tanılama ölçülerine ilişkin az sayıda
çalışma vardır (Walker ve Birch, 1988 ; Walker, 1990 ; Chalton ve Troskie, 1992
; Akdeniz, 2001). Bu çalışmada E.K.K. kestiricisi için verilen tanılama
ölçülerinden yararlanarak, yanlı
kestiriciler için tanılama ölçüleri verilmiştir.
Bu
çalışmanın ikinci bölümünde yanlı kestiricilerin bir sınıfı verilmiş, üçüncü bölümde bu sınıf kestiriciler için tanılama ölçüleri
tanımlanarak bu ölçüler JI*
adı verilen bir sınıfta toplanmıştır. Verilen yöntemlerin uygulanabilirliği bir
veri kümesi kullanılarak dördüncü bölümde gösterilmiştir.
2. GENEL YANLI
KESTİRİCİLER
Standart çoklu doğrusal regresyon modeli:
y=Xb+e (1)
formunda olup, X; nxp tipinde bilinen ön kestiricilerin merkezileştirilmiş ve ölçeklendirilmiş (korelasyon formunda) matrisi, b ; px1 tipinde bilinmeyen regresyon katsayılarının, e ; nx1 tipinde E(e)=0 ortalamalı ve Var(e)=s2I varyans-kovaryans matrisli rastgele hataların vektörleridir. X¢X matrisinin özdeğerleri, (genelliği kaybetmeksizin) l1>l2>l3...>lp>0 ve L; köşegen elemanları X¢X matrisinin özdeğerleri olan pxp tipinde köşegen matristir.
X=[X1 X2 X3 ... Xp] ön
kestiricilerin matrisi olmak üzere
eğer hepsi birden sıfır olmayan c1,c2,...cp
sayıları için c1X1+
c2X2 +……+ cpXp » 0 oluyorsa, X matrisinin kolonları yaklaşık olarak
doğrusal bağımlıdır ve dolayısıyla veri kümesinde iç ilişki problemi söz
konusudur. İç ilişki problemi, en küçük kareler
kestiricisinin boyunun (normunun)
büyümesine; varyansının ve gerçek b
parametresi ile arasındaki uzaklığın artmasına neden olur. Olumsuz etkileri
nedeniyle veride ciddi bir iç ilişki probleminin olup olmadığı analiz öncesinde
araştırılmalıdır. X¢X matrisinin lj
» 0 olacak şekildeki
bir özdeğeri varsa; Vj bu özdeğere karşılık gelen özvektör olmak üzere XVj»0
olup bu küçük özdeğer iç ilişki probleminin göstergesidir. Bu nedenle özdeğerlere dayalı olarak hesaplanan koşul
sayısı ve koşul indisleri iç ilişki probleminin önemli belirleyicilerindendir.
Bu belirleyicilerin iç ilişki problemini
işaret etmesi durumunda daha küçük varyanslı bir kestirici elde
etmenin bir yolu, b
nın kestiricisinin yansız olması özelliğini değiştirmektir. b parametresinin,
* gibi öyle bir yanlı kestiricisi bulunabilir
ki; yansız
dan daha küçük
varyansa sahiptir. Hata kareler ortalaması (MSE); b ve
* arasındaki uzaklığın karesinin beklenen değeri
olup,
* yanlı kestiricisi için MSE(
*)=E[(
*- b)¢(
*- b)] şeklindedir. Hata kareler ortalaması
* kestiricisi varyans ve yanlılık teriminin karesinin
toplamı olarak;
MSE(
*)=trace(Var(
*))+[(E(
* )-b)¢ (E(
*)-b)] (2)
şeklinde verilir. Yanlı kestirim yöntemlerinde amaç; yanlılık terimi kullanarak varyansı daha küçük bir kestirici elde etmektir. Buna bağlı olarak yanlı kestirici için daha dar güven aralıkları elde edilecek ve böylece özellikle iç ilişkinin varlığı durumunda b parametresinin daha uygun bir kestiricisi elde edilmiş olacaktır. En yaygın olarak kullanılan yanlı kestiriciler; ridge, genelleştirilmiş ridge, ana bileşenler, ondalıklı rank, Stein, Liu ve genelleştirilmiş Liu kestiricileridir.
Yanlı kestiricilerin
istatistiksel özelliklerinin araştırılması ve bu kestiricilerin
karşılaştırılmasını kolaylaştıracağı düşüncesine dayalı olarak bu
kestiricilerin büyük bölümü tek bir
sınıfta toplanmıştır (Hocking ve ark. ,1976;
Lee ve Birch, 1988). V; pxp
tipinde kolonları X¢X
matrisinin özdeğerlerine karşılık gelen normalleştirilmiş özvektörler olan
ortogonal matris, Z=XV ve a=V¢b olmak üzere (1) ile verilen
modelin kanonik formu;
y=Za +e (3)
ile
verilir. Buradan (1) modelinin E.K.K. kestiricisi;
=V
olarak elde edilir.
qi=(
1
2...
i 0 0...0)¢; i=1,2,...,p yani ilk i elemanı kanonik modelin en küçük
kareler kestiricisi
ile aynı olan vektör
olsun. Dikkat edilirse qi vektörleri
lineer bağımsız p vektördür. Dolayısıyla (q1, q2,...,qp); p
boyutlu uzay için baz olarak düşünülebilir. a parametresinin kestiricileri
de p boyutlu uzayda vektörler
olduğundan, qi vektörlerinin
lineer kombinasyonu olarak yazılabilir. Başka bir deyişle a’ nın herhangi bir
kestiricisi;
|
KESTİRİCİ |
fj |
|
|
E.K.K. |
fj=1; j=1,2,3,...,p |
|
|
ANA
BİLEŞENLER {rank(X)=r; rÎZ+} |
fj=1; j=1,2,3,...r ; fj=0
(diğer durumlarda) |
|
|
ONDALIKLI RANK
{rank(X)Î[r,r+1]} |
fj=1; j=1,2,3...,r ; fr+1= fj=0 (diğer
durumlarda) |
|
|
RIDGE |
fj= |
|
|
GENELLEŞTİRİLMİŞ
RIDGE |
fj= |
|
|
STEIN |
fj =c
; j=1,2,3,...,p |
|
|
LIU |
fj= |
|
|
GENELLEŞTİRİLMİŞ
LIU |
fj= |
|
|
|
|
|
E.K.K. analizinde tanılama ölçüleri, leverage ve rezidülerin bir fonksiyonu olarak
yazılabilmektedir. Genel yanlı kestiriciler için de rezidü ve leverage
değerleri, tanılama ölçülerinin
oluşturulmasında önemli rol oynamaktadır.
X
ön kestiriciler matrisinin singüler değer ayrışımı X=UDV¢ olarak verilir. Burada V daha önce tanımlandığı gibi olmak
üzere, D; elemanları X matrisinin
singüler değerleri olan pxp tipinde
köşegen matris ve U; kolonları XX¢ matrisinin sıfırdan farklı p özdeğerine karşılık gelen özvektörler
olan nxp tipinde ortogonal matristir
(U¢U=V¢V=Ip). Böylece genel yanlı
kestirici için izdüşüm matrisi P*
ile gösterilir ve A=V(F-1-Ip)1/2
D V¢ olmak üzere;
P*=X(X¢X+A¢A)-1X¢=UFU¢ (23)
ile
verilir. E.K.K. kestiricisi için izdüşüm matrisi F=IP
olduğundan P=UU¢ şeklindedir. O halde genel yanlı kestirici ve
E.K.K. kestiricisi izdüşüm matrisi arasında;
P*= UFU¢ =U[Ip- (Ip -F)] U¢=P-U(Ip -F)U¢
ile
verilen bir bağıntı vardır. İzdüşüm matrisinin köşegen elemanları arasında ise;
pii*=
=pii -
(1-fk) uik2 (24)
bağıntısı
verilebilir. P matrisinin köşegen elemanları
her zaman için P*
matrisinin köşegen elemanlarından daha büyüktür (Walker, 1990). pii* ; i=1,2,...,n için “leverage değeri”
olarak isimlendirilir. P matrisi
simetrik ve idempotent bir matrisken, P*
simetrik fakat idempotent olmayan bir matristir. Bu yüzden “yalancı izdüşüm
matrisi” olarak da bilinir (Tripp, 1983).
Benzer şekilde alışılmış rezidü vektörü,
e*=y
-
*=y - P*y=(In - UFU¢ ) y (25)
ile
verilir. Genel yanlı kestirici ve E.K.K. kestiricisi alışılmış rezidüleri arasında;
e*=
e+ U (Ip- F) U¢ y Þ ei*= ei+
(26)
şeklinde
bir bağıntı vardır. Dikkat edilirse rezidüler arasında leverage değerlerine
benzer genel bir karşılaştırma yapmak söz konusu değildir. U matrisinin elemanlarına bağlı olarak |ei|<|ei*| ya da |ei*|<|ei|
olabilir.
Genel yanlı sınıf için elde edilen ei* ve pii* değerleri,
bu sınıf içerisinde yer alan kestiriciler için özelleştirilebilir. Bu
sınıfta yer alan ridge, Liu ya da diğer kestiriciler için, ikinci bölümde
verilen yanlılık parametreleri yerine yazılırsa özel olarak bu kestiriciler
için rezidü ve leverage değerleri tanımlanabilir. Örneğin ridge kestiricisi
için leverage değeri;
pii*=
(27)
şeklindedir
(Lichtenstein ve Velleman, 1983). (27) eşitliği kullanılarak önemli sonuçlar
elde edilebilir. İlk olarak daha önce de belirtildiği gibi ridge kestiricisi
için leverage değerleri E.K.K. kestiricisi leverage değerlerinden daha
küçüktür. İkinci olarak k değeri
arttıkça leverage değeri azalmaktadır ve bu azalmanın oranı i-inci satırın özvektörlerle olan
konumuna göre değişir. Ridge kestiricisi için i-inci alışılmış rezidü ise;
ei*= ei+k
(28)
olarak
elde edilir. Yine dikkat edilirse (28) eşitliğinde, toplamdaki ikinci terim pozitif ya da negatif
olabileceğinden ridge kestiricisi için
rezidü değeri genel olarak E.K.K. kestiricisi rezidüsünden büyüktür ya da
küçüktür denilemez. Benzer şekilde bu sınıfta yer alan diğer kestiriciler için
de leverage ve rezidü değerleri hesaplanabilir.
Rezidü
(ei*) ve
leverage (pii*)
değerlerinden yararlanarak, genel yanlı
kestiriciler için E.K.K. analizinde sapan değerlerin belirlenmesi için
kullanılan ölçüler yeniden tanımlanabilir. Bu ölçülerin genel amacı; verideki değişimlerin regresyon sonuçları üzerindeki etkisini
ölçmektir. Verideki değişim değişik şekillerde olabilir, ancak bu bölümde
verilen ölçüler veri kümesinden gözlem çıkarılması durumunda regresyon
sonuçlarının değişimini baz alırlar. Genel yanlı sınıfta yer alan kestiriciler
ölçeklemeye bağımlı olduğundan; her bir
gözlem çıkarıldıktan sonra açıklayıcı değişkenler matrisinin, X(i)¢X(i) korelasyon formunda olacak şekilde
yeniden merkezileştirilip,
ölçeklendirilmesi gerekmektedir. E.K.K. kestiricisi için verilen
tanılama ölçüleri, tam model için elde
edilen leverage ve rezidünün bir fonksiyonu olarak yazılabilmekteyken, genel yanlı sınıf kestiricileri için tanılama
ölçüleri bu şekilde tam olarak elde
edilemezler, sadece yaklaşık formüller
verilebilir. Dolayısıyla eğer yanlı kestiriciler için tanılama ölçüleri tam
olarak elde edilmek isteniyorsa, ilgili
gözlem çıkarıldıktan sonra tüm kestiriciler yeniden hesaplanmalıdır. Diğer
taraftan tanılama ölçülerinin leverage ve rezidü cinsinden yazılması uygulamada
oldukça kullanışlıdır. Bu yüzden
değerinin,
* ve tam model rezidü ve leverage değerleri
kullanılarak elde edilmesi konusunda çeşitli yaklaşımlar önerilmiştir. Bu
çalışmada, yüksek leverage noktaları
için iyi bir yaklaşım olmayan ancak hesaplama açısından önemli kolaylık
sağlayan; A=V(F-1-Ip)1/2 D V¢
ve K=X¢X+A¢A olmak üzere;
»
*-
ei* (29)
yaklaşımı kullanılmıştır (Walker ve Birch , 1988). s2 uydurulmuş değerlerin ve yanıt değişkenlerinin fonksiyonu olup, X¢X matrisinin özdeğerlerine bağlı değildir. Dolayısıyla iç ilişki probleminden etkilenmez (Walker ve Birch, 1988). Bu yüzden genel yanlı sınıf kestiricileri için s2 parametresinin kestiricisi olarak E.K.K. yönteminden elde edilen s2 kullanılmıştır. Bu çalışmada ise genel yanlı sınıf için tanımlanacak tanılama ölçülerinin tek bir sınıfta toplanması işlemini kolaylaştırmak amacıyla varyansın kestiricisi olarak;
s*2=
(30)
ifadesi kullanılacaktır. E.K.K. analizine benzer
şekilde, fj yanlılık parametrelerinin bire yakın ve
» pii*(1- pii*) olduğu varsayımıyla;
SSE*- SSE(i)*»
(31)
olarak elde edilir. Böylece
;
=
(32)
şeklindedir.
Verilen yaklaşımların
kullanılması ile E.K.K. kestiricisi için verilen ölçülerin büyük bir kısmı; i=1,2,...,n olmak üzere, genel
yanlı kestirici için de benzer şekilde
tanımlanabilir. Örneğin
» pii*(1- pii*) varsayımı ile Var(ei*)=s2(1-pii*) olup internally rezidü;
(33)
ve
externally rezidü;
(34)
ile
verilir. Benzer şekilde
QK* =SSE*
-SSE(i)*
(35)
ve
SSPEi*=||yi-xi
*||2
(36)
olarak tanımlanabilir. Di*(M,c)=
olmak üzere M
ve c nin özel seçimleri ile genel yanlı sınıf için tanılama ölçüleri elde edilebilir.
M=X¢X ve c=ps*2 olarak
alınırsa genel yanlı sınıf için Cook uzaklığı;
Di*(Napp)=
(37)
şeklinde elde edilir. X¢X yerine K=X¢X+A¢A matrisinin
kullanılmasıyla elde edilen başka bir
ölçü ise;
(38)
ile
verilir.
Welsch-Kuh ölçüsü genel yanlı kestiriciler için;
WKi*2(Napp)=(n-p-1)
(39)
olarak tanımlanır. E.K.K. analizinde hem X hem de y-yönündeki sapan değerleri belirlemeyi sağlayan Hi2 ölçüsü (Hadi,
1992) genel yanlı kestiriciler için normalleştirilmiş rezidü
olmak üzere;
Hi*2=
=
(40)
şeklinde tanımlanabilir. Toplamdaki ilk terim potansiyel, ikinci terim ise rezidü olarak adlandırılır.
Elde edilen ölçüler, I
ile indislenmiş m gözlemin
çıkarılması durumuna da genelleştirilebilir. E.K.K. kestiricisi için JI sınıfı, birçok tanılama ölçüsünü içine alacak şekilde
JI=g(n,p,m)f(KI(u,v,w,a,b,c))
olarak tanımlanır (Hadi ve ark., 1995). Bu sınıf yardımıyla tanılama ölçüleri
arasındaki ilişki daha açık görülebilmekte ve farklı parametre seçimleriyle ya
da bu sınıfta yer alan ölçüler kullanılarak yeni ölçüler tanımlanabilmektedir. JI sınıfı ölçüleri için, f(.) fonksiyonu iz veya determinant
fonksiyonlarından birisidir. Genel yanlı sınıf kestiricileri için verilen
tanılama ölçülerinin pek çoğu da benzer şekilde bir yaklaşımla bir sınıfta
toplanabilir. JI* olarak
isimlendirilen bu sınıf;
JI*=g(n,p,m)
f(KI*(u*,v*,w*,a*,b*,c*)) (41)
olarak tanımlanır. g(.); n (gözlem sayısı), m (çıkarılan gözlem sayısı) ve p’nin (değişken sayısı) fonksiyonu olup,
çekirdek (kernel) fonksiyonu;
KI*(u*,v*,w*,a*,b*,c*)=(Im-PI*)-u* (PI*)a*(Im-QI*)-v* (QI*
)b*(Im-PI*-QI*)-w*
(PI*+QI*)c*
şeklindedir. Çekirdek fonksiyonundaki u*, v*, w*,
a*, b* ve c*
parametreleri reel sayılardır. Çekirdek fonksiyonunda A=V(F-1-Ip)1/2
D V¢ olmak
üzere;
PI*=XI(X¢X+A¢A)-1XI¢ (42)
ve
QI*=eI*(e*¢ e*)-1eI*¢ (43)
olarak
tanımlanır.
f(.)
fonksiyonu genel yanlı sınıf için sadece iz olarak düşünülmüştür. Ancak varyans
oranı, Cook-Weisberg istatistiği gibi
ölçüler de genel yanlı sınıf kestiricileri için tanımlanabilir ve böylece genel
yanlı sınıf kestiricileri için elde edilen bu ölçüler determinant kullanılarak Jı* sınıfına dahil
edilebilir.
Genel yanlı sınıf
kestiricileri için JI*
sınıfının elemanı olan tanılama ölçüleri
, u*,v*,w*,a*,b*
ve c*
parametre değerleri ile birlikte Tablo 2. de verilmiştir:
Genel Yanlı Sınıf Kestiricileri için Çoklu Gözlem Tanılama Ölçüler
|
||||
|
Tanılama Ölçüsü |
g(n,p,m) |
f(KI(u*,v*,w*,a*,b*,c*)) |
(u*,v*,w*,a*,b*,c*) |
|
|
1 |
|
1 |
tr[QI*] |
0,0,0,0,1,0 |
|
2 |
|
n-p-m |
tr[(Im-PI*)(Im-RI*)-1QI*] |
-1,0,1,0,1,0 |
|
3 |
|
n-p |
tr[(Im-PI*)-1
QI*] |
1,0,0,0,1,0 |
|
4 |
|
n-p-m |
tr[QI*(Im –RI*)-1] |
0,0,1,0,1,0 |
|
5 |
|
1 |
tr[(Im-PI*)-1QI*] |
1,0,0,0,1,0 |
|
6 |
|
1 |
tr[(Im-PI*)-2 QI*] |
2,0,0,0,1,0 |
|
7 |
i)Cook uzaklığı ii)K=X¢X+A¢A |
|
i) tr[(Im-PI*)-2 PI*2QI*] ii)tr[(Im-PI*)-2 PI*QI*] |
2,0,0,2,1,0 2,0,0,1,1,0 |
|
8 |
i)X¢X
ve s*(I)2 ii)K ve s*(I)2 |
|
i)tr[(Im-PI*)-1PI*2QI*(Im-RI*)-1] ii)tr[(Im-PI*)-1PI*QI*
(Im-RI*)-1] |
1,0,1,2,1,0 1,0,1,1,1,0 |
|
9 |
K(i) ve s*2 |
|
tr[(Im-PI*)-1PI*QI*] |
1,0,0,1,1,0 |
|
10 |
K(i) ve s(I)*2 |
|
tr[PI*QI*(Im-RI*)-1] |
0,0,1,1,1,0 |
|
11 |
|
(n-p-m )(n-m) |
tr[(Im-PI*)-2PI*QI*(Im-RI*)-1] |
2,0,1,1,1,0 |
|
12 |
PZı* |
1 |
tr[RI*] |
0,0,0,0,0,1 |
|
13 |
|
1 |
tr[(Im-PI*)-1PI*] |
1,0,0,1,0,0 |
|
14 |
|
p/m 1/m |
tr[(Im-PI*)-1 (Im-QI*)-1QI*] + tr[(Im-PI*)-1PI*] |
1,1,0,0,1,0 1,0,0,1,0,0 |
Tablo 2. g(n,p,m) trace(KI*(u*,v*,w*,a*,b*,c*))
şeklinde
yazılabilen tanılama ölçüleri
Verilen bu ölçüler için
belli bir eşik değer vermek yerine, dal
yaprak gösterimi, indis grafiği gibi
grafiksel yöntemler kullanılması daha sağlıklıdır. Ayrıca Hi*2 ölçüsü için, E.K.K. analizinde olduğu
gibi potansiyel-rezidü (P-R) grafiği kullanılabilir.
Verilen birçok tanılama
ölçüsü, JI*
sınıfının özel hali olarak elde edilebilir. Bu sınıfta yer alan ölçülerin
birleştirilmesi sonucunda, ölçüler hakkında yeni bakış açıları kazanılabilir.
Örneğin Hi*2
ölçüsü bu sınıfa dahil olmamasına karşın,
bu sınıftaki iki ölçünün toplamı olarak yazılabilmektedir. Dolayısıyla bu
sınıfa dahil edilen ölçülerin birleştirilmesiyle yeni ölçüler de elde edilebilmektedir. Benzer şekilde JI* sınıfının
tanımında verilen g(.) ve KI*(.)
fonksiyonları için farklı parametre seçimleriyle yeni tanılama ölçüleri elde
edilebilir.
JI*
sınıfı özellikle bir kaç ölçü kullanılarak satırların etkili alt kümeleri
araştırılmak istendiğinde, hesaplamada
önemli kolaylıklar sağlamaktadır. Örneğin I indis kümesi için
* yeni kestirimi hesaplanıp, (
) vektörünü pxp
tipindeki X¢X matrisi ile sağdan ve soldan çarpması
gerekmektedir. p büyük olduğunda bu
işlemlerin yapılması oldukça zorlaşacaktır. Dolayısıyla JI*
sınıfında verilen ölçü tanımlamalarında mxm tipinde matrislerle işlem yapıldığından, matris işlemleri azalmaktadır.
Tüm
tanılama ölçüleri bu sınıfa dahil edilememekle birlikte, ek bazı özel
matris tanımlamalarıyla daha genel bir sınıfa dahil edilebilir. Örneğin
Welsch-Kuh ölçüsü, eğer sadece PI* , QI* ve RI* matrisleri kullanılırsa bu sınıfa dahil edilemez
. Ancak bu matrislere ek olarak köşegen
elemanları pii*2 olan
pxp tipinde köşegen bir matrisin
tanımlanmasıyla daha genel bir sınıf
içinde yer alabilir.
4. UYGULAMA
Bu bölümde 2. ve 3. bölümlerde verilen genel yanlı sınıf kestiricileri ve bu sınıf için tanılama ölçüleri “Longley” veri kümesi (Longley, 1967) kullanılarak incelenecektir.
Orjinal veri kullanılarak elde edilen koşul sayısı 43275.047’ olup, veri kümesinde önemli derecede bir iç ilişkiye işaret etmektedir. Dolayısıyla E.K.K. kestiricisi yerine yanlı bir kestirici kullanılması daha sağlıklı olacaktır.
Genel yanlı sınıf
kestiricisinin hesaplanabilmesi için optimal fj değerinin bilinmesi gerekir. l5=0.0026 ve l6=0.0003 özdeğerlerinin diğerlerine göre daha küçük
olduğu görülür (l1>l2>l3>l4>l5>l6>0). fj,PCV(t), j=1,2,,...,p yaklaşımı kullanılırsa ve
başlangıç değer olarak
(0)=
PC (r=4)
alınırsa elde edilen yanlılık matrisi;
F=diag(0.999997, 0.9999,
0.9997, 0.9900, 0.9424, 0.7143)
ile verilen köşegen
matristir. fj,*PCV(t+1) ile gösterilen iteratif yöntem kullanılırsa;
F*=diag(0.99997,
0.9999, 0.9993, 0.9916,
0.9529, 0.7492)
olarak elde edilir. Dikkat edilirse iki yöntemle elde edilen yanlılık matrisleri çok farklı değildir. Bu nedenle bundan sonraki işlemlerde sadece F matrisi kullanılarak elde edilen genel yanlı kestirici kullanılacaktır. b parametresinin E.K.K. ve F matrisi kullanılarak elde edilen genel yanlı kestirimlerinin işaretleri aynı ancak büyüklüklerinin oldukça farklı olduğu görülür ki bu şiddetli iç ilişki probleminin beklenen bir sonucudur.
E.K.K. analizi
sonucunda, sırasıyla 10, 4,
15, 1, 6 ve 16 numaralı gözlemler rezidüsü büyük olan
başka bir deyişle y yönünde sapan
değer olan noktalardır. 16 ve 5 numaralı gözlemlerin yüksek leverage noktası
yani X yönünde sapan değer olduğu
görülür. 16, 5, 4, 10 ve 15 numaralı gözlemlerin ise Di, WKi ve Hi2 ölçüleri için diğerlerinden daha büyük değer
aldığı görülür.
Genel yanlı kestirici için tanılama ölçüleri incelendiğinde ise 10, 4, 15, 6, 1, 16 ve 5 numaralı gözlemlerin yüksek rezidü değerlerine sahip olduğu görülür. Leverage değerleri incelendiğinde genel yanlı kestirici için de 16 numaralı gözlemin yüksek leverage noktası olduğu görülür. Ancak 5 numaralı gözlem E.K.K analizinde yüksek leverage noktası iken, genel yanlı kestirici için leverage değeri yüksek olan bir gözlem değildir. E.K.K. leverage değerleri ile karşılaştırıldığında pii> pii* ; i=1,2,...,16 olduğu ancak rezidü değerleri için böyle genel bir karşılaştırmanın yapılamayacağı görülür (Örneğin e1*>e1 iken e5>e5*).
Genel yanlı kestirici
(G.Y.K.) ve E.K.K kestiricisi tanılama ölçülerinin 1, 4, 5,
10, 15 ve 16 numaralı gözlemler için
karşılaştırılmaları Tablo 3. de verilmiştir:
|
Cook |
Welsch-Kuh |
Hadi |
|||||||||
|
E.K.K. |
G.Y.K. |
E.K.K. |
G.Y.K. |
E.K.K. |
G.Y.K. |
||||||
|
5 |
0.614 |
16 |
0.474 |
5 |
2.333 |
16 |
2.966 |
10 |
3.069 |
10 |
4.49 |
|
16 |
0.467 |
10 |
0.210 |
16 |
-1.864 |
10 |
-2.138 |
5 |
2.976 |
16 |
2.91 |
|
4 |
0.244 |
4 |
0.192 |
10 |
1.525 |
4 |
1.485 |
4 |
2.6365 |
4 |
2.90 |
|
10 |
0.235 |
15 |
0.124 |
4 |
-1.495 |
5 |
-0.822 |
16 |
2.5342 |
15 |
1.76 |
|
15 |
0.170 |
1 |
0.124 |
15 |
1.168 |
15 |
0.764 |
15 |
1.864 |
1 |
1.54 |
|
1 |
0.141 |
5 |
0.110 |
1 |
1.014 |
1 |
0.707 |
1 |
1.446 |
5 |
1.49 |
Tablo 3. E.K.K. kestiricisi ve
G.Y.K. tanılama ölçülerinin karşılaştırılması
Di*, WKi*
ve Hi*2 ölçüleri
için 16, 10, 4,
15, 1 ve 5 numaralı gözlemler
diğerlerine göre daha büyük değer alırlar. 5 numaralı gözlem E.K.K. kestiricisi
için en etkili gözlem olarak görülürken;
genel yanlı kestirici için Di*
ölçüsünde altıncı sırada; WKi* ölçüsü için dördüncü
sırada yer almaktadır. Di*
ve WKi* ölçüleri
için 16 numaralı gözlemin en büyük değer aldığı görülür. Dolayısıyla E.K.K. ve genel
yanlı kestirici tanılama ölçüleri farklı sonuçlar vermektedir. Hi2 ve Hi*2 ölçüleri için potansiyel-rezidü (P-R)
grafikleri Şekil 1. ve Şekil 2. de verilmiştir.

Şekil 1. E.K.K.
kestiricisi kullanılması durumunda P-R grafiği
Şekil 1. incelendiğinde 10, 4 ve 15 numaralı gözlemlerin şeklin sol üst kenarında olduğu, dolayısıyla y yönünde sapan değerler olduğu görülür. 16 ve 5 numaralı gözlemler ise şeklin sağ alt köşesinde yer alırlar yani X yönünde sapan değerlerdir.

Şekil
2. G.Y.K. kullanılması durumunda
P-R grafiği
Şekil
2. incelendiğinde ise yine 10 ve 4 numaralı gözlemlerin y yönünde ve 16 numaralı
gözlemin X yönünde sapan değer olduğu
görülür. Ancak 5 numaralı gözlem E.K.K. kestiricisi için yüksek leverage değeri
iken; G.Y.K. için leverage değeri yüksek değildir.
Sonuç
olarak gerek E.K.K. gerekse G.Y.K için y-
yönündeki sapan değerler aynı olup;
leverage değerleri incelendiğinde 5 numaralı gözlemin E.K.K. kestiricisi
için yüksek leverage noktası iken G.Y.K. için leverage değeri yüksek olan bir
gözlem olmadığı görülür. Genel olarak tanılama ölçüleri incelendiğinde ise;
özellikle E.K.K. kestiricisi için yüksek leverage noktaları olan 5 ve 16
numaralı gözlemler için farklı sonuçlar elde edilmiştir. Dolayısıyla iç ilişki
probleminin derecesi arttıkça, E.K.K.
kestiricisi tanılama ölçüleri ile G.Y.K. tanılama ölçüleri farklı sonuçlar
vermektedir.
5. SONUÇLAR
Regresyon
analizinde bilinmeyen parametrelerin tahmin edilmesinde yaygın olarak kullanılan
en küçük kareler kestiricisinin, bir takım temel standart varsayımların
sağlanması durumunda sağlıklı sonuçlar verdiği bilinmektedir. Açıklayıcı
değişkenlerin doğrusal bağımsız olması ve tüm gözlemlerin regresyon sonuçları
üzerinde eşit etkili olması varsayımları uygulamada sağlanması zor olan temel iki varsayımdır.
Veride
iç ilişki ve sapan değerlerin aynı anda olması durumunda ilk yapılması gereken
iç ilişki probleminin indirgemek için yanlı kestiricilerin kullanılmasıdır. Bu
çalışmada, yanlı kestiricilerin büyük
bir kısmını içine alan bir sınıf ele alınmış,
Liu ve genelleştirilmiş Liu kestiricilerinin de bu
sınıfa dahil edilebileceği gösterilmiştir. Genel yanlı kestiricilerin
kullanılması durumunda sapan değerlerin belirlenmesi için kullanılan tanılama
ölçüleri, E.K.K. kestiricisi tanılama ölçülerine benzer şekilde tanımlanmıştır.
Genel yanlı kestiriciler için elde edilen bu tanılama ölçüleri de JI* olarak isimlendirilen yeni bir sınıfta toplanmıştır.
Bu sınıf yardımıyla ölçüler arasındaki ilişki daha açık olarak görülebilmekte
ve yeni ölçüler tanımlanabilmektedir.
KAYNAKLAR
1
AKDENİZ, F. (2001), “The
Examination and Analysis of Residuals for Some Biased Estimators in Linear
Regression,”Communication in
Statistics-Theory Method, 30(6), 1171-1183.
2
ATKINSON, A.C. (1985), Plots, Transformations and Regression:An Introduction to Graphical
Methods of Diagnostic Regression Analysis .Oxford:Clarendon Press.
3
BELSLEY, D.A., KUH, E., ve
WELSH, R.E. (1980), Regression Diagnostics: Identıfying
Influential Data and Sources of Collinearity. New York: John Wiley &
Sons.
4
CHALTON, D.O. ve TROSKIE,
C.G. (1992), “Identification of
Outlying and Influential Data with Biased Estimation : A Simulation Study,” Communication in Statistics -Simulation, 21(3),
607-626.
5
CHATTERJEE, S. ve HADI, A.S. (1988), Sensitivity Analysis in Linear Regression, New York: John Wiley
&Sons.
6
COOK, R.D. ve WEISBERG, S.
(1982), Residuals ve Influence in Regression, London: Chapman ve Hall.
7
HADI, A.S. (1992), “A New
Measure of Potential Influence in Linear Regression,” Computational Statistics & Data Analysis, 14 , 1-27.
8
HADI, A.S., JONES, W.D. ve LING, R.F. (1995), “A Unifying
Representation of Case Deletion Influence Measures in Univariate and
Multivariate Linear Regression,” Journal
of Statistical Planning and Inference 46, 123-135.
9
HOCKING, R.R., SPEED, F.M ve LYNN, M.J. (1976), “A Class of Biased
Estimators in Linear Regression,” Technometrics,
Vol 18,No 4, 425-437.
10
HOERL, A.E., ve KENNARD, R.W. (1970,a), “Ridge Regression: Biased
Estimation For Nonorthogonal Problems,” Technometrıcs,
Vol 12,No 1,55-67.
11
HOERL, A.E., ve KENNARD, R.W. (1970,b), “Ridge Regression: Applications to Nonorthogonal Problems,” Technometrics, Vol 12,No 1,69-82.
12
HOERL, A.E., ve KENNARD, R.W., (1976) “Ridge Regression: Iterative
Estimation of the Biasing Parameter,” Communications
in Statististics-Theor. Meth. A5: 77-88.
13
JONES,W.D. ve LING,R.F. (1988), “A New Unifying Class of Influence
Measures for Regression Diagnostics,”.
American Statistical Association, 305-310.
14
LEE,W.W. (1986), “Fractional Principal Components Regression: A General
Approach to Biased Estimators,” Unpublished
Ph.D. Dissertation, Virginia Polytechnic Institute and State University
Department of Statistics.
15
LEE, W. ve BIRCH, J.B. (1988), “Fractional Principal Components
Regression:A General Approach to Biased Estimators,”Commun. Statist.-Sımula.,17(3),713-727.
16
LICHTENSTEIN, C. ve VELLEMAN, P.F. (1983), “The Effects Of Ridge Regression on High Leverage Points in the Data,”
Unpublished Manuscript.
17
LIU, K. (1993), “A New Class of Biased Estimate in Linear Regression,” Commun.Statist.-Theory Meth., 22(2),
393-402.
18
LONGLEY, J. W. (1967), “An
Appraisal of Least Squraes Programs for the Electronic Computer From Point of
View of the User,” Journal of the American
Statistical Association, 62, 819-841
19
MARQUARDT, D.W. (1970),
“Generalized Inverses , Ridge Regression ,
Biased Linear Estimation, and
Nonlinear Estimation,”
Technometrics, 12, 591-612.
20
STEIN, C.M. (1960), “Multıple Regression” Contributions to Probability and Statistics, Essays in Honor of Harold
Hotelling, Stanford University Press, 424-443.
21
TRIPP, .R.E. (1983), “Nonstocastic Ridge Regression and Effective Rank
of the Regressors Matrix” Unpublished
Ph.D. Dissertation, Virginia Polytechnic Institute and State University,
Department of Statistics.
22
WALKER, E. (1990),
"Influential Diagnostics for Fractional Principal Components Estimators in
Regression," Communication in Statistics -Simulation, 19(3) , 919-933.
23 WALKER, E. ve BIRCH, J.B. (1988), “Influence Measures in Ridge Regression,” Technometrics, 30, 221-227.