RİDGE REGRESYON TEORİSİNDE 1970-2001 ARASINDAKİ GELİŞMELER

 

 

Prof.Dr. Fikri Akdeniz              Prof.Dr. Altan Çabuk

Çukurova Üniversitesi             Çukurova Üniversitesi

Fen Edebiyat Fakültesi      İktisadi ve İdari Bilimler Fakültesi

  Matematik Bölümü                  Ekonometri Bölümü

    01330 Adana                             01330 Adana

 

 

 

Özet

 

Hoerl ve Kennard  (1970a) da önerdikleri “ridge regresyon” yöntemiyle  tahmin edilen regresyon katsayılarının en küçük kareler yöntemiyle yapılan tahminlerden daha küçük hata kareler ortalamasına sahip olduklarını gösterdiler. Bu çalışmada (i) Teorideki gelişmeler ; (ii) Ridge regresyonda  yanlılık parametresi k’ nın ve genelleştirilmiş ridge regresyonda optimal ki parametrelerinin  seçim algoritmaları; (iii) En küçük kareler tahmin edicisi ve diğer yanlı tahmin edicilerle hata kareler ortalaması matrislerinin karşılaştırılması ;(iv)  Değişik disiplinlerden uygulama örnekleri verilecektir.

 

1.      GİRİŞ

 

Çoklu lineer regresyon tüm istatistik yöntemlerin en çok kullanılanlarından biridir. Veri analizi yapan bir araştırmacı tarafından bilim ve teknolojinin hemen hemen her alanında model kurmak için kullanılır. Regresyon katsayılarını tahmin etmek için kullanılan ortak yöntem en küçük kareler yöntemidir. Bununla birlikte kullanılan veri vektörleri  ortogonal olmadığında  deneyimler göstermiştir ki regresyon katsayılarının tahmin edilmesinde aşağıdaki problemler ortaya çıkmaktadır.

(i)                  Katsayılar mutlak değerce oldukça büyük olma eğilimindedir.

(ii)                Bazı katsayıların yanlış işaretli olması mümkündür.

(iii)               Korelasyon matrisinin öz değerlerinden biri veya daha çoğu çok küçük olacaktır (see  Foucart (1999).

Tahmin etmede kullanılan vektörler ortogonallıktan daha çok sapma gösterdiğinde bu tür güçlüklerin olasılığı artacaktır. Ayrıca tahmin etmede kullanılan vektörler arasındaki korelasyon yüksek ise yani çoklu iç ilişki ( mulcollinearity) varsa en küçük kareler yöntemi doğru yargıya varılabilecek sonuçlara götürmez.

İç ilişkinin derecesini göstermek için bir X matrisinin (ya da X¢X in) koşul sayısı (KS) kullanılır.l1,...,lp ler  X¢X in özdeğerleri olmak üzere KS= şeklinde tanımlanır. (Belsley, et. al. (1980 sayfa:100-104)  koşul sayısı  5 ve 10 arasında ise zayıf ilişki olduğu,KS nin değeri 30 dan 100 e doğru arttıkça  orta şiddette ilişkiden şiddetli ilişkiye  geçiş eğilimi vardır. Bazı araştırmacılar KS=() formülünü tercih etmektedirler. (Vinod ve Ullah(1981)).

 

 

Çoklu iç ilişkinin sonuçları

 

(i)                  En küçük kareler tahminleri tahmin edilen parametrelerin gerçek değerlerinden oldukça farklıdır.

(ii)                Tahminlerde yansızlık vardır, tahminlerin mutlak değerleri oldukça büyük ve varyansları da büyük, verideki çok küçük değişiklikle tahmin edilen parametrelerin işaretleri  değişir.

(i)                  Şiddetli çoklu ilişki altında parametre tahminleri kararsız olma eğilimi gösterecektir.. Tahminlerin geçerliliğini görmek için yeni örneklemler kullanıldığında tahminler şiddetle etkilenerek değişirler.

(ii)                Ayrıca çoklu iç ilişki varlığında farklı en küçük kareler bilgisayar algoritmaları

belirlenen model parametreleri için farklı tahminler ve işaretler verebilir.

Hoerl ve Kennard (1970a) böyle güçlükleri yenmek için teorik bir temele dayanan ve belirtilen kusurlara sahip olmayan “ridge regresyon” denen yeni bir tahmin yöntemi sundular.

            Bu çalışmada , 2. bölümde regresyon modelini ve tahmin edicileri vereceğiz. 3. bölüm  k yanlılık parametresinin optimum seçim yöntemlerinin incelenmesine ayrıldı. 4. bölümde ridge tahmin ediciler ile diğer yanlı tahmin edicilerin ve EKK tahmin edicisinin  karşılaştırılmasını yapacağız. Son bölümde ridge tahmin edicinin uygulandığı bazı   alanlardan örnekler vereceğiz.

 

1.      MODEL VE TAHMİN EDİCİLER

 

Çoklu lineer regresyon  için  aşağıdaki standart modeli düşünelim

 

y=X+u                                                                     (2.1)

 Burada X: nxp ve rank (X)=p, : px1,  E(u) =0, E(uu¢)= dir. Pek çok yazar verinin standartlaştırılmasını önerir. Öyleki X¢X korelasyon matrisi formundadır Verinin standartlaştırılmasının avantajı  regresyon katsayılarının karşılaştırılabilir sayısal birimlerle ifade edilebilmesidir. Dağılım gerekli ise u’ nun çok değişkenli normal dağılıma sahip olduğu kabul edilecektir. Hoerl ve Kennard (1970a) nın  parametreleri için önerdiği ridge tahmin edici

=(X¢X+kI)-1 X¢y          (k>0)                                  (2.2)

ile verilmiştir. k=0 için nın en küçük kareler (EKK) tahmin edicisi

=(X¢X)-1X¢y                                                             (2.3)

elde edilir. EKK tahmin edicisinin yansız olduğu bilinmektedir.  nın temel özelliklerinden biri yanlı olmasıdır. Yani

bias()=E ()-=-k(X¢X+kI)-1                          (2.4)

dir. Görüldüğü gibi eşitliğin ikinci yanı bilinmeyen parametresine bağlıdır. Ridge regresyonla ilgili pek çok teorik problemler bu nedenle ortaya çıkar. Ridge regresyonun diğer özelliklerini görmek için X matrisinin tekil değer ayrışımını ele alacağız (see Hoerl ve Kennard (1981)). X=H yazılabilir. Burada ,H: nxp, H¢H = I, L , X¢X in öz değerlerinin  köşegen matrisidir. G: pxp  G¢G=I koşulunu sağlayan gi öz vektörlerinin matrisidir. X¢X=GLG¢ dir. O halde (2.1) modelinden kanonik modele geçebiliriz:

y= H+u

  =Z.                                                                  (2.5)

Burada Z=,  dir.  nın EKK tahmin edicisi

=(Z¢Z)-1Z¢=L-1Z¢y                                                   (2.6)

ve genelleştirilmiş ridge tahmin edicisi

                       (2.7)

dir.Burada K=diag(k1,...,kp), ki. K=kI ,  kalınırsa , tahmin edici basit ridge tahmin edici veya ridge tahmin edici olarak tanımlanır ve

                       (2.8)

olur.(2.7) de    Z¢y=L olduğundan  (2.7) ve (2.8)  sırasıyla (L+K)-1L ve  (L+kI)-1L biçiminde yazılır. Görüldüğü gibi ridge tahmin edicileri  “shrunken” en küçük kareler tahmin edicileri olarak görülür.

Ridge tahmin edici için hata kareleri ortalaması (HKO) matrisi

E(L12 )= E()=E()=var(bias(

                                      =(L+K)L (L+K)+(I

biçiminde yazılır. Burada var(==(L+K)L (L+K), L  and bias()=E()-=dir.

D(MtxMSE (

      =L-1s2-[(L+K)L(L+K)+(I]

      =(L+K)-1K[s2(2I+L-1K)-K](L+K)-1                                    (2.9)

 dir. K=kI için

 

D(k(L+kI)-1[s2(2I+L-1k)-k](L+kI)-1                           (2.10)

yazılır. Burada Gk=(L+kI)-1 >0 olduğundan, D( (pozitif semi definit) olabilmesi için gerek ve yeter koşul

[s2(2I+L-1k)-k]                                                         (2.11)

dir.

TEOREM ((Farebrother (1976) and Gruber (1990)). d pozitif bir skaler ve A pozitif definit bir matris olsun. dA-bb¢ nin pozitif definit olabilmesi için gerek ve yeter koşul  b¢A-1bd  dir.

Ya da yukarıdaki (Gruber (1990) Teorem 2.5.2)  nin kullanılmasıyla

-2ka¢(2I+kL-1)-1a                                                          (2.12)

dir.(2.12) için yeter koşul olarak  model matrisi X ten bağımsız olarak

2s2I- kaa¢

elde edilir. Ya da eşdeğer olarak

k                                                                                 (2.13)

bulunur. Bu koşul  nın  ya üstünlüğü için yeter koşuldur, fakat gerekli değildir. Uygulamada bu koşul çok fazla ılımlıdır. ki=k, i=1,2,...,p  özel hali için

HKO()=mse()=                       (2.14)

olacaktır. Hoerl ve Kennard (1970a)   HKO()< HKO(= olacak şekilde daima bir  k >0  ın varlığını gösterdiler. Vinod ve Ullah (1981)  yanlılık parametresi k nın değerleri  için  0<k<kmax “kabul edilebilir aralık” tanımladılar. kmax= dır.

 

Rao (1976 ) da  G   n.n.d. matris olmak üzere

M={y, Xb, s2V}

modelini göz önüne alarak b  için

                                  bG( r ) =(G+ X¢V-1 X)-1X¢V-1 y                  (2.15)

genel ridge tahmin edici tanımladı. Markiewicz (1996) da  bu tahmin edicinin  singüler olmayan model olması durumunda tüm lineer tahmin ediciler kümesi içinde yeterlilik ve kabul edilebilirlik  durumunu incelemiştir.

 

 Hemen hemen yansız genelleştirilmiş ridge tahmin edici

 

Ohtani (1986)  de Kadiyala(1984) de önerilen bias düzeltme yaklaşımını  ve Singh , Chaubey ve Dwivedi (1986) Jackknife yöntemini kullanarak aşağıdaki hemen hemen yansız genelleştirilmiş ridge (HHYGR)  tahmin ediciyi verdiler.

Y=X  modelinden

Z=XG ve  dönüşümleriyle

Y=Z          (Z’Z=G’X’XG=)

modeline geçerek

 genelleştirilmiş ridge tahmin edici olmak üzere

yi tanımladılar. Ohtani (1986) kullanılabilir (operational) HHYGR tahmin edicinin  HKO özelliklerini inceledi.

 

Ön bilgi ile yansız ridge tahmin edici