RIDGE REGRESYON ÜZERİNE BİR ÇALIŞMA

 

Orhan İPEK

 

ÖZET

  Ridge regresyon; regresyon analizinde karşılaşılan ve çoklubağlantı diye adlandırılan bağımsız değişkenlerin bağımsızlık varsayımının bozulması sorunundan kurtulabilmek amacıyla geliştirilen bir regresyon yöntemidir. Çoklubağlantı varlığının, regresyon katsayılarının en küçük kareler tahminleri üzerinde önemli etkileri mevcuttur. Bu sorunun en önemli etkisi, regresyon katsayılarının en küçük kareler tahminlerinin büyük varyansa sahip olmalarına neden olmasıdır. Çoklubağlantı sorununu giderme yollarından biri  nın yansız olmasını göz ardı etmektir. Ridge modeli, tahminlerin varyanslarını azaltabilmek için regresyon denklemindeki katsayıları yanlı olarak tahmin eder.

 

  Bu çalışmada, veri içersinde çoklubağlantı sorununun tespitine ve bu sorunun etkilerine değinildikten sonra, bu sorundan kurtulabilmek için önerilen Ridge Regresyon yöntemi incelendi.

 

Anahtar Kelimeler : Çoklu Doğrusal Regresyon, Çoklubağlantı, Yanlı Regresyon, Ridge Regresyon

 

  1. GİRİŞ

 

  Çok sayıda faktöre bağlı olarak değişim gösteren sosyal, psikolojik ve ekonomik olayların sebep-sonuç ilişkisini ortaya çıkartabilmek için kullanılan istatistiksel yöntemlerden biri çoklu regresyon analizidir. Bu yöntemle bir veya daha çok bağımsız değişken bir bağımlı değişkenle seçilerek, bağımlı değişkenin gerçek ölçümleri ile bağımsız değişkenlerden elde edilen kestirim ölçümleri arasındaki uzaklığı en küçük yapan regresyon katsayılarının tahmini En Küçük Kareler(EKK) yöntemi ile bulunur. Örneklemden elde edilen regresyon denklemiyle değişkenler arasında var olan sebep-sonuç ilişkilerini belirlemenin yanında, geleceğe ilişkin tahmini de daha güvenli bir şekilde yapabilmektedir.

 

  Çoklu regresyon modelinde yer alan hata terimi ile ilgili birtakım varsayımlar söz konusudur. Bu varsayımlar altında model parametreleri tahmin edilmeye çalışılır. Eğer varsayımlarda bozulmalar söz konusu olursa; değişen varyanslılık, otokorelasyon ve normal dağılmama gibi sorunlar ortaya çıkar. Bunun yanında aykırı değer, uç değer ve etkin gözlem gibi gözlemlerin model üzerindeki etkileri incelenir.

 

* K.H.O. Dekanlığı Sis.Ynt.Bil.Böl., İstatistik Öğretim Elemanı

  Çoklu regresyon analizinde en çok karşılaşılan bir sorun da, bağımsız değişkenlerin birbirleriyle bağlantılı olması, yani bağımsızlık varsayımının bozulması ve bağımsız değişkenler arasında doğrusal bağlantıların mevcut olduğu sorunudur. Çoklubağlantı olarak da adlandırılan bu sorunun varlığı durumunda, bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini yorumlamakta güçlükle karşılaşılmaktadır. Çoklubağlantının EKK kestirimleri üzerinde oldukça olumsuz etkileri bulunduğundan yapılacak yorumların güvenirliliğinden kuşku duyulmalıdır. Bu gibi durumlarda yapılması gereken çoklu bağlantıyı ortadan kaldırmak veya etkisini azaltmaktır. Çoğu araştırmacı bu sorundan kurtulabilmek için çoklubağlantı içersinde yer alan değişkenlerin bir veya birkaçını modelden çıkartarak çözüme ulaşmaya çalışılır. Ancak değişken seçim yöntemleri çoklubağlantıdan etkilendiği için bu çözüm yolu da yanlış bulgulara sebep olabilir.

 

Çoklubağlantı sorununu çözmek için önerilen en etkin yol modeldeki değişkenleri çıkarmadan regresyon katsayılarını yanlı olarak tahmin etmektir. Yanlı tahminler veren yöntemlerin başında, orijinal değişkenler yerine bunların dik dönüşümlerinin kullanıldığı Temel Bileşenler Regresyonu ile korelasyon matrisinin köşegen elemanlarına küçük bir sayının eklenerek kestirim varyanslarının küçültüldüğü Ridge Regresyon yöntemi gelir.

 

  2. ÇOKLU BAĞLANTI KAVRAMI

 

  Bağımsız değişkenler arasında tam yada yüksek derecede ilişkilerin bulunması durumu çoklubağlantı kavramı ile açıklanır. Bağımsız değişkenler arasında tam doğrusal ilişkinin olduğu durumda tam çoklubağlantıdan, bağımsız değişkenler arasındaki bağımsızlığın tam olmadığı durum kuvvetli çoklubağlantıdan bahsedilir.

  Bağımsız değişkenler arasında çoklubağlantı varsa, EKK yöntemiyle çözüm yapmak uygun olmaz. Bunun için çoklubağlantının olup olmadığını aşağıdaki belirleme yöntemleriyle yapılması gerekir.

 

    1)  Bağımsız değişkenler arasındaki korelasyon katsayıları 1'e yakınsa,

    2)   matrisinin rankı bağımsız değişken sayısından küçük olursa,

    3)  matrisinin özdeğerleri bir yada birden fazlası sıfır veya sıfıra yakın çıkarsa,

         4)  (Varyans Büyütme Faktörü) j = 1,2,.......k değerinin en büyüğü 10'nun üstünde olursa,                

    5) Hoerl ve Kennard'ın (1970a) önerdiği Ridge İzinde katsayıların grafığinde dalgalanmalar olursa,

    6) En büyük özdeğerin en küçük özdeğere bölümü olan Koşul Sayısı 100’den büyük olursa,

    7) Standartlaştırılmış  matrisinin determinantı sıfır veya sıfıra çok yakın olursa,

    8) j nci bağımsız değişkenin Çoklu Belirtme Katsayısı  değeri 1 'e yakınsa,

    9) Özdeğerlerinin terslerinin toplamı bağımsız değişken sayısından çok büyük olursa,

 

çoklubağlantı sorunu ortaya çıkar. Bunun çözümü ise yanlı regresyon yöntemlerinden Ridge regresyon yöntemidir.

 

  3. RIDGE REGRESYON YÖNTEMİ

 

  Çoklu doğrusal regresyon probleminde olayla ilgili bağımsız değişkenler, deney düzenlemesi yardımı olmadan verilerin toplanması veya sadece deney düzenleme yoluyla veriler toplansa dahi bu kez de olayın yapısındaki fıziksel ve matematiksel kısıtlar nedeniyle birbirleriyle ilişki halinde olabilirler. Regresyonda çoklubağlantının ortaya çıkması ile problemdeki sebep-sonuç ilişkisini ortaya koyan parametrelerin tahmin edilmesiyle duyarlı sonuçlar elde edilemez.

 

 korelasyon matrisinin birim matrise yakın olması durumunda EKK yöntemi güvenilir sonuçlar vermektedir. Ancak  korelasyon matrisinin birim matris olmaktan uzaklaşması, EKK tahminlerinin VIF değerlerinin de büyümesine neden olmakta ve dolayısıyla parametre tahminlerinin hatalarını artırmaktadır.

 

  Bağımsız değişkenler arasındaki ilişkiler, EKK katsayı tahminlerin varyanslarını azaltmaktadır. Modeldeki her bir değişken için VIF değerleri; regresyon katsayılarının varyansları üzerindeki basit korelasyonların toplam etkisini gösterir. Çoklubağlantı durumunda, korelasyon matrisinin tersinin köşegen elemanları VIF değerleri; her bir tahminin diğer tahminlerle olan çoklu korelasyonunda sonsuz hale gelir. Bu durumda EKK  tahminleri yansız tahmin ediciler sınıfında en küçük varyanslı tahminler olma özelliklerini kaybederler. Çünkü çoklubağlantı  ile gerçek  değerleri arasında sapmaya neden olur

   ,   dan 'ya olan uzaklık olmak üzere;

                                                                                                  (3.1)

şeklinde yanlılığın karesi yazılabilir.  nin Beklenen Değeri ise ;

                                                                                                      (3.2)

şeklindedir. Burada İz, bir kare matrisin esas köşegenleri üzerindeki elemanlarının toplamıdır.

 

   matrisinin özdeğerleri  ile gösterildiğinde,  dan 'ya

uzaklığının karesinin ortalama değeri şöyle verilir.

                                                                                                         (3.3)

Çoklubağlantının olması durumunda EKK yöntemiyle çözüm yapıldığında, parametre tahminlerinin Hata Kareler Toplamı, özdeğerlerden yararlanılarak hesaplanırsa, bir yada daha fazla özdeğerin sıfır veya sıfıra yakın olması,  nın 'dan sapmalarının beklenen değeri büyük olacaktır.

 

  Bu nedenle regresyon katsayılarının tahmini için, bağımsız değişkenlerin birbirleri üzerindeki etkilerini minumum yapmak ve kararlı katsayı tahminleri elde edebilmek için yanlı regresyon yöntemlerinden birisi olan Ridge Regresyon yöntemi kullanılmalıdır.

 

  Ridge Regresyon yöntemi Hoerl ve Kennard tarafından; çoklubağlantı durumunda EKK yönteminin yetersiz kalması nedeniyle geliştirilen bir yöntemdir. Hoerl ve Kennard(1970a) ridge regresyon yöntemini aşağıdaki amaçlar için önermişlerdir.

 

  (1) Kuvvetli çoklubağlantının varlığı durumunda, katsayılarda meydana gelen kararsızlıkların grafik üzerinde gösterilmesinde,

  (2) Çoklu doğrusal regresyon modelinde bağımsız değişkenler birbirleriyle ilişkili oldukları durumlarda EKK tahmininden daha küçük varyanslı tahminlerin elde edilmesinde,

  (3) Modeldeki gereksiz değişkenlerin çıkartılmasında.

 

  Ridge regresyonun yanlı regresyon yöntemi olmasına karşın EKK yöntemine göre iki önemli etkisi vardır.

  (1) Bağımsız değişkenlerde çoklubağlantıyı gidermek,

  (2) Regresyonda yanlılık karesiyle varyansı değiştirerek Hata Kareler Ortalamasını   azaltmaktır.

 

  3.1 Ridge Tahmin Edicisi

 

        Hoerl ve Kennard çoklubağlantı varlığında parametre tahminlerinin varyanslarını azaltacak ridge tahmin edicisini aşağıdaki gibi tanımlamıştır.

 

                                                                                               (3.4)

 

burada  matrisi standartlaştırılmış matris, k* ise 0 ile 1 arasında değerler alabilen ridge paremetresidir. Genel olarak regresyon problemi için k* nın optimal değeri vardır. Bu optimal k* değeri EKK yönteminden daha küçük Hata Kareler Ortalaması elde edilmesini sağlayan değerdir.

 

  EKK tahmin edicisinin doğrusal bir dönüşümü ridge tahmin edicisidir. Şöyle ki;

 

            

                       

 

  ise;

                                                                                                                       (3.5)

     

   bulunur. Bundan dolayı  nın yanlı tahmin edicisi  dir.  in varyans-

kovaryans matrisi;

 

                                                               (3.6)

Ridge tahmin edicisinin Hata Kareler Ortalaması ise;

 

           HKO() = Varyans () + ( in yanı)

şeklindedir. Buradan;

 

                  (3.7)

 

                                           (3.8)

           

                       =             

yazılabilir. Burada  matrisinin özdeğerleri  dır.  parametrelerinin varyans toplamı (3.8) eşitliğinin sağ tarafındaki ilk terim, buda  ile gösterilmiştir. İkinci terim ise yanın karesidir. Bu da  ile gösterilmiştir. Burada ve ifadelerinin anlamları şöyle ifade edilebilir. İkinci terim ,  dan  ya uzaklığın karesidir.  = 0 olduğunda = 0 olacaktır. Çünkü bu durumda Z = I dır. Böylece ,  in   dan daha fazla kullanıldığı yan karesini ihtiva edecektir. Birinci ifade , parametre tahminlerinin varyanslarının toplamı (Toplam Varyans) olarak açıklanır.

 

  3.2 Ridge İzi

 

  Çoklu doğrusal regresyon problemlerinde çoklubağlantı olduğunda katsayı tahminleri duyarlıdır. Yani veri kümesine birkaç gözlemin ilave edilmesiyle bu tahmin edicilerde değişikliklerin olduğu görülür. Böyle durumlarda  regresyon katsayıları genellikle kararsız katsayılar olarak bulunur. Bu kararsızlıkları izleyebilmek ve çoklubağlantının etkisini açıkça görebilmek için grafıksel anlatım olan Ridge İzinden yararlanılır. Ridge regresyonun grafıksel bir gösterimi olan Ridge İzi, regresyon katsayıları,  lar düşey eksende, k* değerleri yatay eksende olacak şekilde iki boyutlu uzayda grafık elde edilir. Ridge İzi araştırmacıya hangi katsayıların verilere duyarlı olduğu konusunda yardımcı olur. Ridge izi ya karşı gelen herbir katsayı değerinin grafığidir. Herbir katsayı için bir eğri yada iz oluşur. Ridge izinde amaç EKK'dan daha küçük HKO'sı veren k* değerini bulmak ve kararlı katsayılar kümesini oluşturmaktır. Kararlı katsayılar kümesinin anlamı; verideki küçük değişikliklere karşı katsayıların duyarlı olmamasıdır. Eğer bağımsız değişkenler yüksek ilişkili iseler k* nın küçük değerleri için katsayılar çok hızlı değişecek ve k* nın daha büyük değerlerinde derece derece kararlı olacaktır. Katsayıların kararlı olduğu  k*  değeri katsayıların istenen kümesini verecektir.

 

  3.3 Ridge Parametresinin Seçimi

 

  Hoerl ve Kennard (1970a)  k* nın tek bir değer olmadığını ancak  dan daha iyi olan  in her zaman bulunabileceğini ifade etmişlerdir. Ridge parametresi k* nın seçimine ilişkin çok sayıda teknik olmasına karşın, burada birkaç tanesi verilmiştir.

 

  (1) Hoerl ve Kennard; k*  nın seçimini ridge izinden elde etmişlerdir.

  (2) Marquardt ve Snee, VIF'in 1 ile 10 değerleri arasında olduğunda k*  nın

       seçilebileceğini belirtmişlerdir.

  (3)Hoerl, Kennard ve Baldwin (1975); k* nın seçimi için aşağıdaki eşitliği

    önermişlerdir.

              

  (6) McDonald ve Galarneau;

                     

eşitliğini sağlayan k*  nın uygun olduğunu belirtmişlerdir.

 

4. UYGULAMA

 

  Türkiye'nin ihracatını tahmin etmeye yönelik bir model oluşturulması için, 1968-1995 yılları için aşağıdaki değişkenlere ait veriler Devlet İstatistik Enstitüsü İstatistik Yıllığı kitaplarından elde edilmiş ve çoklu doğrusal regresyon analizi uygulanmıştır.

 

   Y  : Türkiye İhracatı (Bin ABD Doları)

   : Türkiye İthalatı (Bin ABD Doları)

  : Toptan Eşya Fiyatları Endeksi ( 1968 =100)

  : Tüketici Fiyatları Endeksi ( 1968 =100)

   : Sabit Üretici Fiyatları ile GSMH (Milyon TL)

   : Kişi Başına GSMH (ABD Doları)

   : Reel Efektif Döviz Kuru Endeksi ( 1968 =100)

 

 

 

 

Bağımsız değişkenlere ait korelasyon matrisi aşağıdaki gibi bulunmuştur.

 

   1.000

   0.745    1.000

   0.746    0.999   1.000

   0.969    0.624   0.623   1.000

   0.909    0.533   0.534   0.926   1.000

   0.742    0.458   0.452   0.828   0.610   1.000

 

Özdeğerler ise;  = 4.59665,   = 0.95734,   = 0.40612,   = 0.03258,  = 0.00717

 = 0.00013    olarak   bulunmuştur.   VIF değerleri ise;     = 53.3,       = 3707.1,

 = 3788.3,   = 95.1,    = 19.4,   =11.3 dür.   Bağımsız  değişkenler  arasında çoklubağlantı varlığını gösteren ölçütlere bakıldığında;

 

  (1) Bağımsız değişkenler arasındaki korelasyon katsayılarında 1'e yakın olan katsayılar   vardır.

  (2) Özdeğerlerin içinde sıfıra yakın olanlar vardır.

  (3) VIF değerleri içinde 10'dan büyük olanlar vardır.

  (4) En büyük özdeğerin en küçük özdeğere bölümü;

          4.59665 / 0.00013 = 35358.85

  bulunmuş, bu da 100'ün çok üstündedir.

  (5) Özdeğerlerin terslerinin toplamı 7866.19 bulunmuş olup, bu da bağımsız değişken sayısının çok üstündedir.

Bütün bu ölçütlere göre bağımsız değişkenler arasında çoklubağlantı olduğu görülür. O halde EKK ile çözüm yapıldığında parametre kestirimlerinin yanlış sonuçlar vermesi ve yanlış model elde edilmesi söz konusu olacaktır.

  Yukarıdaki değişkenlere STATISTICA İstatistiksel paket programında Ridge Regresyon uygulaması  yapılmıştır.  Buna göre  standartlaştırılmış  regresyon  katsayıları   Tablo 4.1 ' de,

MINITAB İstatistiksel paket programından elde edilen VIF değerleri ise Tablo 4.2'de verilmiştir.

 

 

 

 

 

 

Tablo 4.1 : Standartlaştırılmış Regresyon Katsayıları

 

0.000

0.7334

5.0868

-5.0669

0.4936

-0.2807

0.0127

0.001

0.5613

0.6252

-0.5536

0.4926

-0.2146

0.1051

0.002

0.5476

0.3479

-0.2703

0.4749

-0.1973

0.1182

0.003

0.5396

0.2487

-0.1670

0.4597

-0.1834

0.1269

0.004

0.5329

0.1983

-0.1131

0.4466

-0.1712

0.1339

0.005

0.5264

0.1681

-0.0798

0.4352

-0.1601

0.1399

0.006

0.5202

0.1483

-0.0569

0.4252

-0.1499

0.1453

0.007

0.5141

0.1344

-0.0402

0.4164

-0.1406

0.1500

0.008

0.5081

0.1242

-0.0273

0.4085

-0.1318

0.1543

0.009

0.5022

0.1166

-0.0170

0.4014

-0.1237

0.1583

0.010

0.4964

0.1107

-0.0086

0.3949

-0.1159

0.1619

0.020

0.4470

0.0889

0.0333

0.3518

-0.0576

0.1875

0.030

0.4106

0.0859

0.0506

0.3277

-0.0194

0.2025

0.040

0.3832

0.0863

0.0607

0.3118

0.0078

0.2123

0.050

0.3620

0.0876

0.0676

0.3002

0.0282

0.2189

0.060

0.3451

0.0890

0.0726

0.2914

0.0442

0.2236

0.070

0.3313

0.0904

0.0765

0.2843

0.0570

0.2269

0.080

0.3199

0.0917

0.0796

0.2785

0.0676

0.2293

0.090

0.3103

0.0929

0.0822

0.2737

0.0764

0.2310

0.100

0.3020

0.0939

0.0844

0.2695

0.0838

0.2322

 

Tablo 4.2 : Varyans Büyütme Faktörü (VIF) Değerleri

 

0.000

53.34

3707.09

3788.29

95.11

19.38

11.32

0.001

39.77

52.45

53.18

73.42

16.59

8.44

0.002

33.81

15.57

15.53

58.48

14.84

7.28

0.003

29.38

7.75

7.57

47.72

13.47

6.44

0.004

25.96

4.84

4.63

39.70

12.36

5.79

0.005

23.23

3.44

3.22

33.57

11.43

5.29

0.006

21.01

2.66

2.44

28.77

10.65

4.88

0.007

19.15

2.17

1.96

24.95

9.97

4.54

0.008

17.59

1.84

1.64

21.87

9.38

4.26

0.009

16.24

1.61

1.41

19.31

8.83

4.02

0.010

15.08

1.44

1.24

17.19

8.38

3.82

0.020

8.51

0.79

0.67

7.14

5.45

2.70

0.030

5.66

0.62

0.53

3.96

3.99

2.22

0.040

4.09

0.54

0.47

2.55

3.12

1.94

0.050

3.12

0.48

0.43

1.79

2.55

1.75

0.060

2.46

0.45

0.41

1.35

2.15

1.61

0.070

2.00

0.42

0.39

1.06

1.86

1.50

0.080

1.66

0.40

0.37

0.86

1.64

1.41

0.090

1.41

0.38

0.36

0.72

1.47

1.33

0.100

1.21

0.37

0.35

0.62

1.33

1.26

 

 

Tablo 4.2'de görüleceği gibi  nın 0.08 değeri için VIF değerleri ortogonal bir sistemin şartlarını taşımaktadır. Bundan dolayı Tablo 4.1 'den  nın 0.08 değeri için verilen katsayılar uygun olmaktadır

 

  Çoklubağlantılı olan değişkenleri çıkarmadan Ridge Regresyon uygulandığında, Türkiye ihracatını tahmin eden orijinal model denklemi ise aşağıdaki gibi elde edilmiştir

 

  Y = -6 869 437.16+0.211+ 2.2l+ 1.67+ 0.084+ 568.04 + 30703.70

 

  5. SONUÇ

 

  Çoklubağlantı sorununu çözmek için önerilen bir yol değişken seçimi, diğeri de etkin bir yol olan modeldeki değişkenleri çıkarmadan regresyon katsayılarını yanlı olarak tahmin etmektir. Yanlı tahmin veren yöntemlerin birisi de korelasyon matrisinin köşegen elemanlarına küçük pozitif bir sayının eklenmesiyle yapılan Ridge Regresyon yöntemidir. Eğer incelenen problemlerde çoklubağlantılı bağımsız değişkenlerin çıkartılması istenmiyorsa ve parametre tahmini yapmak için Ridge Regresyon yönteminin kullanılması tavsiye edilmektedir.

 

 

KAYNAKLAR

 

1. ERAR, A., Regresyon Çözümlemesi, Lisans Üstü Ders Notları, H.Ü. Fen Fakültesi,   Ankara, I 985, 3-8

 

2. HOERL, A.E. and KENNARD, R.W., “Ridge Regression : Biased Estimation for , Nonorthogonal Problems”,  Technometrics, Vol.12, No.1, February 1970a, 55-66

 

3. MONTGOMERY, D.C., and PECK, E.A., Introduction to Linear Regression Analysis,    John Wiley and Sons, New York,1982, 297-302

 

4. İMİR, E., Çoklu Bağlantılı Doğrusal Modellerde Ridge Regresyon Yöntemiyle  Parametre Kestirimi, Anadolu Üniversitesi Yayınları, No. 212 Eskişehir,1986, 22

 

5. ERAR, A., Çoklubağlantı Varlığında Doğrusal Regresyon Modellerinde Değişken Seçimi, Doktora Tezi,1982,101

6. MYERS, R.H., Classical and Modern Regression With Applications, Duxbury Press, Boston, 1986, 79

 

7. WEISBERG, S., Applied Linear Regression, John Wiley and Sons, New York,1980, 231

 

8. MARQUARDT, D.W. and SNEE, R.D., “Ridge Regression in Pratice”, The American  Statistician, February 1975, Vol. 29, No. l, 4

 

9. McDONALD, G.C. and GALARNEAU, D.I., “A Monte Carlo Evaluation of Some Ridge-Type Estimators”, Journal of the American Statistical Association, June 1975, Vol. 70, No. 350, 409

 

 

SUMMARY

 

 

 Ridge regression is a type of regression technique which was developed to remedy the problem of multicolinearity has a number of potentially serious effects on the least squares estimates of regression coeffıcients. The most important effect is that it causes high variances in the estimation of regression coeffıcients. One way to alleviate the problem of multicolinearity is to drop the requirement that the estimator of  be unbiased. The ridge model introduces some bias into the regression equation in order to reduce the variance of the estimator.

 

  In this study, the effects and diagnostics of multicolinearity were considered and then ridge regression, which is proposed to alleviate the problem of multicolinearity were discussed