RIDGE REGRESYON ÜZERİNE BİR ÇALIŞMA

 

Orhan İPEK

 

ÖZET

  Ridge regresyon; regresyon analizinde karşılaşılan ve çoklubağlantı diye adlandırılan bağımsız değişkenlerin bağımsızlık varsayımının bozulması sorunundan kurtulabilmek amacıyla geliştirilen bir regresyon yöntemidir. Çoklubağlantı varlığının, regresyon katsayılarının en küçük kareler tahminleri üzerinde önemli etkileri mevcuttur. Bu sorunun en önemli etkisi, regresyon katsayılarının en küçük kareler tahminlerinin büyük varyansa sahip olmalarına neden olmasıdır. Çoklubağlantı sorununu giderme yollarından biri  nın yansız olmasını göz ardı etmektir. Ridge modeli, tahminlerin varyanslarını azaltabilmek için regresyon denklemindeki katsayıları yanlı olarak tahmin eder.

 

  Bu çalışmada, veri içersinde çoklubağlantı sorununun tespitine ve bu sorunun etkilerine değinildikten sonra, bu sorundan kurtulabilmek için önerilen Ridge Regresyon yöntemi incelendi.

 

Anahtar Kelimeler : Çoklu Doğrusal Regresyon, Çoklubağlantı, Yanlı Regresyon, Ridge Regresyon

 

  1. GİRİŞ

 

  Çok sayıda faktöre bağlı olarak değişim gösteren sosyal, psikolojik ve ekonomik olayların sebep-sonuç ilişkisini ortaya çıkartabilmek için kullanılan istatistiksel yöntemlerden biri çoklu regresyon analizidir. Bu yöntemle bir veya daha çok bağımsız değişken bir bağımlı değişkenle seçilerek, bağımlı değişkenin gerçek ölçümleri ile bağımsız değişkenlerden elde edilen kestirim ölçümleri arasındaki uzaklığı en küçük yapan regresyon katsayılarının tahmini En Küçük Kareler(EKK) yöntemi ile bulunur. Örneklemden elde edilen regresyon denklemiyle değişkenler arasında var olan sebep-sonuç ilişkilerini belirlemenin yanında, geleceğe ilişkin tahmini de daha güvenli bir şekilde yapabilmektedir.

 

  Çoklu regresyon modelinde yer alan hata terimi ile ilgili birtakım varsayımlar söz konusudur. Bu varsayımlar altında model parametreleri tahmin edilmeye çalışılır. Eğer varsayımlarda bozulmalar söz konusu olursa; değişen varyanslılık, otokorelasyon ve normal dağılmama gibi sorunlar ortaya çıkar. Bunun yanında aykırı değer, uç değer ve etkin gözlem gibi gözlemlerin model üzerindeki etkileri incelenir.

 

* K.H.O. Dekanlığı Sis.Ynt.Bil.Böl., İstatistik Öğretim Elemanı

  Çoklu regresyon analizinde en çok karşılaşılan bir sorun da, bağımsız değişkenlerin birbirleriyle bağlantılı olması, yani bağımsızlık varsayımının bozulması ve bağımsız değişkenler arasında doğrusal bağlantıların mevcut olduğu sorunudur. Çoklubağlantı olarak da adlandırılan bu sorunun varlığı durumunda, bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini yorumlamakta güçlükle karşılaşılmaktadır. Çoklubağlantının EKK kestirimleri üzerinde oldukça olumsuz etkileri bulunduğundan yapılacak yorumların güvenirliliğinden kuşku duyulmalıdır. Bu gibi durumlarda yapılması gereken çoklu bağlantıyı ortadan kaldırmak veya etkisini azaltmaktır. Çoğu araştırmacı bu sorundan kurtulabilmek için çoklubağlantı içersinde yer alan değişkenlerin bir veya birkaçını modelden çıkartarak çözüme ulaşmaya çalışılır. Ancak değişken seçim yöntemleri çoklubağlantıdan etkilendiği için bu çözüm yolu da yanlış bulgulara sebep olabilir.

 

Çoklubağlantı sorununu çözmek için önerilen en etkin yol modeldeki değişkenleri çıkarmadan regresyon katsayılarını yanlı olarak tahmin etmektir. Yanlı tahminler veren yöntemlerin başında, orijinal değişkenler yerine bunların dik dönüşümlerinin kullanıldığı Temel Bileşenler Regresyonu ile korelasyon matrisinin köşegen elemanlarına küçük bir sayının eklenerek kestirim varyanslarının küçültüldüğü Ridge Regresyon yöntemi gelir.

 

  2. ÇOKLU BAĞLANTI KAVRAMI

 

  Bağımsız değişkenler arasında tam yada yüksek derecede ilişkilerin bulunması durumu çoklubağlantı kavramı ile açıklanır. Bağımsız değişkenler arasında tam doğrusal ilişkinin olduğu durumda tam çoklubağlantıdan, bağımsız değişkenler arasındaki bağımsızlığın tam olmadığı durum kuvvetli çoklubağlantıdan bahsedilir.

  Bağımsız değişkenler arasında çoklubağlantı varsa, EKK yöntemiyle çözüm yapmak uygun olmaz. Bunun için çoklubağlantının olup olmadığını aşağıdaki belirleme yöntemleriyle yapılması gerekir.

 

    1)  Bağımsız değişkenler arasındaki korelasyon katsayıları 1'e yakınsa,

    2)   matrisinin rankı bağımsız değişken sayısından küçük olursa,

    3)  matrisinin özdeğerleri bir yada birden fazlası sıfır veya sıfıra yakın çıkarsa,

         4)  (Varyans Büyütme Faktörü) j = 1,2,.......k değerinin en büyüğü 10'nun üstünde olursa,                

    5) Hoerl ve Kennard'ın (1970a) önerdiği Ridge İzinde katsayıların grafığinde dalgalanmalar olursa,

    6) En büyük özdeğerin en küçük özdeğere bölümü olan Koşul Sayısı 100’den büyük olursa,

    7) Standartlaştırılmış  matrisinin determinantı sıfır veya sıfıra çok yakın olursa,

    8) j nci bağımsız değişkenin Çoklu Belirtme Katsayısı  değeri 1 'e yakınsa,

    9) Özdeğerlerinin terslerinin toplamı bağımsız değişken sayısından çok büyük olursa,

 

çoklubağlantı sorunu ortaya çıkar. Bunun çözümü ise yanlı regresyon yöntemlerinden Ridge regresyon yöntemidir.

 

  3. RIDGE REGRESYON YÖNTEMİ

 

  Çoklu doğrusal regresyon probleminde olayla ilgili bağımsız değişkenler, deney düzenlemesi yardımı olmadan verilerin toplanması veya sadece deney düzenleme yoluyla veriler toplansa dahi bu kez de olayın yapısındaki fıziksel ve matematiksel kısıtlar nedeniyle birbirleriyle ilişki halinde olabilirler. Regresyonda çoklubağlantının ortaya çıkması ile problemdeki sebep-sonuç ilişkisini ortaya koyan parametrelerin tahmin edilmesiyle duyarlı sonuçlar elde edilemez.

 

 korelasyon matrisinin birim matrise yakın olması durumunda EKK yöntemi güvenilir sonuçlar vermektedir. Ancak  korelasyon matrisinin birim matris olmaktan uzaklaşması, EKK tahminlerinin VIF değerlerinin de büyümesine neden olmakta ve dolayısıyla parametre tahminlerinin hatalarını artırmaktadır.

 

  Bağımsız değişkenler arasındaki ilişkiler, EKK katsayı tahminlerin varyanslarını azaltmaktadır. Modeldeki her bir değişken için VIF değerleri; regresyon katsayılarının varyansları üzerindeki basit korelasyonların toplam etkisini gösterir. Çoklubağlantı durumunda, korelasyon matrisinin tersinin köşegen elemanları VIF değerleri; her bir tahminin diğer tahminlerle olan çoklu korelasyonunda sonsuz hale gelir. Bu durumda EKK  tahminleri yansız tahmin ediciler sınıfında en küçük varyanslı tahminler olma özelliklerini kaybederler. Çünkü çoklubağlantı  ile gerçek  değerleri arasında sapmaya neden olur

   ,   dan 'ya olan uzaklık olmak üzere;

                                                                                                  (3.1)

şeklinde yanlılığın karesi yazılabilir.  nin Beklenen Değeri ise ;

                                                                                                      (3.2)

şeklindedir. Burada İz, bir kare matrisin esas köşegenleri üzerindeki elemanlarının toplamıdır.

 

   matrisinin özdeğerleri  ile gösterildiğinde,  dan 'ya

uzaklığının karesinin ortalama değeri şöyle verilir.

                                                                                                         (3.3)

Çoklubağlantının olması durumunda EKK yöntemiyle çözüm yapıldığında, parametre tahminlerinin Hata Kareler Toplamı, özdeğerlerden yararlanılarak hesaplanırsa, bir yada daha fazla özdeğerin sıfır veya sıfıra yakın olması,  nın 'dan sapmalarının beklenen değeri büyük olacaktır.

 

  Bu nedenle regresyon katsayılarının tahmini için, bağımsız değişkenlerin birbirleri üzerindeki etkilerini minumum yapmak ve kararlı katsayı tahminleri elde edebilmek için yanlı regresyon yöntemlerinden birisi olan Ridge Regresyon yöntemi kullanılmalıdır.

 

  Ridge Regresyon yöntemi Hoerl ve Kennard tarafından; çoklubağlantı durumunda EKK yönteminin yetersiz kalması nedeniyle geliştirilen bir yöntemdir. Hoerl ve Kennard(1970a) ridge regresyon yöntemini aşağıdaki amaçlar için önermişlerdir.

 

  (1) Kuvvetli çoklubağlantının varlığı durumunda, katsayılarda meydana gelen kararsızlıkların grafik üzerinde gösterilmesinde,

  (2) Çoklu doğrusal regresyon modelinde bağımsız değişkenler birbirleriyle ilişkili oldukları durumlarda EKK tahmininden daha küçük varyanslı tahminlerin elde edilmesinde,

  (3) Modeldeki gereksiz değişkenlerin çıkartılmasında.

 

  Ridge regresyonun yanlı regresyon yöntemi olmasına karşın EKK yöntemine göre iki önemli etkisi vardır.

  (1) Bağımsız değişkenlerde çoklubağlantıyı gidermek,

  (2) Regresyonda yanlılık karesiyle varyansı değiştirerek Hata Kareler Ortalamasını   azaltmaktır.

 

  3.1 Ridge Tahmin Edicisi

 

        Hoerl ve Kennard çoklubağlantı varlığında parametre tahminlerinin varyanslarını azaltacak ridge tahmin edicisini aşağıdaki gibi tanımlamıştır.

 

                                                                                               (3.4)

 

burada  matrisi standartlaştırılmış matris, k* ise 0 ile 1 arasında değerler alabilen ridge paremetresidir. Genel olarak regresyon problemi için k* nın optimal değeri vardır. Bu optimal k* değeri EKK yönteminden daha küçük Hata Kareler Ortalaması elde edilmesini sağlayan değerdir.

 

  EKK tahmin edicisinin doğrusal bir dönüşümü ridge tahmin edicisidir. Şöyle ki;

 

            

                       

 

  ise;

                                                                                                                       (3.5)

     

   bulunur. Bundan dolayı  nın yanlı tahmin edicisi  dir.  in varyans-

kovaryans matrisi;

 

                                                               (3.6)

Ridge tahmin edicisinin Hata Kareler Ortalaması ise;

 

           HKO() = Varyans () + ( in yanı)

şeklindedir. Buradan;

 

                  (3.7)

 

                                           (3.8)

           

                       =             

yazılabilir. Burada  matrisinin özdeğerleri  dır.  parametrelerinin varyans toplamı (3.8) eşitliğinin sağ tarafındaki ilk terim, buda  ile gösterilmiştir. İkinci terim ise yanın karesidir. Bu da  ile gösterilmiştir. Burada ve ifadelerinin anlamları şöyle ifade edilebilir. İkinci terim ,  dan  ya uzaklığın karesidir.  = 0 olduğunda = 0 olacaktır. Çünkü bu durumda Z = I dır. Böylece ,  in   dan daha fazla kullanıldığı yan karesini ihtiva edecektir. Birinci ifade , parametre tahminlerinin varyanslarının toplamı (Toplam Varyans) olarak açıklanır.

 

  3.2 Ridge İzi

 

  Çoklu doğrusal regresyon problemlerinde çoklubağlantı olduğunda katsayı tahminleri duyarlıdır. Yani veri kümesine birkaç gözlemin ilave edilmesiyle bu tahmin edicilerde değişikliklerin olduğu görülür. Böyle durumlarda  regresyon katsayıları genellikle kararsız katsayılar olarak bulunur. Bu kararsızlıkları izleyebilmek ve çoklubağlantının etkisini açıkça görebilmek için grafıksel anlatım olan Ridge İzinden yararlanılır. Ridge regresyonun grafıksel bir gösterimi olan Ridge İzi, regresyon katsayıları,  lar düşey eksende, k* değerleri yatay eksende olacak şekilde iki boyutlu uzayda grafık elde edilir. Ridge İzi araştırmacıya hangi katsayıların verilere duyarlı olduğu konusunda yardımcı olur. Ridge izi ya karşı gelen herbir katsayı değerinin grafığidir. Herbir katsayı için bir eğri yada iz oluşur. Ridge izinde amaç EKK'dan daha küçük HKO'sı veren k* değerini bulmak ve kararlı katsayılar kümesini oluşturmaktır. Kararlı katsayılar kümesinin anlamı; verideki küçük değişikliklere karşı katsayıların duyarlı olmamasıdır. Eğer bağımsız değişkenler yüksek ilişkili iseler k* nın küçük değerleri için katsayılar çok hızlı değişecek ve k* nın daha büyük değerlerinde derece derece kararlı olacaktır. Katsayıların kararlı olduğu  k*  değeri katsayıların istenen kümesini verecektir.

 

  3.3 Ridge Parametresinin Seçimi

 

  Hoerl ve Kennard (1970a)  k* nın tek bir değer olmadığını ancak  dan daha iyi olan  in her zaman bulunabileceğini ifade etmişlerdir. Ridge parametresi k* nın seçimine ilişkin çok sayıda teknik olmasına karşın, burada birkaç tanesi verilmiştir.

 

  (1) Hoerl ve Kennard; k*  nın seçimini ridge izinden elde etmişlerdir.

  (2) Marquardt ve Snee, VIF'in 1 ile 10 değerleri arasında olduğunda k*  nın

       seçilebileceğini belirtmişlerdir.

  (3)Hoerl, Kennard ve Baldwin (1975); k* nın seçimi için aşağıdaki eşitliği

    önermişlerdir.

              

  (6) McDonald ve Galarneau;

                     

eşitliğini sağlayan k*  nın uygun olduğunu belirtmişlerdir.

 

4. UYGULAMA

 

  Türkiye'nin ihracatını tahmin etmeye yönelik bir model oluşturulması için, 1968-1995 yılları için aşağıdaki değişkenlere ait veriler Devlet İstatistik Enstitüsü İstatistik Yıllığı kitaplarından elde edilmiş ve çoklu doğrusal regresyon analizi uygulanmıştır.

 

   Y  : Türkiye İhracatı (Bin ABD Doları)

   : Türkiye İthalatı (Bin ABD Doları)

  : Toptan Eşya Fiyatları Endeksi ( 1968 =100)

  : Tüketici Fiyatları Endeksi ( 1968 =100)

   : Sabit Üretici Fiyatları ile GSMH (Milyon TL)

   : Kişi Başına GSMH (ABD Doları)

   : Reel Efektif Döviz Kuru Endeksi ( 1968 =100)

 

 

 

 

Bağımsız değişkenlere ait korelasyon matrisi aşağıdaki gibi bulunmuştur.

 

   1.000

   0.745    1.000

   0.746    0.999   1.000

   0.969    0.624   0.623   1.000

   0.909    0.533   0.534   0.926   1.000

   0.742    0.458   0.452   0.828   0.610   1.000

 

Özdeğerler ise;  = 4.59665,   = 0.95734,   = 0.40612,   = 0.03258,  = 0.00717

 = 0.00013    olarak   bulunmuştur.   VIF değerleri ise;     = 53.3,       = 3707.1,

 = 3788.3,   = 95.1,    = 19.4,   =11.3 dür.   Bağımsız  değişkenler  arasında çoklubağlantı varlığını gösteren ölçütlere bakıldığında;

 

  (1) Bağımsız değişkenler arasındaki korelasyon katsayılarında 1'e yakın olan katsayılar   vardır.

  (2) Özdeğerlerin içinde sıfıra yakın olanlar vardır.

  (3) VIF değerleri içinde 10'dan büyük olanlar vardır.

  (4) En büyük özdeğerin en küçük özdeğere bölümü;

          4.59665 / 0.00013 = 35358.85

  bulunmuş, bu da 100'ün çok üstündedir.

  (5) Özdeğerlerin terslerinin toplamı 7866.19 bulunmuş olup, bu da bağımsız değişken sayısının çok üstündedir.

Bütün bu ölçütlere göre bağımsız değişkenler arasında çoklubağlantı olduğu görülür. O halde EKK ile çözüm yapıldığında parametre kestirimlerinin yanlış sonuçlar vermesi ve yanlış model elde edilmesi söz konusu olacaktır.

  Yukarıdaki değişkenlere STATISTICA İstatistiksel paket programında Ridge Regresyon uygulaması  yapılmıştır.  Buna göre  standartlaştırılmış  regresyon  katsayıları   Tablo 4.1 ' de,

MINITAB İstatistiksel paket programından elde edilen VIF değerleri ise Tablo 4.2'de verilmiştir.

 

 

 

 

 

 

Tablo 4.1 : Standartlaştırılmış Regresyon Katsayıları

 

0.000

0.7334

5.0868

-5.0669

0.4936

-0.2807

0.0127

0.001

0.5613

0.6252

-0.5536

0.4926

-0.2146

0.1051

0.002

0.5476

0.3479

-0.2703

0.4749

-0.1973

0.1182

0.003

0.5396

0.2487

-0.1670

0.4597

-0.1834

0.1269

0.004

0.5329

0.1983

-0.1131

0.4466

-0.1712

0.1339

0.005

0.5264

0.1681

-0.0798

0.4352

-0.1601

0.1399

0.006

0.5202

0.1483

-0.0569

0.4252

-0.1499

0.1453

0.007

0.5141