BACON TEMEL BİLEŞENLER ANALİZİ İLE SAPAN DEĞERLERİN BELİRLENMESİ

 

 

Gülsen KIRAL* ve Nedret BİLLOR**

Çukurova Üniversitesi

Balcalı,Adana

 

 

ÖZET

            Çok değişkenli veri kümelerinde sapan değerlerin belirlenmesi için pek çok yöntem önerilmiştir. Bu konuda son yıllarda önerilen yöntemlerden BACON algoritması büyük veri kümeleri için hesapsal olarak etkin ve maskeleme ve swamping problemlerine  karşı dayanıklı olan bir yöntemdir (Billor, Hadi ve Velleman, 2000).  Bu çalışmada şimdiye kadar önerilmiş olan robust temel bileşenler analizi ile ilgili yöntemlere alternatif olan bir yöntem geliştirilmiştir. Bu yöntem BACON algoritmasını kullanarak sapan değerlerden etkilenmeyen temel bileşenlerin belirlenmesine dayalı olan bir yöntemdir. Bu yöntemin uygulanabilirliği iki veri kümesi kullanılarak gösterilmiştir.

 

1.GİRİŞ

            Bir veri kümesinde gözlemlerin çoğu tarafından önerilen modele uymayan gözlemlere sapan değer denir. Tek bir bileşen içerisinde büyük ölçüde etkili olan gözlem(ler); her bir değişkene tek değişkenli tekniklerin uygulanması ile kolayca belirlenmekle beraber çok değişkenli veri içerisinde bu gözlemlerin belirlenmesi o kadar kolay değildir. Bu gözlemler ancak her bir değişken içerisindeki gözlemin diğer değişkenlerle olan ilişkisi birlikte düşünüldüğü zaman belirlenebilir.

Çok değişkenli veri kümesinde bir veya iki sapan değer her bir gözlem için Mahalanobis uzaklığının hesaplanması ile saptanabilir. Ancak veri kümesinde pek çok  sapan değer varsa Mahalanobis uzaklığı sapan değerlerin bulunmasında kullanışlı olmayabilir. Ayrıca çok değişkenli veri kümelerinde sapan değer olan gözlemlerin sapan değer olarak elde edilememesi (maskeleme) veya sapan değer olmayan gözlemlerin sapan değer olarak bulunması (swamping) problemleri ile karşılaşıldığında Mahalanobis uzaklığının kullanışsız bir yöntem olduğu çok iyi bilinmektedir.

Çok değişkenli veri kümelerinde sapan değerlerin belirlenmesi için bir geleneksel yaklaşım çok değişkenli normal dağılımdan geldiği varsayılan veri için bilinen hipotez testi tekniğidir. Ayrıca Wilks testinin (Wilks ,1963) uygulamaları olan çeşitli yöntemler (Bacon, Shone ve Fung ,1987 ve Caroni ve Prescott ,1992), Simonoff’un (1991) kümelemeye dayalı olarak tanımladığı yöntem, Atkinson ve Mulira (1993) ’nın sarkıt (stalactite) grafiği kullanılan yaklaşımlardandır. Çok değişkenli normal dağılımdan farklı dağılımlar için çok az sayıda çalışma yapılmıştır (Barnett ve Lewis 1994).

Maskeleme ve swamping problemlerinin varlığında sapan değerlerden etkilenmeden çok değişkenli veri kümesi ile ilgili analizi yapabilmek için çoğu zaman robust yöntemlerden yararlanılmaktadır. Bunun yanında son yıllarda birleştirilmiş yöntemlerin (klasik ve robust yöntemlerin birleşimi ile tanımlı yöntemler) kullanımı da yaygınlaşmıştır.

Rousseeuw’nun (1983); minimum hacimli elipsoid yöntemi (M.V.E.), Rousseeuw’nun (1984) minimum kovaryans determinant yöntemi (M.C.D.), Rousseeuw ve van Zomeren'un (1990) M.V.E. için alternatif olarak tanımladığı yöntem ve Rousseeuw ve van Driessen’in  (1999) FAST-MCD yöntemi robust olarak bilinen yöntemlerdendir. Birleştirilmiş yöntemlere (hem robust hem de klasik yöntemlerin bir arada kullanılmasıyla elde edilen yöntemler)  ise Hadi’nin (1992,1994) adımsal (stepwise) yöntemleri, Billor, Hadi ve Velleman’ın(2000) BACON yaklaşımı örnek olarak verilebilir.

Bu yöntemlerde sapan değerler;  dağılımın merkezinden uzakta bulunan gözlemlerin belirlenmesi ile saptanırlar. Genel olarak kullanılan uzaklık

ile tanımlı Mahalanobis uzaklığıdır. T(X); X veri kümesinin ortalama vektörü ve C(X); örneklem kovaryans matrisidir. T ve C nin farklı tanımlamaları kullanılarak farklı robust ölçüler elde edilebilir.

Çok değişkenli veri kümesi içerisindeki çoklu sapan değerlerin belirlenmesi, incelenmek istenilen veri kümesindeki değişken sayısının fazla olması durumunda problemlidir. Veri matrisi Xnxp den elde edilecek bilgilerin daha küçük boyutlu (k<p) veri matrisinden elde edilmesi ve çok değişkenli veri kümesinin yorumlanması ve anlaşılmasına yardımcı olması için  temel bileşenler analizinden (T.B.A.) yararlanılır. Bu analiz sonucunda elde edilen temel bileşenlerin sapan değerlerin varlığı durumunda etkilendiği bilinmektedir. Temel bileşenlerin sapan değerlerden etkilenmeyecek şekilde elde edilmesi analizin doğruluğu için önemlidir.  Ancak klasik kestiricilere dayalı olarak kullanılan yöntemler  maskeleme ve swamping problemlerinin varlığında sağlıklı sonuç vermemektedir. Bu gibi durumlarda robust yöntemlerden yararlanılır. Bu konu ile ilgili ilk çalışma Campbell (1980) tarafından yapılmıştır. Campbell; robust M-kestiricisi yardımıyla temel bileşenleri belirleyip, değerlendirmede bilgi verecek olan ağırlıkları hesaplamıştır. Li ve Chen (1985); projection pursuit yöntemini önermiştir. Bu yöntem büyük veri kümelerine uygulanabilir, fakat hesaplaması çok zaman alıcı ve uygulaması pratik olmayan bir yöntemdir. Daha sonra Croux ve Ruiz-Gazen (1996 ve 2000) projection pursuit yöntemine göre daha az zaman alıcı olan robust temel bileşenler analiz yöntemini önerdiler. Ancak bu yöntem büyük boyutlu veri kümelerinde sayısal hesaplama problemi içermektedir. Ayrıca Caroni'de (2000); değerlendirmenin yapılacağı  kritik değerlerin (hipotez testi için) belirlenmesi üzerinde bir çalışma yaparak Campbell'in bu yaklaşımının sapan değerlerin formal testi olarak kullanılabileceğini önermiştir.

            Bir istatistiksel yöntemin; varsayılan modelüzerindeki etkinliği, farklı tipteki sapan değerlere dayanıklılığı ve hesaplama ve uygulamadaki esneklikleri gibi istenen istatistiksel özellikleri bir arada bulundurması gerektirdiğinden, robust yöntemlerin geliştirilmesinde zorluklarla karşılaşılır. Bu nedenle uygulamada çok yaygın olarak kullanılmamaktadırlar.

Bu nedenle son yıllarda robust yöntemlere alternatif olabilecek hesapsal problemi olmayan, maskeleme ve swamping problemlerinden etkilenmeyen, büyük veri kümelerine rahatlıkla uygulanabilen algoritmalar tanımlanmıştır. Billor, Hadi ve Velleman (2000) tarafından tanımlanan BACON algoritması da bu konuda tanımlanmış en son algoritmalardan biridir.

Bu çalışmanın ikinci bölümünde, çok değişkenli veri kümelerinde sapan değerlerin  belirlenmesi yöntemlerinden en yaygın olarak kullanılan yöntemlerden bazıları verilir. Üçüncü bölümde ise klasik temel bileşenler analizi ve ayrıca şimdiye kadar robust temel bileşenler analizi ile ilgili olarak tanımlanmış yöntemler, dördüncü bölümde de bunlara alternatif olarak  BACON algoritması (Billor, Hadi ve Velleman, 2000) kullanılarak tanımladığımız BACON temel bileşenler analizi verilmiştir. Son bölümde ise bilinen veri kümeleri üzerinde yöntemin uygulanabilirliği gösterilmiştir.

 

2.      ÇOK DEĞİŞKENLİ VERİ KÜMELERİNDE BAZI  SAPAN DEĞER

BELİRLEME YÖNTEMLERİ

 

Çok değişkenli veri kümelerinde çoklu sapan değerlerin belirlenmesi problemi, X değişken matrisinin boyutun büyümesi ile  maskeleme ve swamping problemlerini ortaya çıkarmış ve 1980 lerden itibaren bilgisayar teknolojisindeki hızlı ilerleme  ile bu problemlerin üstesinden gelebilecek yöntemler geliştirilmiştir. Halen günümüzde daha hızlı ve çok büyük veri kümelerinde çoklu sapan değerleri ortaya çıkarabilecek algoritmaların geliştirilmesi üzerine çalışmalar devam etmektedir. Bu çalışmada, bu yöntemlerden en yaygın olarak kullanılan üç temel yöntem  incelenir. 

 

2.1  Klasik Mahalanobis Uzaklığı

 

Gözlemlerin veri merkezine olan uzaklıklarını hesaplamak için kullanılan bir ölçüdür.  ve S ,  sırasıyla Xnxp matrisinin ortalama ve varyans-kovaryans matrisleri olmak üzere,  karşılık gelen  karesi alınmış Mahalanobis uzaklıkları

                 ,  i=1,2,...,n

eşitliği yardımı ile hesaplanabilir. Asimtotik olarak di ,  (ki-kare) dağılımına sahiptir.

di >olan  gözlemler sapan değer olarak tanımlanabilecek gözlemlerdir. Veri kümesinde çoklu sapan değerlerin varlığı,  klasik aritmetik ortalama () ve bundan elde edilen varyans-kovaryans matrisinin (S) güvenilir kestiriciler olması özelliğini ortadan kaldırır.  Ayrıca,  bu ölçü maskeleme   ve swamping  problemlerinin varlığında kullanışlı değildir. Bu problemlerin üstesinden gelmek için Mahalonobis uzaklığında yerel ve yayılım parametreleri için  robust kestiricilerin kullanımı önerilir.

 

2.2  Minimum Hacimli Elipsoid  ve Minimum Determinantlı Kovaryans   Yöntemleri

 

Rousseeuw (1983)  tarafından tanımlı minimum hacimli elipsoid (Minimum Volume Ellipsoid: M.V.E.) yöntemi gözlemlerin en azından yarısını içine alacak şekilde belirlenen kestiricilere dayalı olarak tanımlanan %50 lik kırılma noktasına sahip (gözlemlerin  %50 sinin sapan değer olmasına karşın dayanıklı olan) bir yöntemdir. Gözlem sayısının yüksek olması durumunda hesaplanması zaman alıcı ve problemlidir.

M.V.E. hesaplanması için; Xnxp olmak üzere rastgele olacak şekilde belirlenen p+1 gözleme ait alt küme için ortalama ve varyans-kovaryans matrisi yardımıyla karşılık gelen Mahalanobis uzaklıkları hesaplanır. Alt kümedeki gözlem sayısı s ise elde edilen Mahalanobis uzaklıklarından minimum s+1 tanesini alarak yeni alt küme belirlenir. Alt kümede n-h gözlem olana kadar yukarıdaki işlemler tekrarlanır . Son adımda elde edilen alt kümeye ait  Mahalanobis uzaklıkları yardımıyla bu alt kümeye karşılık gelen elipsoidin hacmi hesaplanır. Bu işlem  kadar seçilen tüm alt kümeler için tekrarlanır. İçlerinden minimum hacmi veren alt küme belirlenir. Bu alt kümedeki gözlemler temiz, dışında kalanları ise sapan değer olarak bildirilir.

M.V.E. ye alternatif olarak tanımlı minimum determinantlı kovaryans (Minimum Covariance Determinant : M.C.D ) (Rousseeuw, 1984) yönteminde ise amaç n gözlem üzerinden klasik kovaryans matrisinin determinantı en küçük olan h gözlemi bulmaktır. Bu durumda yerel  ve yayılım parametrelerinin M.C.D. tahminleri sırasıyla bu h gözlemin ortalama ve kovaryans matrisleri olacaktır. Yöntemin kırılma noktası M.V.E. yöntemi ile aynıdır. Ancak M.C.D. nin asimtotik olarak normal olması (Butler, Davies ve Jhun, 1993) nedeniyle M.V.E. ile karşılaştırıldığında avantajlara sahiptir. Yöntem M.V.E. e göre istatistiksel olarak daha etkindir. M.C.D. ye dayalı robust uzaklıklar M.V.E. e dayalı olarak elde edilenlere göre daha kesindir. Bu nedenle de çok değişkenli veri kümeleri içerisinde problemli gözlemleri belirlemeye daha uygun bir yöntemdir (Rousseeuw ve van Zomeren ,1990). Hesaplamadaki problemle başa çıkabilmek için M.V.E ye dayalı birkaç algoritma daha geliştirilmiştir. Rousseeuw ve Leroy (1987)’un yeniden örnekleme (resampling) algoritması, Hadi (1992,1994)’nin adımsal (stepwise) yöntemleri ve  Rousseeuw ve van Driessen (1999)’in FAST-MCD yöntemi buna örnek olarak verilebilir. Bu yöntem büyük veri kümelerine rahatlıkla uygulanabilir, daha hızlıdır ve M.C.D. ye göre daha etkin olan bir yöntemdir.

 

2.3.BACON Algoritması

 

Bu yöntemde esas amaç; sapan değerlerden arındırılmış olacak şekilde gözlemlerin hemen hemen yarısını içeren temel alt kümeyi bulmak, hemen ardından da temel alt küme ile uyumlu gözlemleri bu kümeye dahil etmektir. İşlem sonunda temel alt küme dışında kalan gözlemler sapan değer olarak belirlenirler. Temel alt küme dışında hiç gözlem kalmamışsa  "veri kümesi  sapan değer içermemektedir" denir.

            BACON yönteminde (Billor ve ark. 2000); gözlemlerin çok değişkenli eliptik dağılımdan geldiği varsayılarak Mahalanobis uzaklığından yararlanılmakta, kritik değer olarak da düzeltilmiş ki-kare değeri kullanılmaktadır.

Gözlemlerin bloklanması nedeniyle hesapsal açıdan etkin bir yöntemdir. Diğer yöntemlere göre bu yöntemdeki iterasyon sayısı daha azdır. İterasyonların her biri kovaryans matrisinin hesaplanması ve tersinin alınmasını gerektirir. Fakat iterasyon sayısı n örneklem büyüklüğünün artması ile büyümez ve hesaplanan n uzaklığın sıralanmasını gerektirmez.

 

Genel BACON Algoritması

 

Adım 1: Sapan değerlerden arındırılmış olarak varsayılan m>p gözlem, başlangıç alt küme olarak alınır. Burada p boyut sayısı, m veri analizcisi tarafından seçilen bir tam sayıdır.

Adım 2: Temel alt küme için uygun model belirlenir ve bu model üzerinde gözlemlerin her biri için uzaklıklar ayrı ayrı hesaplanır.

 Adım 3: Temel alt küme ile tutarlı olan gözlemleri içerecek şekilde her bir gözleme ait uzaklıklar incelenerek daha büyük bir temel alt küme oluşturulur. Genellikle bunlar küçük uzaklıklara sahip olan gözlemlerdir. Yeni alt kümedeki gözlem belki de bir önceki adımda elde bulunan temel alt kümenin içindeki gözlemleri göz ardı edebilir. Fakat bu küme büyüklüğü en azından daha önceki temel alt küme kadar olmalıdır.

Adım 4: Gerçek temel alt kümeyi belirlemek için 2. ve 3. adımlar tekrar edilir. İşleme temel alt küme daha fazla büyüyemeyene kadar devam edilir.

Adım 5: En son adımda temel alt küme dışında kalan gözlemler sapan değer olarak belirlenir.

      2 ile 4 arası adımlar tekrarlanarak şu anki temel alt küme ile tutarlı gözlemlerle sınırlanacak şekilde ve gerçekten sapan değer olmadığına inandığımız gözlemler kümeye eklenerek temel alt kümenin eleman sayısı arttırılır.

 

      2.3.1 BACON Algoritması İçerisinde Başlangıç Temel Alt Kümenin Belirlenmesi

 

            Başlangıç alt kümesinin belirlenmesi ile ilgili olarak iki farklı yaklaşım tanımlanmıştır.

Yaklaşım 1 (Y1) : Tüm gözlemler için Mahalanobis uzaklığı

hesaplanır ve m = p.c gözlem;  nin en küçük değerleri ile belirlenir. Bunlar potansiyel temel alt küme olarak adlandırılır. Burada p; parametre sayısı, c; araştırmacı
tarafından seçilen küçük bir sayı, ve S ise sırasıyla, X matrisinin ortalama ve varyans-kovaryans matrisini temsil etmektedir.

Yaklaşım 2 (Y2) :Başlangıç temel alt küme; gözlemlerin medyan vektörüne olan uzaklığına bağlı olarak da belirlenir. Bunun için

      i=1,2,…,n

değeri tüm gözlemler için  hesaplanır.  medyan vektörü, xi ; çok değişkenli veri kümesinin i. satırı ve  da vektör normunu temsil etmektedir. En küçük  değerini veren m gözlem belirlenir. Bunlar potansiyel temel alt kümeyi oluştururlar.

Her iki yaklaşımda da temel alt kümedeki gözlemlere ait ortalama ve varyans-kovaryans matrisleri sırasıyla ve SB  ile gösterilsin. Eğer SB tam ranklı değilse temel olmayan alt kümedeki gözlemler SB  tam ranklı olana kadar  temel alt kümeye eklenmelidir ve alt küme tam ranklı olana kadar işleme devam edilir.

Birinci yaklaşım robust değil fakat affine-equivarianttır (Herhangi bir b vektörü ve tekil olmayan bir A matrisi için T(XA+b)=T(X)A+b eşitliği sağlanıyorsa T kestiricisine affine equivariant denir).  Bunun yanında düşük kırılma noktasına sahiptir. Diğer yaklaşım ise affine- equvariant değildir ama medyan kullanılarak  yönteme başladığımızdan dolayı robust bir yaklaşımdır. Sapan değerlerin varlığında daha sağlıklı sonuçlar vermektedir. Ayrıca kırılma noktası daha yüksektir (%40 civarında). Çalışmada daha robust olması bakımından ikinci yaklaşım kullanılmıştır.

 

3.      ROBUST TEMEL BİLEŞENLER ANALİZİ

 

3.1. Temel Bileşenler Analizi

 

Temel bileşenler analizi; değişkenler arası bağımlılık yapısının yok edilmesi ve (veya) boyut indirgenmesi ya da başka analizler için veri hazırlanması amaçları ile kullanılırlar.  Analizde, veriyi temsil eden Xnxp matrisine uygun bir dönüşüm yapılarak, X uzayındaki problemler düzeltilmeye çalışılır. Dönüşüm sonucu birbirleri ile ilişkisiz kolonlardan oluşan bir veri kümesi elde edilmiş olur.

İncelemede Xnxp matrisinin kolonlarının birimleri arasında uyuşma söz konusu değilse, bu matris yerine onun standartlaştırılmış formu kullanılır.

Aslında temel bileşenler p tane X1,X2,...,Xp rasgele değişkenin özel lineer kombinasyonudur.  Geometrik olarak, bu lineer kombinasyonlar koordinat eksenleri  X1,X2,...,Xp ler olan orijinal sistemin döndürülmesiyle elde edilen yeni bir koordinat sistemini temsil eder.

 Xnxp çok değişkenli veri kümesinin varyans-kovaryans matrisi V nin  öz  değer () ve bu öz değerlere karşılık öz vektörleri (ui) olmak üzere  ( ) çiftleri için  i. temel bileşen

  i=1,2,…,p

eşitliği yardımıyla hesaplanır. Örneğin 1.temel bileşen, Var(y1)=u1'Vu1 , maksimum varyanslı lineer kombinasyondur bu da en büyük öz değere karşılık gelen öz vektöre karşılık gelir. Bu şekilde temel bileşenler belirlenerek Xnxp matrisini temsil eden problemsiz yeni temel bileşenler matrisi Ynxp  belirlenmiş olur.

Klasik temel bileşenler analizi; verilerde homojenliğin bozulması durumunda (yani sapan değerlerin varlığında) sağlıklı sonuçlar vermemektedir. Bu durumda sapan değerlere karşı dayanıklı olan kestiriciler kullanılarak analizin yapılması gerekmektedir. Bu konudaki
ilk çalışma Campbell(1980) tarafından yapılmıştır. Campbell çalışmasında robust M-kestiricisi kullanarak sapan değerlerden etkilenmeyen temel bileşenleri belirlemiştir. Campbell (1980) tarafından önerilen robust temel bileşenler analizi (RTBA) yöntemi, temel bileşenler analizi içerisinde varyans-kovaryans matrisinin robust M-kestiricisinin kullanımı ile tanımlanmıştır. Bu yöntemde amaç; sapan değerlerin etkisini ortadan kaldıracak gerçek ağırlıkları bularak tüm veri kümesini temsil eden gerçek varyans-kovaryans matrisini elde etmektir.

Ardından Li ve Chen (1985); Projection Pursuit (PP)’e dayalı bir çözüm önerdiler. PP yöntemi; çok değişkenli verinin bir doğru ya da bir düzlem üzerindeki lineer izdüşümleri yardımı ile orijinal verinin yapısını ortaya çıkarmaya çalışır. Burada tüm veri kümesi hakkında en fazla bilgiyi açığa çıkaran küçük boyutlu izdüşümü bulma amacı ile veri kullanılır. Li ve Chen’nin amacı; en büyük robust ölçeklemeye sahip izüşümü alınmış  gözlemlerin doğrultusunu belirlemektir. Birbirini izleyen adımlarda her yeni doğrultu önceki tüm doğrultulara dik olacak şekilde belirlenmektedir. Yüksek boyutlu veri kümelerinde hatta ve hatta p>n iken de dahil olmak üzere iyi sonuç veren bir algoritmadır. Ama hesapsal problemler içermektedir.

            Projection pursuit’e (PP) dayalı yöntemlerde karşılık gelen etki fonksiyonunun sınırlandırılmamış olması yerel robustlıkta eksikliğe sebep olmaktadır. Bunun yanında PP ye dayalı kestiricilerin nasıl hesaplanacağı açık değildir. Bu problemleri ortaya çıkaran Croux ve Ruiz-Gazen kısıtlamalar altında bir maksimizasyon probleminin çözümünü önerdiler. C-R algoritması adını verdikleri yöntem küçük boyutlu veri kümelerinde iyi çalışmasına rağmen büyük boyutlu veri kümeleri için hesapsal problemler içermektedir.

 

4. BACON  TEMEL BİLEŞENLER ANALİZİ (BTBA)

 

Robust kestiricilerle yapılan işlemler çoğu zaman için sağlıklı sonuç verirler ama bilindiği gibi yapılması gereken işlemler problemli ve zaman alıcıdır. Gözlem ve parametre sayılarının artması durumunda hesaplamalar iyice artmaktadır. Bunun yanında kullanılan veri kümesine ve istatistiğe bağlı olarak etkinliklerinde değişikliklerin olabilmesi ve sadece belli tipteki sapan değerleri ortaya çıkarıyor olmaları da karşılaşılabilecek problemlerdendir. O halde bu problemlerden etkilenmeyen daha hızlı işleyip sağlıklı sonuç veren bir yönteme gereksinim duyulmaktadır. Bu amaçla; bu çalışmada Billor ve ark. (2000) tarafından tanımlanan BACON algoritması kullanılarak robust temel bileşenlerin belirlenmesini sağlayan bir algoritma tanımlanmıştır.

 

Algoritma

   Adım 1: Temel altküme ; BACON algoritmasında tanımlı yaklaşımlardan biri (Y1 veya Y2) kullanılarak m=cp, (c=4 veya 5) elemanlı olacak şekilde belirlenir.

Adım 2: Temel alt kümedeki gözlemlerin ortalama ve varyans-kovaryans matrisleri sırasıyla, ve Sb olmak üzere

     i=1,2,…,n

            uzaklıkları hesaplanır.

Adım 3:  olan gözlemlerle yeni temel alt küme belirlenir. ; p serbestlik dereceli,  yüzdelikli ki-kare değeri,  olan bir düzeltme faktörü, r; şu an ki temel alt kümede bulunan eleman sayısı,  ve olarak tanımlıdır ().

Adım 4: 2. ve 3. adımlar temel alt kümede değişme olmayana kadar tekrarlanır.

Adım 5: Son adımda elde edilen temel alt küme dışında kalan gözlemler sapan değer olarak tanımlanır.

   Adım 6: Sapan değer olarak belirlenen gözlemler veri kümesinden atılarak indirgenmiş veri kümesi elde edilir (X(I)).

Adım 7: X(I) matrisinin öz değer ve öz vektör çiftleri (li ,ui);  l1³l2³...³lp >0 olacak  şekilde hesaplanır.

1.      Adım 8: U=(u1,u2,…,up) olarak tanımlanmak üzere yeni temel bileşenler

2.     

            elde edilir.

Adım 9:Elde edilen yeni temel bileşenler matrisine BACON algoritması uygulanarak sapan değerler  belirlenir.

 

3.                  Robust uzaklıklar, sayısal olarak bize hangi gözlemlerin sapan değer olduğu hakkında bilgi vermekle beraber, bu gözlemler grafiksel olarak daha kolaylıkla sergilenebilir. Bu nedenle elde edilen yeni temel bileşenlere BACON algoritması uygulandıktan sonra elde edilen ortalama ve kovaryans matrisleri yardımıyla karşılık gelen Mahalanobis uzaklıkları hesaplanır. Bu uzaklıkların

§         küp köküne ait Quantile-Quantile (Q-Q)   veya

§         klasik Mahalanobis uzaklıkların robust BACON uzaklıklarına karşı  veya

§         robust BACON uzaklıklarının indis

grafiklerine bakılarak tüm veri kümesi içerisinde sapan değer olan gözlemler kolaylıkla belirlenir. Ayrıca benzer olarak hangi gözlemlerin hangi temel bileşen üzerinde en fazla sapmaya neden olduğunun  belirlenmesi; herbir temel bileşene ait Q-Q grafikleri  yardımıyla yapılabilir.

 

5.       Uygulama

 

Önerilen yöntemin uygulanabilirliği iki veri kümesi üzerinde  gösterilebilir. Bu veri kümelerinden birincisi, Hawkins-Bradu ve Kass(1984) sapan değerler hakkında ön bilgimiz olduğu için yöntemin performansını irdelememiz açısından çok kullanışlı bir veri kümesidir. Diğer veri kümesi de (Philips veri Kümesi (1999)) büyük bir veri kümesi olduğu için yine önerilen yöntemin büyük veri kümelerine uygulanması durumundaki başarısını göstermesi açısından ayrı bir öneme sahiptir.

 

Örnek 1. Hawkins-Bradu ve Kass veri kümesi (HBK)

 

Bu veri kümesi Hawkins-Bradu ve Kass (1984) tarafından 1-14 arası  gözlemlerin  sapan değer olduğu bilinen,  özel amaç için oluşturulmuş,  n=75 ve p=3 olan bir veri kümesidir. Bu veri kümesi ile ilgili klasik Mahalanobis uzaklığına ait indis grafiği (Şekil 1) incelendiğinde gerçekten sapan değer olduğu bilinen gözlemlerin çok azı sapan değer olarak görülmektedir (maskeleme problemi). Benzer bilgiler Mahalanobis uzaklığının küp köküne ait Q-Q grafiğinin (Şekil 2) incelenmesi ile de söylenebilir.

 

 

 

 


Şekil 1: Klasik Mahalanobis uzaklıkları için  indis grafiği

 


 

Şekil 2: Klasik Mahalanobis Uzaklığına ait Q-Q grafiği

 

 




                                                    (a)


                                                              (b)

                                                               (c)

 

  Şekil 3 (a,b,c):Hawkins-Bradu-Kass veri kümesinin her bir yeni temel bileşenine  ait  Q-Q grafikleri


 


Şekil 4: BTBA den elde edilen robust Mahalanobis uzaklığına ait indis grafiği


Şekil 5: BTBA den elde edilen robust Mahalanobis uzaklığına ait Q-Q grafiği


      Bu bize klasik yöntemlerin sapan değerlerin varlığında sağlıklı sonuç vermediğini açık bir şekilde göstermektedir.  Bu problemden kurtulabilmek için sapan değerlerden etkilenmeyecek kestiriciler kullanarak işlemlerin yapılması gerekmektedir. Örneğin robust M-kestiricisinin kullanımı ile tanımlı RTBA (Campbell, 1980) bu veri kümesine uygulandığında veri kümesindeki ilk 14 gözlemin sapan değer olduğu rahatlıkla söylenebilmektedir.

Bu veri kümesine BTBA yöntemini uyguladığımızda elde ettiğimiz yeni temel bileşenlere ait Q-Q grafikleri Şekil 3 (a)-(c) de görülmektedir.

           Grafikler incelendiğinde 1. temel bileşen üzerinde ilk 14 gözlemin, 2. temel bileşen üzerinde 47, 52 nolu gözlemlerin ve 3. temel bileşen üzerinde de 13, 14, 53 nolu gözlemlerin etkili oldukları görülmektedir. Bu algoritma ile ilgili Mahalanobis uzaklığının indis (şekil 4) ve küp köküne ait Q-Q grafiği (Şekil 5) incelendiğinde de ilk 14 gözlemin ciddi anlamda problemli gözlemler oldukları hemen söylenebilmektedir.

 

Örnek 2. Philips veri kümesi

Philips Mecoma (Hollanda), TV sehpası üretilen bir merkezde işlemler ince metal levhalarla yapılmakta ve presleme ile levhaya şekil verilmektedir. Yeni üretim tekniği ile çalışmalara başlanmış ve bu tekniğin kullanılabilirliği araştırılmak amacı ile 677 farklı parça üzerinde araştırma yapılmıştır (Rousseeuw ve van Driessen, 1999). Her bir parça üzerinde 9 farklı karakter için ölçümler yapılarak bu karakterler arasındaki  ilişkinin olup olmadığı ve şekil bozukluklarının oluşup oluşmadığı araştırılmak istenmiştir.

         Bu veri kümesine ait klasik Mahalanobis uzaklığına ait indis grafiğine (Şekil 6) bakıldığında çok fazla problemli gözlem görülmemektedir. Yine bu uzaklığın küp köküne ait Q-Q grafiği de (şekil 7) benzer bilgiler vermektedir. Analizin gerçekten doğru bilgi veriyor olabilmesi için buradan elde edilen sonuçların robust yöntemlerden elde edilenlere benzer olması gerekmektedir.

Farklı robust yöntemler kullanılarak da bu veri kümesi incelenebilir. Örneğin; Rousseeuw ve van Driessen (1999) yapmış oldukları çalışmada M.V.E. yöntemine dayalı robust uzaklıklar kullanarak çalışmalarını yapmış ve 491-565 nolu gözlemlerin grup halinde sapan değer olduklarını bulmuşlardır. Başka robust kestiriciler kullanılarak da benzer sonuçlar elde edilebilir. Ancak gözlem ve parametre sayısının fazla olması nedeniyle çoğu yöntemde hesapsal problemlerle karşılaşılması aşikardır. Hatta bazı yöntemlere uygulanması söz konusu dahi değildir. Campbell (1980) in RTBA yöntemi buna örnek olarak verilebilir.

Şimdi bu veri kümesini önerdiğimiz BTBA yöntemi kullanarak inceleyelim. İnceleme sonucu elde edilen yeni temel bileşenlere ait Q-Q grafikleri incelendiğinde

1.      temel bileşen üzerinde16, 297, 298, 491-494, 500, 503, 507, 517, 519, 521, 523, 526, 550 nolu gözlemler,

2.      temel bileşen üzerinde 16, 85, 83 nolu gözlemler,

3.      temel bileşen üzerinde 16, 297, 298, 435, 521, 524 nolu gözlemler

4.      temel bileşen üzerinde 16, 95, 96, 98, 104, 605 nolu gözlemler

5.      temel bileşen üzerinde 116, 120 ve 175  nolu gözlemler

6.      temel bileşen üzerinde 50  nolu gözlem

7.      temel bileşen üzerinde 175, 426-437, 491-567, 605 nolu gözlemler

8.      temel bileşen üzerinde 16, 297, 298, 426-437, 491-565, 605 nolu gözlemler

9.      temel bileşen üzerinde 16,297,298,426-565,605 nolu gözlemler

etkili olarak görülmektedirler. BTBA yapıldığında elde edilen Mahalanobis uzaklığının indis ve küp köküne ait Q-Q grafikleri (Şekil 8-Şekil 9) incelendiğinde ise 491-565 nolu gözlemlerin ayrı bir grup olarak veriden ayrıldığı ve sapan değer olduğu hemen söylenebilir.

Buradan algoritmanın bizi robust yöntemler gibi sağlıklı sonuçlara ulaştırdığı söylenebilir.


 


Şekil 6: Philips Veri Kümesinin Klasik Mahalanobis Uzaklığına ait İndis Grafiği


Şekil 7: Philips Veri Kümesinin Klasik Mahalanobis Uzaklığına ait Q-Q grafiği


 



Şekil 8: Philips veri kümesine BTBA uygulandıktan sonra elde edilen Mahalanobis uzaklığının indis grafiği

 

Şekil 9: BTBA den elde edilen Mahalanobis uzaklığına ait Q-Q grafiği

 

 

Sonuç

 

Bu çalışmada robust temel bileşenler analizine dayalı olarak daha önce önerilen yöntemlere alternatif olabilecek bir algoritma verilmiştir. Çok değişkenli veri kümeleri içerisinde çoklu sapan değerleri bulmayı amaçlayan bu algoritma; büyük veri kümelerine (1 milyon gözlem için bile) uygulanabilmekte, model üzerinde çok küçük etkisi olabilecek gözlemleri belirleyebilmekte, hesapsal problem içermemektedir. Bu nedenlerle şimdiye kadar yapılmış robust temel bileşenlerle ilgili yöntemlere alternatif olarak önerilmektedir.

 

Kaynaklar

 

1. Atkinson, A. C.  ve Mulira H. M. (1993), "The Stalactite Plot for  the Detection of Multivariate Outliers", Statistics and Computing, 3, 27-35.

2. Atkinson, A.C. (1986) “Masking Unmasked”, Biometrica, 73,3,533-541

3. Bacon-Shone, J., and Fung, W.K. (1987), "A New Graphical Method for Detecting Single and Multiple Outliers in Univariate and Multivariate Data",  Journal of the Royal Statistical Society (C), 36, No.2, 153-162.

4. Barnett, V. .and Lewis, T. (1994), Outliers in Statistical Data ,3rd edition, New York: John Wiley and Sons.

5. Billor, N. , Hadi, A. S. and Velleman, P. F.(2000), "BACON:Blocked Adaptive Computationally-Efficient Outlier Nominators", Computational Statistics and Data Analysis, 34, 279-298.

6. Campbell, N. A. (1980),  "Robust Procedures in Multivariate Analysis I:  Robust Covariance Estimation", Applied Statistics,   29 ,  231-237.

7.Caroni,  C. and Prescott,  P. (1992),  "Sequential Application of  Wilk’s Multivariate Outlier Test", Applied Statistics,   41,  355-364.

8.Caroni, C. (2000) "Outlier Detection by Robust Principal Components Analysis", Commun. Statist.-Simula., 29(1), 139-151.

9. Fung, W.K. (1993);”Unmasking Outliers and Leverage Points:A confirmation”, J. Amer. Statist. Asso., 88, 515-519.

10.Hadi , A. S. (1992), "Identifying Multiple Outliers in Multivariate   Data" , Journal of the Royal  Statistical  Society, series(B), 54,  761-771.

11. Hadi, A. S.  (1994), "A  Modification   of a  Method  for the Detection  of  Outliers in Multivariate   Samples", Journal  of the Royal  Statistical  Society, series(B), 56, No. 2.

12. Hadi, A.S. and Simonoff, J. S. (1993), Procedures for the Identification of Multiple Outliers in Linear Models”, Journal of the American Statistical Association, Vol. 88,414,1264-1272.

13. Hawkins, D. M. , Bradu, D. And Kass, G. V. (1984), “Location of Several Outliers in Multiple Regression Data Using Elemental Sets”, Technometrics, 26,197-208.

14.Hampel, F.  R.,Ronchetti, E. M., Rousseeuw, P. J., and Stahel , W. A.(1986), Robust Statistics: The  Approach  based on  Influence Functions, New York: John Wiley and Sons.

15. Paul, S.R. and Fung, K. Y. (1991), “A generalization Extreme Studentized Residual Multiple Outlier Detection Procedure in Linear Regression”, Technometrics, 33,229-348.

16.Rousseeuw P.J.(1983),"Regression Techniques With High Breakdown Point", The IMS Bulletin, 12, 155.

17. Rousseeuw, P. J. (1984), "Least Median of Squares Regression", Journal of the American Statistical Association,  79, 871-886.

18. Rousseeuw P.J.(1985), "Multivariate Estimation With High Breakdown Point in Mathematical Statistics and Applications", Vol B ,eds. W. Grossmann, G. Pflug, I. Vincze, and W. Wertz, Dordrecht: Reidel, 283-297.

19. Rousseeuw, P. J. ve  van Zomeren, B. C. (1990), "Unmasking Multivariate Outliers and Leverage Points (with discussion)", Journal  of the  American Statistical Association, 85, 633.

20. Rousseeuw, P. J. ve Leroy, A. M.  (1987), Robust  Regression  and  Outlier Detection, New  York: John  Wiley  and  Sons.

21.Rousseeuw, P. J. ve van Driessen, K. (1999), "A Fast Algorithm for the Minimum Covariance Determinant Estimator", Journal  of the  American  Statistical Association,  41, 212-223.

22. Rosner, B. (1975); “On the Detection of Many Outliers”, Technometrics, 17,217-227.

23 Simonoff, J. S. (1991), "General Approaches to Stepwise Identification of Unusual Values in Data Analysis", Directions in  Robust  Statistics and Diagnostics:Part II, W. Stahel and S. Weisberg, eds.,Springer –Verlag: New York, 223-242.

24. Steele J. M. And Steiger, W. L. (1986), “ Algorithms and Complexity for Least Median of Squares Regression”, Discrete Applied Mathematics, 13,509-517.

25.Wilks, S.  S.  (1963), "Multivariate Statistical Outliers", Sankhya, A25, 407-426.