BACON TEMEL
BİLEŞENLER ANALİZİ İLE SAPAN DEĞERLERİN BELİRLENMESİ
Gülsen KIRAL* ve
Nedret BİLLOR**
Çukurova
Üniversitesi
Balcalı,Adana
ÖZET
Çok değişkenli
veri kümelerinde sapan değerlerin belirlenmesi için pek çok yöntem
önerilmiştir. Bu konuda son yıllarda önerilen yöntemlerden BACON algoritması
büyük veri kümeleri için hesapsal olarak etkin ve maskeleme ve swamping
problemlerine karşı dayanıklı olan bir
yöntemdir (Billor, Hadi ve Velleman, 2000).
Bu çalışmada şimdiye kadar önerilmiş olan robust temel bileşenler
analizi ile ilgili yöntemlere alternatif olan bir yöntem geliştirilmiştir. Bu
yöntem BACON algoritmasını kullanarak sapan değerlerden etkilenmeyen temel
bileşenlerin belirlenmesine dayalı olan bir yöntemdir. Bu yöntemin
uygulanabilirliği iki veri kümesi kullanılarak gösterilmiştir.
1.GİRİŞ
Bir veri kümesinde gözlemlerin çoğu tarafından önerilen modele uymayan gözlemlere sapan değer denir. Tek bir bileşen içerisinde büyük ölçüde etkili olan gözlem(ler); her bir değişkene tek değişkenli tekniklerin uygulanması ile kolayca belirlenmekle beraber çok değişkenli veri içerisinde bu gözlemlerin belirlenmesi o kadar kolay değildir. Bu gözlemler ancak her bir değişken içerisindeki gözlemin diğer değişkenlerle olan ilişkisi birlikte düşünüldüğü zaman belirlenebilir.
Çok değişkenli veri kümesinde bir veya iki sapan değer her bir gözlem için Mahalanobis uzaklığının hesaplanması ile saptanabilir. Ancak veri kümesinde pek çok sapan değer varsa Mahalanobis uzaklığı sapan değerlerin bulunmasında kullanışlı olmayabilir. Ayrıca çok değişkenli veri kümelerinde sapan değer olan gözlemlerin sapan değer olarak elde edilememesi (maskeleme) veya sapan değer olmayan gözlemlerin sapan değer olarak bulunması (swamping) problemleri ile karşılaşıldığında Mahalanobis uzaklığının kullanışsız bir yöntem olduğu çok iyi bilinmektedir.
Çok değişkenli veri kümelerinde sapan değerlerin belirlenmesi için bir geleneksel yaklaşım çok değişkenli normal dağılımdan geldiği varsayılan veri için bilinen hipotez testi tekniğidir. Ayrıca Wilks testinin (Wilks ,1963) uygulamaları olan çeşitli yöntemler (Bacon, Shone ve Fung ,1987 ve Caroni ve Prescott ,1992), Simonoff’un (1991) kümelemeye dayalı olarak tanımladığı yöntem, Atkinson ve Mulira (1993) ’nın sarkıt (stalactite) grafiği kullanılan yaklaşımlardandır. Çok değişkenli normal dağılımdan farklı dağılımlar için çok az sayıda çalışma yapılmıştır (Barnett ve Lewis 1994).
Maskeleme ve swamping problemlerinin varlığında sapan değerlerden etkilenmeden çok değişkenli veri kümesi ile ilgili analizi yapabilmek için çoğu zaman robust yöntemlerden yararlanılmaktadır. Bunun yanında son yıllarda birleştirilmiş yöntemlerin (klasik ve robust yöntemlerin birleşimi ile tanımlı yöntemler) kullanımı da yaygınlaşmıştır.
Rousseeuw’nun (1983); minimum hacimli elipsoid yöntemi (M.V.E.), Rousseeuw’nun (1984) minimum kovaryans determinant yöntemi (M.C.D.), Rousseeuw ve van Zomeren'un (1990) M.V.E. için alternatif olarak tanımladığı yöntem ve Rousseeuw ve van Driessen’in (1999) FAST-MCD yöntemi robust olarak bilinen yöntemlerdendir. Birleştirilmiş yöntemlere (hem robust hem de klasik yöntemlerin bir arada kullanılmasıyla elde edilen yöntemler) ise Hadi’nin (1992,1994) adımsal (stepwise) yöntemleri, Billor, Hadi ve Velleman’ın(2000) BACON yaklaşımı örnek olarak verilebilir.
Bu yöntemlerde sapan değerler; dağılımın merkezinden uzakta bulunan gözlemlerin belirlenmesi ile saptanırlar. Genel olarak kullanılan uzaklık
![]()
ile tanımlı Mahalanobis uzaklığıdır. T(X); X veri kümesinin ortalama vektörü ve C(X); örneklem kovaryans matrisidir. T ve C nin farklı tanımlamaları kullanılarak farklı robust ölçüler elde edilebilir.
Çok değişkenli veri kümesi içerisindeki çoklu sapan
değerlerin belirlenmesi, incelenmek istenilen veri kümesindeki değişken
sayısının fazla olması durumunda problemlidir. Veri matrisi Xnxp den elde edilecek bilgilerin daha küçük boyutlu (k<p)
veri matrisinden elde edilmesi ve çok değişkenli veri kümesinin yorumlanması ve
anlaşılmasına yardımcı olması için temel
bileşenler analizinden (T.B.A.) yararlanılır. Bu analiz sonucunda elde edilen
temel bileşenlerin sapan değerlerin varlığı durumunda etkilendiği bilinmektedir.
Temel bileşenlerin sapan değerlerden
etkilenmeyecek şekilde elde edilmesi analizin doğruluğu için önemlidir. Ancak klasik kestiricilere dayalı olarak
kullanılan yöntemler maskeleme ve
swamping problemlerinin varlığında sağlıklı sonuç vermemektedir. Bu gibi
durumlarda robust yöntemlerden yararlanılır. Bu konu ile ilgili ilk çalışma Campbell
(1980) tarafından yapılmıştır. Campbell; robust
M-kestiricisi yardımıyla temel bileşenleri belirleyip, değerlendirmede bilgi
verecek olan ağırlıkları hesaplamıştır. Li ve Chen (1985); projection pursuit
yöntemini önermiştir. Bu yöntem büyük veri kümelerine uygulanabilir, fakat
hesaplaması çok zaman alıcı ve uygulaması pratik olmayan bir yöntemdir. Daha
sonra Croux ve Ruiz-Gazen (1996 ve 2000) projection pursuit yöntemine göre daha
az zaman alıcı olan robust temel bileşenler analiz yöntemini önerdiler. Ancak
bu yöntem büyük boyutlu veri kümelerinde sayısal hesaplama problemi
içermektedir. Ayrıca Caroni'de (2000); değerlendirmenin yapılacağı kritik değerlerin (hipotez testi için)
belirlenmesi üzerinde bir çalışma yaparak Campbell'in bu yaklaşımının sapan
değerlerin formal testi olarak kullanılabileceğini önermiştir.
Bir istatistiksel yöntemin;
varsayılan modelüzerindeki etkinliği, farklı tipteki sapan değerlere
dayanıklılığı ve hesaplama ve uygulamadaki esneklikleri gibi istenen
istatistiksel özellikleri bir arada bulundurması gerektirdiğinden, robust
yöntemlerin geliştirilmesinde zorluklarla karşılaşılır. Bu nedenle uygulamada
çok yaygın olarak kullanılmamaktadırlar.
Bu nedenle son yıllarda robust yöntemlere alternatif
olabilecek hesapsal problemi olmayan, maskeleme ve swamping
problemlerinden etkilenmeyen, büyük veri kümelerine rahatlıkla uygulanabilen
algoritmalar tanımlanmıştır. Billor, Hadi ve Velleman
(2000) tarafından tanımlanan BACON algoritması da bu konuda tanımlanmış en son
algoritmalardan biridir.
Bu çalışmanın ikinci
bölümünde, çok değişkenli veri kümelerinde sapan değerlerin belirlenmesi yöntemlerinden en yaygın olarak
kullanılan yöntemlerden bazıları verilir. Üçüncü bölümde ise klasik temel
bileşenler analizi ve ayrıca şimdiye kadar robust temel bileşenler analizi ile
ilgili olarak tanımlanmış yöntemler, dördüncü bölümde de bunlara alternatif
olarak BACON algoritması (Billor, Hadi
ve Velleman, 2000) kullanılarak tanımladığımız BACON temel bileşenler analizi
verilmiştir. Son bölümde ise bilinen veri kümeleri üzerinde yöntemin
uygulanabilirliği gösterilmiştir.
2.
ÇOK DEĞİŞKENLİ VERİ
KÜMELERİNDE BAZI SAPAN DEĞER
BELİRLEME YÖNTEMLERİ
Çok değişkenli veri
kümelerinde çoklu sapan değerlerin belirlenmesi problemi, X değişken matrisinin
boyutun büyümesi ile maskeleme ve
swamping problemlerini ortaya çıkarmış ve 1980 lerden itibaren bilgisayar
teknolojisindeki hızlı ilerleme ile bu
problemlerin üstesinden gelebilecek yöntemler geliştirilmiştir. Halen günümüzde
daha hızlı ve çok büyük veri kümelerinde çoklu sapan değerleri ortaya
çıkarabilecek algoritmaların geliştirilmesi üzerine çalışmalar devam
etmektedir. Bu çalışmada, bu yöntemlerden en yaygın olarak kullanılan üç temel
yöntem incelenir.
2.1 Klasik
Mahalanobis Uzaklığı
Gözlemlerin veri merkezine olan uzaklıklarını hesaplamak için
kullanılan bir ölçüdür.
ve S , sırasıyla
Xnxp matrisinin ortalama ve varyans-kovaryans matrisleri olmak
üzere, karşılık gelen karesi alınmış Mahalanobis uzaklıkları
,
i=1,2,...,n
eşitliği yardımı ile hesaplanabilir. Asimtotik
olarak di ,
(ki-kare) dağılımına sahiptir.
di >
olan gözlemler sapan
değer olarak tanımlanabilecek gözlemlerdir. Veri kümesinde çoklu sapan
değerlerin varlığı, klasik aritmetik
ortalama (
) ve bundan elde edilen varyans-kovaryans matrisinin (S) güvenilir
kestiriciler olması özelliğini ortadan kaldırır. Ayrıca,
bu ölçü maskeleme ve
swamping problemlerinin varlığında
kullanışlı değildir. Bu problemlerin üstesinden gelmek için Mahalonobis
uzaklığında yerel ve yayılım parametreleri için
robust kestiricilerin kullanımı önerilir.
2.2 Minimum
Hacimli Elipsoid ve Minimum
Determinantlı Kovaryans Yöntemleri
Rousseeuw (1983) tarafından tanımlı minimum hacimli elipsoid (Minimum Volume Ellipsoid: M.V.E.) yöntemi gözlemlerin en azından yarısını
içine alacak şekilde belirlenen kestiricilere dayalı olarak tanımlanan %50 lik
kırılma noktasına sahip (gözlemlerin %50
sinin sapan değer olmasına karşın dayanıklı olan) bir yöntemdir. Gözlem
sayısının yüksek olması durumunda hesaplanması zaman alıcı ve problemlidir.
M.V.E. hesaplanması için; Xnxp
olmak üzere rastgele olacak şekilde belirlenen p+1 gözleme ait alt küme için ortalama ve varyans-kovaryans matrisi
yardımıyla karşılık gelen Mahalanobis uzaklıkları hesaplanır. Alt kümedeki
gözlem sayısı s ise elde edilen
Mahalanobis uzaklıklarından minimum s+1
tanesini alarak yeni alt küme belirlenir. Alt kümede n-h gözlem olana kadar yukarıdaki işlemler tekrarlanır
. Son adımda elde edilen alt kümeye ait Mahalanobis uzaklıkları yardımıyla bu alt
kümeye karşılık gelen elipsoidin hacmi hesaplanır. Bu işlem
kadar seçilen tüm alt
kümeler için tekrarlanır. İçlerinden minimum hacmi veren alt küme belirlenir.
Bu alt kümedeki gözlemler temiz, dışında kalanları ise sapan değer olarak
bildirilir.
M.V.E.
ye alternatif olarak tanımlı minimum determinantlı kovaryans (Minimum Covariance Determinant :
M.C.D ) (Rousseeuw, 1984) yönteminde
ise amaç n gözlem üzerinden klasik kovaryans matrisinin determinantı
en küçük olan h gözlemi bulmaktır. Bu
durumda yerel ve yayılım
parametrelerinin M.C.D. tahminleri sırasıyla bu h gözlemin ortalama ve kovaryans matrisleri olacaktır. Yöntemin
kırılma noktası M.V.E. yöntemi ile aynıdır. Ancak M.C.D. nin asimtotik olarak
normal olması (Butler, Davies ve Jhun, 1993) nedeniyle M.V.E. ile
karşılaştırıldığında avantajlara sahiptir. Yöntem M.V.E. e göre istatistiksel
olarak daha etkindir. M.C.D. ye dayalı robust uzaklıklar M.V.E. e dayalı olarak
elde edilenlere göre daha kesindir. Bu nedenle de çok değişkenli veri kümeleri
içerisinde problemli gözlemleri belirlemeye
daha uygun bir yöntemdir (Rousseeuw ve van Zomeren ,1990). Hesaplamadaki problemle başa çıkabilmek için
M.V.E ye dayalı birkaç algoritma daha geliştirilmiştir. Rousseeuw ve Leroy
(1987)’un yeniden örnekleme (resampling) algoritması, Hadi (1992,1994)’nin
adımsal (stepwise) yöntemleri ve Rousseeuw
ve van Driessen (1999)’in FAST-MCD
yöntemi buna örnek olarak verilebilir. Bu yöntem büyük veri kümelerine
rahatlıkla uygulanabilir, daha hızlıdır ve M.C.D. ye göre daha etkin olan bir
yöntemdir.
2.3.BACON Algoritması
Bu yöntemde esas
amaç; sapan değerlerden arındırılmış olacak şekilde gözlemlerin hemen hemen
yarısını içeren temel alt kümeyi bulmak, hemen ardından da temel alt küme ile
uyumlu gözlemleri bu kümeye dahil etmektir. İşlem sonunda temel alt küme
dışında kalan gözlemler sapan değer olarak belirlenirler. Temel alt küme
dışında hiç gözlem kalmamışsa "veri kümesi
sapan değer içermemektedir" denir.
BACON yönteminde (Billor ve ark. 2000); gözlemlerin çok değişkenli eliptik dağılımdan geldiği varsayılarak Mahalanobis uzaklığından yararlanılmakta, kritik değer olarak da düzeltilmiş ki-kare değeri kullanılmaktadır.
Gözlemlerin
bloklanması nedeniyle hesapsal açıdan etkin bir yöntemdir. Diğer yöntemlere
göre bu yöntemdeki iterasyon sayısı daha azdır. İterasyonların her biri
kovaryans matrisinin hesaplanması ve tersinin alınmasını gerektirir. Fakat
iterasyon sayısı n örneklem
büyüklüğünün artması ile büyümez ve hesaplanan n uzaklığın sıralanmasını gerektirmez.
Adım 1: Sapan değerlerden arındırılmış olarak varsayılan m>p gözlem, başlangıç alt küme olarak
alınır. Burada p boyut sayısı, m veri analizcisi tarafından seçilen bir
tam sayıdır.
Adım 2: Temel alt küme için uygun model belirlenir ve bu model
üzerinde gözlemlerin her biri için uzaklıklar ayrı ayrı hesaplanır.
Adım 3:
Temel alt küme ile tutarlı olan gözlemleri içerecek şekilde her bir gözleme
ait uzaklıklar incelenerek daha büyük bir temel alt küme oluşturulur.
Genellikle bunlar küçük uzaklıklara sahip olan gözlemlerdir. Yeni alt kümedeki
gözlem belki de bir önceki adımda elde bulunan temel alt kümenin içindeki
gözlemleri göz ardı edebilir. Fakat bu küme büyüklüğü en azından daha önceki
temel alt küme kadar olmalıdır.
Adım 4: Gerçek temel alt kümeyi belirlemek için 2. ve 3. adımlar
tekrar edilir. İşleme temel alt küme daha fazla büyüyemeyene kadar devam
edilir.
Adım 5: En son adımda temel alt küme dışında kalan gözlemler sapan
değer olarak belirlenir.
2 ile 4 arası adımlar tekrarlanarak şu anki temel alt küme ile
tutarlı gözlemlerle sınırlanacak şekilde ve gerçekten sapan değer olmadığına inandığımız
gözlemler kümeye eklenerek temel alt kümenin eleman sayısı arttırılır.
2.3.1 BACON Algoritması İçerisinde Başlangıç Temel Alt Kümenin Belirlenmesi
Başlangıç
alt kümesinin belirlenmesi ile ilgili olarak iki farklı yaklaşım tanımlanmıştır.
Yaklaşım
1 (Y1) : Tüm gözlemler için Mahalanobis uzaklığı

hesaplanır ve m
= p.c gözlem;
nin en küçük değerleri
ile belirlenir. Bunlar potansiyel temel alt küme olarak adlandırılır. Burada p; parametre sayısı, c; araştırmacı
tarafından seçilen küçük bir sayı,
ve S ise sırasıyla, X matrisinin ortalama ve
varyans-kovaryans matrisini temsil etmektedir.
Yaklaşım 2 (Y2) :Başlangıç temel alt küme; gözlemlerin
medyan vektörüne olan uzaklığına bağlı olarak da belirlenir. Bunun için
i=1,2,…,n
değeri tüm gözlemler için hesaplanır.
medyan vektörü, xi ; çok
değişkenli veri kümesinin i. satırı
ve
da vektör normunu temsil
etmektedir. En küçük
değerini veren m gözlem belirlenir. Bunlar potansiyel
temel alt kümeyi oluştururlar.
Her iki
yaklaşımda da temel alt kümedeki gözlemlere ait ortalama ve varyans-kovaryans
matrisleri sırasıyla
ve SB ile gösterilsin. Eğer SB tam ranklı değilse temel
olmayan alt kümedeki gözlemler SB tam ranklı olana kadar temel alt kümeye eklenmelidir ve alt küme tam
ranklı olana kadar işleme devam edilir.
Birinci yaklaşım robust
değil fakat affine-equivarianttır (Herhangi
bir b vektörü ve tekil olmayan bir A matrisi için T(XA+b)=T(X)A+b
eşitliği sağlanıyorsa T kestiricisine affine equivariant denir). Bunun yanında düşük kırılma noktasına
sahiptir. Diğer yaklaşım ise affine- equvariant değildir ama medyan
kullanılarak yönteme başladığımızdan
dolayı robust bir yaklaşımdır. Sapan değerlerin varlığında daha sağlıklı
sonuçlar vermektedir. Ayrıca kırılma noktası daha yüksektir (%40 civarında).
Çalışmada daha robust olması bakımından ikinci yaklaşım kullanılmıştır.
3.
ROBUST TEMEL BİLEŞENLER ANALİZİ
3.1. Temel Bileşenler Analizi
Temel bileşenler analizi; değişkenler arası bağımlılık yapısının yok
edilmesi ve (veya) boyut indirgenmesi ya da başka analizler için veri
hazırlanması amaçları ile kullanılırlar.
Analizde, veriyi temsil eden Xnxp
matrisine uygun bir dönüşüm yapılarak, X
uzayındaki problemler düzeltilmeye çalışılır. Dönüşüm sonucu birbirleri ile
ilişkisiz kolonlardan oluşan bir veri kümesi elde edilmiş olur.
İncelemede Xnxp matrisinin kolonlarının
birimleri arasında uyuşma söz konusu değilse, bu matris yerine onun standartlaştırılmış formu kullanılır.
Aslında temel
bileşenler p tane X1,X2,...,Xp
rasgele değişkenin özel lineer kombinasyonudur.
Geometrik olarak, bu lineer kombinasyonlar koordinat eksenleri X1,X2,...,Xp
ler olan orijinal sistemin döndürülmesiyle elde edilen yeni bir koordinat
sistemini temsil eder.
Xnxp çok değişkenli
veri kümesinin varyans-kovaryans matrisi V
nin öz
değer (
) ve bu öz değerlere karşılık öz vektörleri (ui) olmak üzere (
) çiftleri için i. temel bileşen
i=1,2,…,p
eşitliği yardımıyla hesaplanır. Örneğin
1.temel bileşen, Var(y1)=u1'Vu1 , maksimum varyanslı
lineer kombinasyondur bu da en büyük öz değere karşılık gelen öz vektöre
karşılık gelir. Bu şekilde temel bileşenler belirlenerek Xnxp matrisini temsil eden problemsiz yeni temel
bileşenler matrisi Ynxp belirlenmiş olur.
Klasik temel bileşenler analizi; verilerde homojenliğin bozulması
durumunda (yani sapan değerlerin varlığında) sağlıklı sonuçlar vermemektedir. Bu durumda sapan
değerlere karşı dayanıklı olan kestiriciler kullanılarak analizin yapılması
gerekmektedir. Bu konudaki
ilk çalışma Campbell(1980) tarafından yapılmıştır. Campbell çalışmasında robust
M-kestiricisi kullanarak sapan değerlerden etkilenmeyen temel bileşenleri
belirlemiştir. Campbell (1980) tarafından önerilen robust temel bileşenler
analizi (RTBA) yöntemi, temel bileşenler analizi içerisinde varyans-kovaryans
matrisinin robust M-kestiricisinin kullanımı ile tanımlanmıştır. Bu yöntemde
amaç; sapan değerlerin etkisini ortadan kaldıracak gerçek ağırlıkları bularak
tüm veri kümesini temsil eden gerçek varyans-kovaryans matrisini elde etmektir.
Ardından Li ve Chen (1985); Projection Pursuit (PP)’e dayalı bir çözüm önerdiler. PP yöntemi; çok değişkenli verinin bir doğru ya da bir düzlem üzerindeki lineer izdüşümleri yardımı ile orijinal verinin yapısını ortaya çıkarmaya çalışır. Burada tüm veri kümesi hakkında en fazla bilgiyi açığa çıkaran küçük boyutlu izdüşümü bulma amacı ile veri kullanılır. Li ve Chen’nin amacı; en büyük robust ölçeklemeye sahip izüşümü alınmış gözlemlerin doğrultusunu belirlemektir. Birbirini izleyen adımlarda her yeni doğrultu önceki tüm doğrultulara dik olacak şekilde belirlenmektedir. Yüksek boyutlu veri kümelerinde hatta ve hatta p>n iken de dahil olmak üzere iyi sonuç veren bir algoritmadır. Ama hesapsal problemler içermektedir.
Projection pursuit’e (PP) dayalı yöntemlerde karşılık
gelen etki fonksiyonunun sınırlandırılmamış olması yerel robustlıkta eksikliğe
sebep olmaktadır. Bunun yanında PP ye dayalı kestiricilerin nasıl hesaplanacağı
açık değildir. Bu problemleri ortaya çıkaran Croux ve Ruiz-Gazen kısıtlamalar
altında bir maksimizasyon probleminin çözümünü önerdiler. C-R algoritması adını
verdikleri yöntem küçük boyutlu veri kümelerinde iyi çalışmasına rağmen büyük
boyutlu veri kümeleri için hesapsal problemler içermektedir.
Robust kestiricilerle
yapılan işlemler çoğu zaman için sağlıklı sonuç verirler ama bilindiği gibi
yapılması gereken işlemler problemli ve zaman alıcıdır. Gözlem ve parametre
sayılarının artması durumunda hesaplamalar iyice artmaktadır. Bunun yanında
kullanılan veri kümesine ve istatistiğe bağlı olarak etkinliklerinde
değişikliklerin olabilmesi ve sadece belli tipteki sapan değerleri ortaya
çıkarıyor olmaları da karşılaşılabilecek problemlerdendir. O halde bu
problemlerden etkilenmeyen daha hızlı işleyip sağlıklı sonuç veren bir yönteme
gereksinim duyulmaktadır. Bu amaçla; bu çalışmada Billor ve ark. (2000)
tarafından tanımlanan BACON algoritması kullanılarak robust temel bileşenlerin
belirlenmesini sağlayan bir algoritma tanımlanmıştır.
Algoritma
Adım 1: Temel altküme ; BACON algoritmasında tanımlı
yaklaşımlardan biri (Y1 veya Y2)
kullanılarak m=cp, (c=4 veya 5) elemanlı olacak şekilde belirlenir.
Adım
2: Temel alt kümedeki
gözlemlerin ortalama ve varyans-kovaryans matrisleri sırasıyla,
ve Sb olmak
üzere
i=1,2,…,n
uzaklıkları
hesaplanır.
Adım 3:
olan gözlemlerle yeni temel alt küme
belirlenir.
; p serbestlik
dereceli,
yüzdelikli ki-kare
değeri,
olan bir düzeltme
faktörü, r; şu an ki temel alt kümede
bulunan eleman sayısı,
ve
olarak tanımlıdır (
).
Adım 4: 2. ve 3. adımlar temel alt kümede
değişme olmayana kadar tekrarlanır.
Adım 5: Son adımda elde edilen temel alt küme dışında kalan gözlemler sapan değer
olarak tanımlanır.
Adım 6: Sapan değer olarak belirlenen gözlemler
veri kümesinden atılarak indirgenmiş veri kümesi elde edilir (X(I)).
Adım
7: X(I) matrisinin
öz değer ve öz vektör çiftleri (li ,ui); l1³l2³...³lp >0 olacak
şekilde hesaplanır.
1. Adım 8:
U=(u1,u2,…,up) olarak tanımlanmak üzere yeni temel bileşenler
2.
![]()
elde edilir.
Adım 9:Elde edilen yeni temel
bileşenler matrisine BACON algoritması uygulanarak sapan değerler belirlenir.
3.
Robust uzaklıklar, sayısal olarak bize hangi gözlemlerin
sapan değer olduğu hakkında bilgi vermekle beraber, bu gözlemler grafiksel
olarak daha kolaylıkla sergilenebilir. Bu nedenle elde edilen yeni temel bileşenlere BACON algoritması
uygulandıktan sonra elde edilen ortalama ve kovaryans matrisleri yardımıyla
karşılık gelen Mahalanobis uzaklıkları hesaplanır. Bu uzaklıkların
§
küp köküne ait Quantile-Quantile
(Q-Q) veya
§
klasik Mahalanobis uzaklıkların
robust BACON uzaklıklarına karşı veya
§
robust BACON uzaklıklarının indis
grafiklerine bakılarak tüm veri kümesi içerisinde
sapan değer olan gözlemler kolaylıkla belirlenir. Ayrıca benzer olarak hangi
gözlemlerin hangi temel bileşen üzerinde en fazla sapmaya neden olduğunun belirlenmesi; herbir temel bileşene
ait Q-Q grafikleri yardımıyla
yapılabilir.
5.
Uygulama
Önerilen yöntemin uygulanabilirliği iki veri kümesi üzerinde gösterilebilir. Bu veri kümelerinden birincisi, Hawkins-Bradu ve Kass(1984) sapan değerler hakkında ön bilgimiz olduğu için yöntemin performansını irdelememiz açısından çok kullanışlı bir veri kümesidir. Diğer veri kümesi de (Philips veri Kümesi (1999)) büyük bir veri kümesi olduğu için yine önerilen yöntemin büyük veri kümelerine uygulanması durumundaki başarısını göstermesi açısından ayrı bir öneme sahiptir.
Örnek 1.
Hawkins-Bradu ve Kass veri kümesi (HBK)
Bu veri kümesi Hawkins-Bradu ve Kass (1984) tarafından 1-14 arası gözlemlerin sapan değer olduğu bilinen, özel amaç için oluşturulmuş, n=75 ve p=3 olan bir veri kümesidir. Bu veri kümesi ile ilgili klasik Mahalanobis uzaklığına ait indis grafiği (Şekil 1) incelendiğinde gerçekten sapan değer olduğu bilinen gözlemlerin çok azı sapan değer olarak görülmektedir (maskeleme problemi). Benzer bilgiler Mahalanobis uzaklığının küp köküne ait Q-Q grafiğinin (Şekil 2) incelenmesi ile de söylenebilir.

Şekil 1: Klasik Mahalanobis uzaklıkları için indis grafiği

Şekil 2: Klasik
Mahalanobis Uzaklığına ait Q-Q grafiği


(a)

(b)
(c)
Şekil 3 (a,b,c):Hawkins-Bradu-Kass veri kümesinin her bir yeni temel
bileşenine ait Q-Q grafikleri

Şekil 4: BTBA den elde edilen robust
Mahalanobis uzaklığına ait indis grafiği

Şekil 5: BTBA den elde edilen robust
Mahalanobis uzaklığına ait Q-Q grafiği
Bu bize klasik yöntemlerin sapan değerlerin varlığında sağlıklı sonuç vermediğini açık bir şekilde göstermektedir. Bu problemden kurtulabilmek için sapan değerlerden etkilenmeyecek kestiriciler kullanarak işlemlerin yapılması gerekmektedir. Örneğin robust M-kestiricisinin kullanımı ile tanımlı RTBA (Campbell, 1980) bu veri kümesine uygulandığında veri kümesindeki ilk 14 gözlemin sapan değer olduğu rahatlıkla söylenebilmektedir.
Bu veri kümesine BTBA yöntemini uyguladığımızda elde ettiğimiz yeni temel bileşenlere ait Q-Q grafikleri Şekil 3 (a)-(c) de görülmektedir.
Grafikler incelendiğinde 1. temel bileşen üzerinde ilk 14 gözlemin, 2. temel bileşen üzerinde 47, 52 nolu gözlemlerin ve 3. temel bileşen üzerinde de 13, 14, 53 nolu gözlemlerin etkili oldukları görülmektedir. Bu algoritma ile ilgili Mahalanobis uzaklığının indis (şekil 4) ve küp köküne ait Q-Q grafiği (Şekil 5) incelendiğinde de ilk 14 gözlemin ciddi anlamda problemli gözlemler oldukları hemen söylenebilmektedir.
Örnek 2. Philips
veri kümesi
Philips Mecoma (Hollanda), TV sehpası üretilen bir merkezde işlemler ince metal levhalarla yapılmakta ve presleme ile levhaya şekil verilmektedir. Yeni üretim tekniği ile çalışmalara başlanmış ve bu tekniğin kullanılabilirliği araştırılmak amacı ile 677 farklı parça üzerinde araştırma yapılmıştır (Rousseeuw ve van Driessen, 1999). Her bir parça üzerinde 9 farklı karakter için ölçümler yapılarak bu karakterler arasındaki ilişkinin olup olmadığı ve şekil bozukluklarının oluşup oluşmadığı araştırılmak istenmiştir.
Bu veri kümesine ait
klasik Mahalanobis uzaklığına ait indis grafiğine (Şekil 6) bakıldığında çok
fazla problemli gözlem görülmemektedir. Yine bu uzaklığın küp köküne ait Q-Q grafiği
de (şekil 7) benzer bilgiler vermektedir. Analizin gerçekten doğru bilgi
veriyor olabilmesi için buradan elde edilen sonuçların robust yöntemlerden elde
edilenlere benzer olması gerekmektedir.
Farklı robust yöntemler kullanılarak da bu veri kümesi incelenebilir. Örneğin; Rousseeuw ve van Driessen (1999) yapmış oldukları çalışmada M.V.E. yöntemine dayalı robust uzaklıklar kullanarak çalışmalarını yapmış ve 491-565 nolu gözlemlerin grup halinde sapan değer olduklarını bulmuşlardır. Başka robust kestiriciler kullanılarak da benzer sonuçlar elde edilebilir. Ancak gözlem ve parametre sayısının fazla olması nedeniyle çoğu yöntemde hesapsal problemlerle karşılaşılması aşikardır. Hatta bazı yöntemlere uygulanması söz konusu dahi değildir. Campbell (1980) in RTBA yöntemi buna örnek olarak verilebilir.
Şimdi bu veri kümesini önerdiğimiz BTBA yöntemi kullanarak inceleyelim. İnceleme sonucu elde edilen yeni temel bileşenlere ait Q-Q grafikleri incelendiğinde
1. temel bileşen üzerinde16, 297, 298, 491-494, 500, 503, 507, 517, 519, 521, 523, 526, 550 nolu gözlemler,
2. temel bileşen üzerinde 16, 85, 83 nolu gözlemler,
3. temel bileşen üzerinde 16, 297, 298, 435, 521, 524 nolu gözlemler
4. temel bileşen üzerinde 16, 95, 96, 98, 104, 605 nolu gözlemler
5. temel bileşen üzerinde 116, 120 ve 175 nolu gözlemler
6. temel bileşen üzerinde 50 nolu gözlem
7. temel bileşen üzerinde 175, 426-437, 491-567, 605 nolu gözlemler
8. temel bileşen üzerinde 16, 297, 298, 426-437, 491-565, 605 nolu gözlemler
9. temel bileşen üzerinde 16,297,298,426-565,605 nolu gözlemler
etkili olarak görülmektedirler. BTBA yapıldığında elde edilen Mahalanobis uzaklığının indis ve küp köküne ait Q-Q grafikleri (Şekil 8-Şekil 9) incelendiğinde ise 491-565 nolu gözlemlerin ayrı bir grup olarak veriden ayrıldığı ve sapan değer olduğu hemen söylenebilir.
Buradan algoritmanın bizi robust yöntemler gibi sağlıklı sonuçlara ulaştırdığı söylenebilir.

Şekil 6: Philips Veri Kümesinin Klasik
Mahalanobis Uzaklığına ait İndis Grafiği

Şekil 7: Philips Veri
Kümesinin Klasik Mahalanobis Uzaklığına ait Q-Q grafiği


Şekil 8: Philips veri kümesine BTBA uygulandıktan sonra
elde edilen Mahalanobis uzaklığının indis grafiği
Şekil 9: BTBA den elde
edilen Mahalanobis uzaklığına ait Q-Q grafiği
Sonuç
Bu çalışmada
robust temel bileşenler analizine dayalı olarak daha önce önerilen yöntemlere
alternatif olabilecek bir algoritma verilmiştir. Çok değişkenli veri kümeleri
içerisinde çoklu sapan değerleri bulmayı amaçlayan bu algoritma; büyük veri
kümelerine (1 milyon gözlem için bile)
uygulanabilmekte, model üzerinde çok küçük etkisi olabilecek gözlemleri
belirleyebilmekte, hesapsal problem içermemektedir. Bu nedenlerle şimdiye kadar
yapılmış robust temel bileşenlerle ilgili yöntemlere alternatif olarak
önerilmektedir.
Kaynaklar
1. Atkinson, A. C. ve Mulira H. M. (1993), "The
Stalactite Plot for the Detection of
Multivariate Outliers", Statistics
and Computing, 3, 27-35.
2. Atkinson, A.C. (1986)
“Masking Unmasked”, Biometrica, 73,3,533-541
3. Bacon-Shone, J., and Fung, W.K. (1987), "A
New Graphical Method for Detecting Single and Multiple Outliers in Univariate
and Multivariate Data", Journal of the Royal Statistical Society (C), 36, No.2,
153-162.
4. Barnett, V. .and Lewis, T. (1994), Outliers in Statistical Data ,3rd
edition, New York: John Wiley and Sons.
5. Billor, N. , Hadi, A. S.
and Velleman, P. F.(2000), "BACON:Blocked Adaptive
Computationally-Efficient Outlier Nominators", Computational Statistics and Data Analysis, 34, 279-298.
6. Campbell, N. A.
(1980), "Robust Procedures in
Multivariate Analysis I: Robust
Covariance Estimation", Applied
Statistics, 29
, 231-237.
7.Caroni, C. and Prescott, P. (1992),
"Sequential Application of
Wilk’s Multivariate Outlier Test", Applied Statistics,
41, 355-364.
8.Caroni, C. (2000)
"Outlier Detection by Robust Principal Components Analysis", Commun. Statist.-Simula., 29(1),
139-151.
9. Fung, W.K.
(1993);”Unmasking Outliers and Leverage Points:A confirmation”, J. Amer.
Statist. Asso., 88, 515-519.
10.Hadi , A. S. (1992), "Identifying Multiple
Outliers in Multivariate Data" , Journal of the Royal Statistical
Society, series(B), 54,
761-771.
11. Hadi, A. S.
(1994), "A Modification of a
Method for the Detection of
Outliers in Multivariate
Samples", Journal of the Royal
Statistical Society,
series(B), 56, No. 2.
12. Hadi, A.S. and Simonoff, J. S. (1993), Procedures
for the Identification of Multiple Outliers in Linear Models”, Journal of the
American Statistical Association, Vol. 88,414,1264-1272.
13. Hawkins, D. M. , Bradu, D. And Kass, G. V.
(1984), “Location of Several Outliers in Multiple Regression Data Using
Elemental Sets”, Technometrics, 26,197-208.
14.Hampel, F.
R.,Ronchetti, E. M., Rousseeuw, P. J., and Stahel , W. A.(1986), Robust Statistics: The Approach
based on Influence Functions,
New York: John Wiley and Sons.
15. Paul, S.R. and Fung, K. Y. (1991), “A
generalization Extreme Studentized Residual Multiple Outlier Detection
Procedure in Linear Regression”, Technometrics, 33,229-348.
16.Rousseeuw
P.J.(1983),"Regression Techniques With High Breakdown Point", The IMS Bulletin, 12, 155.
17. Rousseeuw, P. J. (1984),
"Least Median of Squares Regression", Journal of the American Statistical Association, 79, 871-886.
18. Rousseeuw P.J.(1985),
"Multivariate Estimation With High Breakdown Point in Mathematical
Statistics and Applications", Vol B ,eds. W. Grossmann, G. Pflug, I.
Vincze, and W. Wertz, Dordrecht: Reidel, 283-297.
19. Rousseeuw, P. J. ve van Zomeren, B. C. (1990), "Unmasking
Multivariate Outliers and Leverage Points (with discussion)", Journal
of the American Statistical
Association, 85, 633.
20. Rousseeuw, P. J. ve
Leroy, A. M. (1987), Robust
Regression and Outlier Detection, New York: John
Wiley and Sons.
21.Rousseeuw, P. J. ve van
Driessen, K. (1999), "A Fast Algorithm for the Minimum Covariance
Determinant Estimator", Journal of the
American Statistical Association,
41, 212-223.
22. Rosner, B. (1975); “On
the Detection of Many Outliers”, Technometrics, 17,217-227.
23 Simonoff, J. S. (1991),
"General Approaches to Stepwise Identification of Unusual Values in Data
Analysis", Directions in Robust
Statistics and Diagnostics:Part II, W. Stahel and S. Weisberg,
eds.,Springer –Verlag: New York, 223-242.
24. Steele J. M. And Steiger, W. L. (1986), “ Algorithms and Complexity for Least Median of Squares Regression”, Discrete Applied Mathematics, 13,509-517.
25.Wilks, S. S. (1963), "Multivariate Statistical Outliers", Sankhya, A25, 407-426.