ÖZET
Longitudinal
veri analizinde, aynı denekten alınan gözlem değerlerinin birbirleriyle
ilişkili olması ve bu ilişkinin analizde dikkate alınmaması etkinlikte kayıp
sorunu yaratmaktadır. Bu çalışmada; bu tür verilerin analizinde gözlemler
arasındaki korelasyonun da göz önünde bulundurulduğu ve varyans tahminlerinin
farklı korelasyon yapılarına göre hesaplandığı genelleştirilmiş tahmin
denklemleri yöntemi ele alınarak, yöntemde hangi tür veri seti için hangi
korelasyon yapısının kullanılması gerektiği üzerinde durulmuştur. Çalışmanın
uygulama bölümünde hazır bir veri seti üzerinde, farklı korelasyon yapılarının tahminleri
nasıl etkilediği gösterilmiştir.
1. GİRİŞ
Bir çok çalışmada, deneklerin belirli bir zaman aralığında ayrı ayrı tekrarlı ölçümlerine ihtiyaç duyulmaktadır. Bu yolla elde edilen veriler longitudinal veriler olarak adlandırılırlar. Longitudinal verilerin analizi, araştırmacıya, deneklerin zamana göre değişim gösterip göstermediği konusunda fikir verir. Diğer taraftan bu yolla daha az sayıda denekten daha fazla veri elde edilerek daha güçlü istatistiklerin hesaplanmasına olanak sağlanmış olunur.
Longitudinal verilerle çalışıldığında, yanıt değişkeni normal dağılım gösteriyorsa, bu durumda analizde çok büyük problem yaşanmaz. Nitekim, bu tür verilerin analizi için dağılımsal varsayımların ve tasarımların dikkate alındığı çok sayıda süreç vardır. Yanıt değişkeninin, likert ölçeği ile ölçümlendiği durumlarda olduğu gibi, normal dağılım göstermediği çalışmalarda Ağırlıklı En Küçük Kareler ya da Genelleştirilmiş Tahmin Denklemleri yöntemlerinden birine başvurulur. Ancak bu yöntemler arasında daha etkin olanı, gözlemler arasındaki ilişkiyi de dikkate aldığından, Genelleştirilmiş Tahmin Denklemleri (GTD) tahmin yöntemidir.
2. GENELLEŞTİRİLMİŞ TAHMİN DENKLEMLERİ YÖNTEMİ
GTD metodolojisi ilk kez 1986 yılında Liang ve Zeger
tarafından binom dağılımında olduğu gibi iki şıklı yanıt değişkeninin bulunduğu
durumlarda, özellikle denklemde bir de eş değişken varken kullanılmak üzere
geliştirilmiş, daha sonra Prentice tarafından 1988 yılında sıralı yanıt
değişkeni için birikimli logit, birikimli probit modellerine genellenmiştir [1,
2, 3].
GTD yaklaşımında her bir denek bir küme olarak
adlandırılır. Farklı kümeler için elde edilen gözlemlerin bağımsız, aynı küme
için elde edilen gözlemlerin ise birbiriyle ilişkili olduğu düşünülür. GTD
yöntemi, etkinliği arttırmak amacıyla bu ilişkiyi
de dikkate alan
tahmin tekniğidir. Söz konusu ilişki R(α) ile gösterilen (nixni)
boyutlu simetrik matrisle ifade edilir. Bu matrise aynı zamanda “üzerinde
çalışılan ilişki matrisi” de denilir [4]. Matrise bu ismin verilmesinin bir
nedeni, bu
ilişkinin yanlış tanımlanmış olma ihtimalinden kaynaklanmaktadır.
Quasi-likelihood fonksiyonunu GTD’ne uygulayabilmek amacıyla, yanıt vektörünün ortalama ve kovaryansı düşünülmelidir. Buna göre quasi-likelihood yaklaşımında üzerinde çalışılan kovaryans matrisi eşitlik (1)’de olduğu gibi hesaplanır:
(1)
Burada; Ai, ni x ni
boyutlu köşegen matrisini (![]()
Ri(α), üzerinde çalışılan ilişki matrisini göstermektedir.
(1) eşitliğinde denekler t zamanlarında tij kez gözlenmişlerdir. Buna göre j=1, ... , nj olmaktadır.
Farklar vektörü aşağıdaki gibi tanımlanmış olsun:
Si = yi – μi (2)
Quasi-likelihood fonksiyonu longitudinal veri seti dikkate alındığında, (2) eşitliğindeki Si vektörü de kullanılmak üzere, regresyon parametrelerinin tahmini aşağıdaki gibi olacaktır:
(3)
Burada;
olarak tanımlanan
vektörünü (
)
Vi, (1) eşitliğinde tanımlanan kovaryans matrisini
i=1,...,K olmak üzere denekleri göstermektedir.
GTD yönteminde regresyon katsayıları tahminleri
olasılıklar oranı yardımıyla hesaplanmakta ve yorumlar bu tahminlere göre
yapılmaktadır.
3. GENELLEŞTİRİLMİŞ TAHMİN DENKLEMLERİ YÖNTEMİNDE KORELASYON YAPILARI
GTD yaklaşımında, tutarlı ve asimptotik normal dağılım özelliklerini sağlayan regresyon katsayı tahminlerini ya da tutarlı varyans tahminlerini elde edebilmek için çalışılan korelasyon matrisinin doğru belirlenmesi gerekmektedir. Birim sayısının çok fazla olduğu durumlarda asimptotik özellikler sağlanır, tutarlı ve etkin tahminler elde edilebilir. Bu gibi durumlarda bile korelasyon yapısının doğru tahmin edilmesi etkinlikte artan bir kazanca neden olur [5].
GTD yönteminde bütün denekler için aynı korelasyon yapısının benimsenmiş olması şart değildir. Sabit bir korelasyon yapısının benimsenebilmesi, sadece eksik gözlemlerin tamamen rassal olması durumunda gerçekleşecektir. Dolayısıyla uygulamada her bir denek için gözlem sayısı eşit olmadığından, eksik gözlemlerde rassallığın sağlanması koşulu ile bu ilişkinin tüm denekler için sabit olduğu varsayılır [4, 6].
Eşitlik (1) dikkate alınarak R(α) aşağıdaki gibi yazılabilir [7]:
(4)
Burada; R(
) matrisi (K-1)x(K-1) boyutludur. Matrisin köşegen
elemanlarının Corr(Yikt,Yikt)=1 olacağı açıktır. Köşegen dışında kalan
elemanların modellenmesi önemlidir. Genel olarak ilişki (5) eşitliği ile
verilir [3]:
(5)
Ancak korelasyon yapısı verilere bağlı olarak tanımlanmalıdır. Bu yolla köşegen dışındaki elemanların tanımı da değişecektir. GTD’de yer alan farklı korelasyon yapıları şunlardır:
3.1.
Yapılandırılmamış korelasyon
Genel olarak kümelerdeki gözlem sayıları çok azken, eksik gözlem bulunmaması durumunda uygun korelasyon yapısı yapılandırılmamış (unstructured) korelasyon yapısıdır [8]. Örneklem yeterince büyük olduğunda yapılandırılmamış korelasyon yapısı kullanıldıysa tahminler tutarlı olacaktır [5].
Diğer taraftan aynı denemelerde yanıt değişkeni çok farklı değerler alıyorken yine yapılandırılmamış korelasyon kullanılmasında fayda vardır [5].
![]()
(6)
Araştırmacı yapılandırılmamış korelasyon yapısı için t(t-1) tane parametre belirlemelidir.
3.2.
Bağımsız korelasyon yapısı
Örneklemde yer alan birim sayısı çok fazla olduğunda değişkenler arasında bağımsızlık varsayımı kullanılabilir. Bu durumda dikkat edilmesi gereken eksik gözlemlerin mümkün olduğunca az sayıda ve tamamen rassal olmasıdır.
Birim sayısı az ancak her bir kümedeki tekrarlı gözlem sayısı fazla olduğu durumlarda da doğru korelasyon yapısının belirlenmesi ile etkinlikte biraz kazanç sağlanabilir. Bu durumda yine uygun korelasyon yapısı bağımsız korelasyon yapısıdır [5].
Yaş gibi zamana bağlı eş değişkenler varken bağımsız korelasyon yapısı kullanılarak elde edilen tahminler, diğer korelasyon yapısı varken elde edilen tahminlere göre daha az etkindirler [7].
Bağımsız korelasyon yapısı aşağıdaki gibi tanımlanır [9]:

(7)
Korelasyon yapısı tanımlanırken bağımsızlık varsayımı dikkate alındığından burada herhangi bir parametrenin tahmin edilmesine gerek yoktur.
3.3. Değiştirilebilir (exchangeable) korelasyon yapısı
GTD’de en çok kullanılan korelasyon yapılarından biridir. Korelasyon yapısının belirlenmesi eşitlik (8) ile ilgilidir:
(8)
(8) eşitliğinde k=0 olması
durumunda kullanılan korelasyon yapısı değiştirilebilir korelasyon yapısı
olarak adlandırılır [10]. Bir diğer ifade ile
olmak üzere
longitudinal çalışmanın tüm değişkenlerine ilişkin korelasyonun birbirine eşit
olduğu söylenir [3]. Bu durum çoğu zaman
longitudinal verilerde gözlemlerin çok kısa aralıklarla elde edildiği
durumlarda gerçekleşebilir.
Tekrarlı gözlemlerin olduğu durumlarda gözlemlerin elde edilmesinde mantıklı bir sıra söz konusu değilse yine değiştirilebilir korelasyon yapısı uygundur.
Bağımsız korelasyon yapısının benimsendiği durumlarda gerçekte yanlılığın maksimum olduğu varsayılır. Genel olarak değiştirilebilir korelasyon yapısının kullanıldığı durumlarda bu yanlılık minimumdur diye düşünülür. Oysa bağımsız korelasyon yapısı yerine değiştirilebilir korelasyon yapısının kullanılmasıyla ortaya çıkan yanlılık maksimumdur [11].
Tüm gözlemlerde korelasyonun aynı olduğu değiştirilebilir korelasyon yapısı eşitlik (9)’da verildiği gibidir:
![]()
(9)
Bütün değişkenler için korelasyon katsayılarının eşit olduğu düşünüldüğünden tahmin edilmesi gereken parametre sayısı 1’dir.
3.4.
Otoregresif korelasyon yapısı
Longitudinal veri analizinde çoğunlukla verilerin ard arda gözlemlenmesi nedeniyle birinci dereceden otoregresif korelasyon meydana gelir. Bu durum (8) eşitliğinde k=1 olması ile ifade edilir. GTD’de çok sık kullanılan korelasyon yapılarından biridir.
Genel olarak birbirine yakın zamanlarda gözlemlenmiş birimler arasında yüksek derecede korelasyonun olması beklenen bir durumdur. Uzun zaman aralıklarıyla elde edilen veriler genellikle daha az ilişkilidirler. Bu nedenle kısa zaman aralıklarıyla elde edilen verilerde otoregresif korelasyon yapısı en uygun korelasyon yapısıdır. Nitekim otoregresif korelasyon yapısı bir önceki veri seti için elde edilmiş korelasyon katsayısını da dikkate alır [10].
Otoregresif korelasyon yapısı için çalışılan korelasyon matrisi eşitlik (10)’da olduğu gibidir.
![]()
(10)
Bir önceki korelasyon katsayısı da dikkate alındığından elde edilen parametre sayısı 1’dir [8].
3.5.
M-bağımlı korelasyon yapısı
Bu korelasyon yapısı, durağan korelasyon yapısı olarak da adlandırılmaktadır. Zamana bağlı olmaksızın elde edilmiş veri setleri için korelasyonun, gözlemler arasındaki zamanın bir fonksiyonu olduğu düşünülerek uygun korelasyon yapısına karar verilmesi mantıklıdır. Bu durumda, M-bağımlı korelasyon yapısı benimsenebilir.
Eş değişkenlerin zamana göre durağan olduğu çalışmalarda uygun korelasyon yapısı yine M-bağımlı korelasyon yapısıdır [12].
M-bağımlı korelasyon yapısının benimsendiği durumlarda çalışılan korelasyon matrisi Eşitlik (11)’de olduğu gibidir:

(11)
(11) eşitliğinde küme boyutuna ve belirlenen m değerine bağlı olarak korelasyon matrisinin bazı elemanları “0” değerini alacaklardır. Belirlenecek m değeri küme boyutundan küçük olmalıdır.
M-bağımlı korelasyon yapısı için
belirlenmesi gereken parametre sayısı
olarak tanımlanır [8].
3.6.
Sabit korelasyon yapısı
Hesaplanan korelasyon katsayıları ile korelasyon matrisi oluşturulduğundan veri sayısının çok fazla ve tekrar sayısının az olduğu çalışmalarda kullanılır. Az kullanılan korelasyon yapılarından biridir. Bu durumda benimsenen korelasyon matrisi Eşitlik (12)’deki gibidir.
![]()
(12)
Sabit korelasyon yapısında parametre tahmini yapılmaz [8].
Bu çalışmada üzerinde durulan 6 tip korelasyon yapısının yanı sıra üssel korelasyon yapısı adı altında bir başka korelasyon yapısı daha tanımlanmıştır. Ancak bu korelasyon yapısının kullanımı çok azdır ve henüz bilgisayar programlarında çözümlemesi yapılamamaktadır [5].
Hangi korelasyon yapısının kullanılacağına karar verilirken benimsenen yollardan biri, uygun görülen birkaç korelasyon yapısını denemek ve daha sonra model temelli varyansa en yakın deneysel varyansı veren korelasyon yapısını seçmektir [13].
4.
UYGULAMA
Bu bölümde Wagenknecht ve ark. (1998)’de yer alan sigara tüketimine ilişkin veriler kullanılmıştır. Çalışmada 1986-1993 yılları arasında 5078 gencin sigara alışkanlığı olup olmadığının belirlenmesi amacıyla herbir denek 2 yıl aralıklarla 4 kez gözlenmiş ve deneklerin ırk (zenci-beyaz) ve cinsiyetlerine (bayan-erkek) göre sigara kullanıp kullanmadıkları modellenmiştir [14]. Farklı korelasyon yapılarına göre hesaplanan regresyon katsayıları ve tahminlerin [model-temelli] ve (deneysel) standart hataları aşağıdaki tabloda verilmiştir:
|
Korelasyon Yapısı |
Zenci Erkekler |
Zenci Bayanlar |
Beyaz Erkekler |
Beyaz Bayanlar |
|
Bağımsız Değiştirilebilir Yapılandırılmamış |
-0.25 [1.24] (0.84) 1.09 [0.67] (0.71) 1.08 [0.74] (0.71) |
-0.65 [1.12] (0.72) -0.26 [0.61] (0.61) -0.31 [0.67] (0.61) |
-3.37 [1.32] (0.83) -2.19 [0.70] (0.73) -2.23 [0.78] (0.73) |
-5.24 [1.28] (0.86) -4.11 [0.68] (0.75) -4.21 [0.75] (0.74) |
Tablodan da
görüldüğü gibi, değiştirilebilir ve yapılandırılmamış korelasyon yapıları benzer
sonuçlar verirken, bağımsız korelasyon yapısından elde edilen sonuçlar
diğerlerine göre oldukça farklıdır. Katsayı tahminleri bağımsız korelasyon
yapısı kullanıldığında anlamlı olamayacak kadar küçüktürler.
5. SONUÇ ve ÖNERİLER
Genelleştirilmiş Tahmin
Denklemleri yönteminin uygun olduğu veri setleri için analize başlamadan önce
dikkat edilmesi gereken noktalardan biri uygun korelasyon yapısının seçimidir.
Araştırmacı, genellikle verinin yapısına bakarak hangi korelasyon yapısını
seçeceğine karar verebilir.
Tekrar
sayısının çok fazla olduğu, gözlemlerin birbirine yakın zamanlarda elde
edildiği durumlarda önerilen korelasyon yapısı otoregresif korelasyon
yapısıdır.
Tekrarların fazla sayıda olduğu ve yapılan
tekrarların mantıksal bir sıra izlemediği durumlarda, korelasyon değerinin tüm
çalışma boyunca aynı olduğu varsayılabilir. Bu durumlarda değiştirilebilir
korelasyon yapısı kullanılmalıdır.
Kümede az sayıda gözlemle çalışıldığı durumlarda
yapılandırılmamış korelasyon yapısı tercih edilmelidir.
Çok fazla sayıda denek varken bağımsız korelasyon
yapısı kullanılabilir. Gözlem sayısı az ancak denek sayısı çok fazla iken,
doğru korelasyon yapısının kullanılmasıyla elde edilen etkinlikteki kazanç
minimum olacaktır.
Araştırmacı farklı korelasyon yapıları deneyip tahminlerin standart hatalarına göre karar verebilir.
KAYNAKÇA
1. PREISSER, J. S. and KOCH, G. G., Categorical Data Analysis In Public Health, Annual Review Public Health, 18, p. 51-82, 1997.
2. AGRESTI, A., Modelling Ordered Categorical Data: Recent Advances and Future Challenges, Statistics in Medicine 18, p. 2191-2207, 1999.
3. LIPSITZ, S. R., FITZMAURICE, G. M., ORAV, E. J. and LAIRD, N. M., Perfomance of Generalized Estimating Equations in Practical Situations, Biometrics, p. 270-278, 1974.
1. ZEGER, S. L. and LIANG, K. Y., Longitudinal Data Analysis for Discrete and Continuous Outcomes, Biometrics, 42, p. 121-130, 1986.
2. KOCH, G. and PREISSER, J. S., Models in Categorical Data Analysis, Handbook of Statistics, UNC, 2000.
3. HENDRICKS, S. A., JAMES, T. W., COLLINS, J. W. and SEDLAK, S. L., Power Determination for Geographically Clustered Data Using Generalized Estimating Equations, Statistics in Medicine, Vol. 15, p. 1951-1960, 1996.
4.
LIPSITZ, S. R.,
KIM, K. and ZHAO, L., Analysis of Repeated Categorical Data Using Generalized Estimating Equations, Statistics
in Medicine, Vol. 13, p. 1149-1163, 1994.
5. HORTON, J. N. and LIPSITZ, S. R., Review of Software to Fit Generalized Estimating Equation Regression Models, American Statistician, Vol. 53, p. 160-169, 1999.
6. ZEGER, S. L., Commentary, Statistics in Medicine, 7, p. 161-168, 1988.
7.
LIPSITZ, S. R.
and FITZMAURICE, G. M., Estimating Equations for Measures of Association
Between Repeated Binary Responses, Biometrics 52, p. 903-912, 1996.
8. FITZMAURICE, G. M., MOLENBERGHS, G. and LIPSITZ, S. R., Regression Models for Longitudinal Binary Responses with Informative Drop-outs, Journal of Royal Statistical Society, Series B, 57, no. 4, p. 691-704, 1995.
9. PARK, C. G., PARK, T. and SHIN, D. W., A Simple Method for Generating Correlated Binary Variates, Journal of American Statistical Association, Vol. 50, No. 4, p. 306-310, 1996.
10. YAZICI, B., Kategorik Veri Analizinde Eş Değişken Bulunması Durumunda Genelleştirilmiş Tahmin Denklemleri Yaklaşımı ve Bir Uygulama, Doktora Tezi, Anadolu Üniversitesi, Fen Bilimleri Enstitüsü, 2001.
11. WAGENKNECHT, L. E., CRAVEN, T., PREISSER, J. S., MANOLIO, T. A., WINDERS S. and HULLEY, S. B., Ten-Year Trends in Cigarette Smoking Among Young Adults, 1986-1996: The CARDIA Study. Annals of Epidemiology, 8, 301-307, 1998.