Matematiksel İstatistik ve Ekonometri Eğitiminde
Bilgisayar Uygulamaları: Basit Monte Carlo Deneyleri
Doç. Dr. C. Emre Alper
Ekonomi Bölümü ve Ekonomi ve Ekonometri Merkezi
Boğaziçi Üniversitesi
PK 2, Bebek, İstanbul 80815
Giriş
Son
yıllarda matematiksel istatistik ve ekonometri eğitiminde veri üretme
mekanizmaları (Data generating processes) kullanılarak bazı teorik sonuçların
bilgisayarlar aracılığı ile öğrenciler tarafından simülasyonunun pedagojik
önemi anlaşılmış ve başlangıç ekonometri
kitaplarının bir bölümü, bu tip bilgisayar alıştırmalarını giderek
içermeye başlamıştır. (Bkz. Kennedy, 1999 ve Studenmund, 2001) Bu tip
bilgisayar destekli alıştırmaların 1- göreceli olarak masrafsız olarak
uygulanabilir oluşu; yani herhangi bir uzmanlaşmış ekonometri yazılımı
gerektirmeyen, ve artık standart olarak
bilgisayarlarda bulunan herhangi bir hesap çizelgesi (spreadsheet) yazılımı
(Excel, Lotus veya Quattro Pro gibi) kullanılarak yapılabilmesi; ve 2-
matematiksel istatistik ve ekonometri derslerinde cebir yolu ile yapılan teorik çıkarımların uygulama yoluyla
öğrencilerin anlayabileceği seviyeye indirilebilmesini sağlaması, son yıllarda
ekonometri eğitimi ile ilgili yazılmış makalelerde de ele alınmıştır. (Bkz. Kennedy, 1998)
Gerek
yurtiçinde, gerekse yurtdışında özellikle lisans eğitiminde verilen istatistik
ve ekonometri derslerindeki öğrenci sayısının çokluğu ve nisbeten daha az
zahmetli olması nedeni ile bu tip dersler daha çok matematik yoğun olarak
verilmekte ve daha çok “tebeşirli anlatım” kullanılmaktadır. Verilen bilgisayar
uygulamaları yetersiz kalmakta ve istatistik-ekonometri derslerini bitirip
mezun olmuş ve derslerden göreceli olarak yüksek notla geçmiş öğrenciler,
örneklem varyansı ve regresyon katsayı hesaplamaları gibi konuları mekanik olarak
yapabildikleri halde özellikle örneklem dağılımları konularını tam olarak
anlamamaktadırlar. İstatistik dersini aldıktan sonra ekonometri dersine gelen
öğrencilerin çoğu almış oldukları derste kullanılan matematiksel formüllerin
çokluğu nedeni ile istatistik bilimini matematik biliminin bir parçası olarak
görmektedir. Bunun nedeni örneklem uzayının yeterli derecede anlatılmamış
olması ve dersin “istatistiki” kısmının eksik kalmış olmasıdır. Derslerde
çıkarılan matematiksel formüller istatistiki bir tabana yeterince
oturmadığından, öğrenciler dersteki kavramları birleştirememekte, mekanik
olarak bu formülleri kullanmaktan öteye gidememekte ve dersten soğumaktadırlar.
Gerçekten, özellikle lisans ekonomi eğitiminde başarı oranının en düşük olduğu
ve öğrencinin en az randıman aldığı dersler (kalkülüs dersleri ile birlikte)
istatistik ve ekonometri dersleridir.
Ders kitapları da öğrenciye gerekli yardımı vermekten uzaktır.
Kitaplarda daha çok teorik ekonometriyi tanımlayan teoremler, ispatlar ve
matematiksel formüller yer almaktadır.
Bu çalışmada Boğaziçi Üniversitesi ikinci ve üçüncü sınıf ekonomi öğrencilerine (son üç yıl içinde) vermiş olduğum matematiksel istatistik ve ekonometri derslerinde verdiğim ödevlerden aldığım 4 basit monte carlo alıştırması ile bahsi geçen bilgisayar uygulamaları ile veri üretme mekanizmalarını anlatmanın ve istatistiki tabanın oturtulmasının 21. yüzyılda ekonometri eğitimindeki önemi vurgulanacaktır.
Matematiksel istatistik dersini alan bir öğrenci, ortalaması ve varyansı
bilinmeyen, normal dağılıma sahip kütleden gelen eldeki örneklemin gözlem
sayısının 30’dan küçük olduğu durumlarda, kütlenin ortalaması ile ilgili hipotez
testlerinde kullanılmak üzere t-dağılımından yararlanıldığını öğrenir. Ayrıca öğrenci, t-dağılımının elde edilmesi
sırasında bağımsız ki-kare dağılımına ve
serbestlik derecesine sahip Y rassal değişkeni ile standart
normal dağılıma sahip Z tesadüfi değişkeni kullanılarak elde edilen

T tesadüfi değişkenin olasılık dağılım fonksiyonunun

olduğunu öğrenir ve bu fonksiyonu değişken-değiştirme-tekniği kullanarak ispatlar. T değişkeninin dağılım fonksiyonunun uç noktalarda standart normal dağılıma göre daha kalın olduğu ve simetrik olduğu da öğrenciye gösterilir. Tipik bir matematiksel istatistik dersinde ayrıca ki-kare dağılım ve standart normal dağılım arasındaki ilişkiler de yine öğretilir.Yapılan işlemler sadece cebir kullanarak bir olasılık yoğunluk fonksiyonunun türetilmesinden ibaret olduğu için dağılımların öğrenci tarafından geometrik uzayda algılanması zor olabilir.
Aşağıdaki bilgisayar uygulaması bu sorunun üzerine gitmede yardımcı olmuştur:
Bu alıştırmada Excel hesap çizelgesi kullanılarak t-dağılımına sahip bir değişken ve bu değişkenin tanımsal istatistikleri çıkarılacaktır. Rasgele sayı üretebilmek için Excel hesap çizelgesindeki eklentiler arasından toolpak çözümleyicisine (tools-Data Analysis toolpack) ihtiyaç olacaktır. Excel hesap çizelgesinin ingilizce olan versiyonuna sahip olan kullanıcılar için gerekli komutlar parantez içinde sunulmuştur.
Talimatlar:
1. Yeni bir Excel hesap çizelgesi yaratın ve sayfa 1’in adını “normal” olarak isimlendirin.
2. Menüdeki “araçlar” (tools) altında yer alan “veri çözümleme araç paketi” (data analysis) içinden “rasgele sayı üretme ve çözümleme aracı”nı (random number generation) kullanarak 500 adet gözlem sayısına sahip ve ortalaması 100, varyansı 49 olan normal dağılıma sahip tesadüfi değişkeni, N’yi, yaratın.
3. Yarattığınız N değişkenin ortalamasını, varyansını, yatıklık ölçüsü (skewness) ve basıklık ölçüsü’nü (kurtosis) hesaplayın. Bu hesaplamaları excel hesap çizelgesinin matematiksel fonksiyonlarını kullanmadan yapmalısınız. Hesapladığınız bu tanımsal istatistikleri kullanarak N’ye ait Jarque-Bera test istatistiğini hesaplayın. Bu test istatistiğini yorumlayın.
4. Sayfa 2’yi “bargrafik1” olarak isimlendirin ve yarattığınız N değişkeninin bargrafiğini (histogram) çizin. Bargrafik, 75’den başlamalı ve 10’ar artışla 125’de sonlanmalı.
5. Excel hesap çizelgenizdeki sayfa 3’ün ismini “t” olarak değiştirin. Bu sayfada yine 500 gözlem sayısına sahip ve dağılımı T olan ve serbestlik derecesi 3 olan bir rassal değişken yaratın. T rassal değişkenini yaratırken “rasgele sayı üretme ve çözümleme aracı”nı sadece standart normal dağılıma sahip değişkenler üretmek için kullanabilirsiniz.
6. Yarattığınız değişkenin ortalamasını, varyansını, yatıklık ölçüsü (skewness) ve basıklık ölçüsünü (kurtosis) hesaplayın. Bu hesaplamaları excel hesap çizelgesinin matematiksel fonksiyonlarını kullanmadan yapmalısınız. Hesapladığınız bu tanımsal istatistikleri kullanarak değişkene ait Jarque-Bera test istatistiğini hesaplayın. Bu test istatistiğini yorumlayın.
7. Sayfa 4’ü “bargrafik2” olarak isimlendirin ve yarattığınız T değişkeninin bargrafiğini (histogram) çizin. Bargrafik, -3’den başlamalı ve 0.5’er artışla 3’de sonlanmalı.
Bu alıştırmanın kuşkusuz en önemli adımı 5. adımdır, çünkü burada öğrencilerin gözünde sıklıkla karışan örneklemdeki gözlem sayısı ve özgürlük derecesi sorunu gündeme gelmektedir. Ayrıca öğrenci T’yi yaratabilmek için önce özgürlük derecesi 3 olan bir ki-kare değişkenini yaratmak sorunu ile karşı karşıya kalacak, ve derste teorik olarak gördüğü standart normal dağılım ve ki-kare dağılımı arasındaki bağıntıyı kullanarak bu değişkeni yaratacaktır.
Örnek
2: Gauss-Markov Teoremi
Standart Ekonometri derslerinde ispat edilen en önemli teoremlerden biri de doğrusal ve yansız olan kestiricilerin arasında en küçük kareler yönteminin en iyi olduğunu söyleyen Gauss Markov teoremidir. Cebir kullanılarak yapılan değişik ispat metodları her ne kadar öğrenci tarafından takip edilse ve ezberlense de, aşağıdaki alıştırmanın her zaman pedagojik açıdan yararlı olduğunu gözlemledim. Bu alıştırmada, bağımsız değişkene göre küçükten büyüğe göre sıralanmış veri tabanının birinci ve sonuncu gözlemler arasında çekilen bir düz çizgi yöntemi ile elde edilen eğim (slope) ve sabit terim (intercept) tahminlerinin neden en küçük kareler yönteminden daha kötü sonuçlar verdiğini göreceklerdir.
I. Bölüm
Bu kısımda amaç En Küçük Kareler (EKK) yöntemini kullanarak doğrusal modelin sabit terim (düşey ekseni kesen nokta) ve eğim paremetrelerinin tahminini bulmaktır.
Talimatlar:
1. Yeni bir Excel hesap çizelgesi yaratın ve sayfa 1’in adını “model” olarak isimlendirin. A1 hücresine “U”, B1 hücresine “X”, C1 hücresine “Y” yazın.
2. Menüdeki “araçlar” (tools) altında yer alan “veri çözümleme araç paketi” (data analysis) içinden “rasgele sayı üretme ve çözümleme aracı”nı (random number generation) kullanarak 500 adet gözlem sayısına sahip ve ortalaması 0, varyansı 16 olan normal dağılıma sahip tesadüfi değişkeni, U’yu (Hata), yaratın.
3. X değişkenini yaratmak için B2 hücresinden B501’e kadar –250’den başlayan ve 1’er artarak 249’da biten sayı dizisi ile doldurun.
4. Y = 6 + 7 X + U denklemini kullanarak D sütununda 500 gözlemlik Y değişkenini yaratın.
5. (Sanki sabit terimin 6, eğimin de 7 olduğunu bilmiyormuş gibi) 500 gözlemli Y ve X değişkenleri ile EKK yöntemini kullanarak sabit terimi ve eğimi tahmin edin. Ayrıca, R2, ve eğimin t-istatistiğini de hesap edin. Hesaplamalarda Excel işlevleri (function) kullanılmamalı ve sadece derste çıkarılan formüllerden yararlanılmalıdır.
6. İsmini “regresyon çıktısı” olarak değiştireceğiniz yeni bir sayfada “Veri Çözümleme Araç Paketi” (Data Analysis) içinde yer alan “regresyon” aracını kullanarak bir önceki adımda bulduğunuz değerleri teyid edin.
II. Bölüm
Bu kısımda amaç basit bir Monte Carlo deneyi yaparak Gauss-Markov teoreminin geçerliliğini alternatif bir başka doğrusal ve yansız kestiriciye göre EKK yönteminin üstünlüğünü göstermektir. 2 kestirici kullanılacaktır.
Kestirici 1: EKK yöntemi
Kestirici 2: İlk ve son gözlem arasına çizilen bir doğru.
Bu iki kestirici 25 ayrı X ve Y değişkeni üzerine uygulayıp daha sonra her iki yöntemle elde edilen eğim ve sabit terim tahminleri ortalamaları ve standart sapmaları mukayese edilecektir.
Talimatlar:
1. Yeni bir Excel hesap çizelgesinin 25 tane sayfasını “Model1”, “Model2”, ... “Model25” olarak adlandırın. Ayrıca bir sayfaya da “sonuçlar” ismini verin.
2. Model1 sayfasını 1. bölümde olduğu gibi “U”, “X” ve daha sonra Y = 6 + 7 X + U eşitliğini kullanarak 500 gözlemli Y değişkenini yaratın. Daha sonra 500 gözlemli X ve Y değişkenlerine önce Kestirici 1 sonra da Kestirici 2’yi uygulayarak düşey eksen kesim noktası ile eğim tahminini hesaplayın.
1. Aynı işlemi toplam 25 kere daha yaparak Model2 ... Model25 sayfasını da doldurun. (Yarattığınız 25 modeldeki X değişkeninin aynı, ancak U değişkenleri rassal olduğu için Y değişkenlerinin de farlı olduğunu gözlemleyin.)
2. Sonuçlar sayfasına Model1 ... Model25’deki 500 gözlemli Y ve X değişkenleri kullanılarak Kestirici 1 ve 2 kullanılarak elde edilen sabit terim ve eğim tahminlerini yazın. Kestirici 1 eğim tahminlerinin aritmetik ortalamasını ne beklersiniz? Kestirici 2 eğim tahminlerin ortalamasını ne beklersiniz? Neden? Kestirici 1 eğim tahminlerinin standart sapması ile Kestirici 2’nin eğim tahminlerinin standart sapmasını kıyaslayın, hangi kestirecin standart sapması daha büyük, neden? Aynı soruları sabit terim tahminleri içinde cevaplandırın.
Bu alıştırmada öğrenci için en önemli sorun, EKK yöntemi kullanılarak tahmin edilen 25 eğim parametresinin standart sapması ile elde edilen regresyon çıktılarında görünen eğim parametresinin standart sapması arasındaki farkın ayırt edilmesi hususudur.
Örnek
3: Gözlemlerde Yapısal Değişim ve Kukla Değişkenler
Ekonometri derslerinde bahsi geçen konulardan biri de yapısal değişimlerin olabileceği veya kalitatif açıdan farklı gözlemlerin olduğu regresyon modellerinde bağımsız kukla değişkenlerin önemidir. Bu tip kalitatif farklılıkların veya yapısal değişimlerin dikkate alınmadığı durumlarda yapılacak EKK kestireci sonucu elde edilecek tahminler, gerektiği halde kullanılmayan kukla değişkenler sorunu içereceğinden, yanlı ve tutarsız olacaktır. Öte yandan “hem sabit terimi (Y’nin ortalamasını) etkileyen hem de eğimi etkileyen bir yapısal değişim olduğu durumlarda kukla değişkenler kullanılarak hesaplanacak regresyon sonuçları, değişim noktasından 2’ye bölünen gözlem gruplarına ayrı ayrı uygulanarak elde edilecek EKK parametre tahminleri ile aynı olacaktır” sonucu da önemlidir. Bir sonraki alıştırma bu noktalar üzerinde durmaktadır:
Bu alıştırmada 3 ayrı tip yapısal değişim, veri yaratma mekanizmasının üzerine konularak elde edilen verilere EKK yöntemi uygulanarak elde edilecek sonuçlar yorumlanacaktır. Bu üç tip yapısal değişim:
i. Aynı sabit terim, farklı eğimler (Model 1)
ii. Aynı eğim, farklı sabit terimler (sadece Y ortalamaları farklı) (Model 2)
iii. Farklı eğim ve farklı sabit terimler (Model 3).
Talimatlar:
1. Bu alıştırmada toplam 100 gözlem sayısına sahip ve 70. gözlemden sonraki gözlemlerde yapısal değişim olan Y’ler yaratılacaktır. Aşağıda daha detaylı anlatılan her üç model içinde hem Kısıtsız hem de Kısıtlı EKK yöntemi kullanılarak hesaplama yapılacaktır.
2. Yeni bir excel hesaplama çizelgesinde 5 sayfa ile çalışacaksınız. Bu sayfaları sırasıyla “Veriler”, “Model1”, Model2”, “Model3”,ve “Sonuçlar” şeklinde isimlendirin.
3. Menüdeki “araçlar” (tools) altında yer alan “veri çözümleme araç paketi” (data analysis) içinden “rasgele sayı üretme ve çözümleme aracı”nı (random number generation) kullanarak 100 adet gözlem sayısına sahip ve ortalaması 0, varyansı 16 olan normal dağılıma sahip tesadüfi değişkeni, U’yu (Hata’yı), “Veriler” sayfasında yaratın.
4. Yine “veriler” sayfasında, X değişkenini yaratmak için –50’den başlayan ve 1’er artarak 49’da biten sayı dizisini oluşturun.
5. Kukla Değişken olan, D’yi, ise 1. ve 70. gözlemler arası 0, 71. ve 100. gözlemler arasında 1 değerini alacak şekilde “veriler” sayfasında yaratın.
6. 100 gözlemlik U, X ve D değişkenlerini “Model1”, Model2”, “Model3” sayfalarına kopyalayın.
7. Her sayfada U, X ve D değişkenlerini kullanarak Y değişkenini aşağıdaki tabloda belirtildiği üzere yaratın. Modellerde Y = alfa + beta X + U denklemini kullanacaksınız.
|
|
Katsayılar |
||
|
Alfa |
Beta |
||
|
Model 1 |
1-70 |
-25 |
0.70 |
|
71-100 |
-25 |
0.25 |
|
|
Model 2 |
1-70 |
-25 |
0.70 |
|
71-100 |
7 |
0.70 |
|
|
Model 3 |
1-70 |
-25 |
0.70 |
|
71-100 |
7 |
0.25 |
|
8. Her model için “Veri Çözümleme Araç Araç Paketi” (Data Analysis) içinde yer alan “regresyon” aracını kullanarak 2 çeşit regresyon modeli hesaplayacaksınız.
9. Birinci regresyon modelinde Y bağımlı değişken, X ise (sabit hariç) tek bağımlı değişken olacak. Regresyon çıktılarını model sayfalarının içinde saklayın.
10. İkinci tip regresyon modelinde ise Y bağımlı değişken, sabit, D, X ve DX ise bağımsız değişkenler olacak. (Regresyon aracını kullanmadan önce D çarpı X değişkenini tanımlamayı unutmayın).
11. Her iki regresyon modelini de “Model1”, “Model2” ve “Model3” sayfalarındaki verilere uygulayın.
12. “Sonuçlar” sayfasında yapmış olduğunuz bu alıştırmayı sebep-sonuç ilişkisini gözeterek yorumlayın. Özellikle Kısıtlı ve kısıtsız EKK yöntemlerinden elde edilen parametre tahminleri ve bu tahminlerin istatistiki olarak anlamlı olup olmadığı konuları üzerinde durun.
13. Ek bir alıştırma olarak “Model3”deki ilk 70 gözlem için ayrı, sonraki 30 gözlem için ayrı bir regresyon çıktısı alın. Sonuçlarınızı 2. regresyon modelinin bütün 100 gözleme regresyonun uygulandığı sonuçlarla kıyaslayın. Yorumlayın.
Örnek 4: Ardışık Bağımlılık (Otokorelasyon)
Değişen varyans (heteroskedasticity) ve ardışık bağımlılık (autocorrelation), doğrusal regresyon modeli varsayımlarını bozan önemli iki istisnadır. Her iki durumda da, EKK yöntemi ile hesaplanan parametreler yansız ve tutarlı olmakla birlikte verimlilikleri düşmektedir. Kalıntılarda ardışık bağımlılığın olup olmadığının sınanması için en yaygın kullanılan test Durbin-Watson testidir. Bundan sonraki alıştırma bu konulara eğilmektedir.
Talimatlar:
1. Menüdeki “araçlar” (tools) altında yer alan “veri çözümleme araç paketi” (data analysis) içinden “rasgele sayı üretme ve çözümleme aracı”nı (random number generation) kullanarak 100 adet gözlem sayısına sahip ve ortalaması 0, varyansı 25 olan normal dağılıma sahip tesadüfi değişkeni, E’yi (Beyaz Gürültü), yaratın.
2. X değişkenini yaratmak için –50’den başlayan ve 1’er artarak 49’da biten sayı dizisini oluşturun.
3. Y = 6 + 7 X + U denklemini kullanarak 100 gözlemlik Y değişkenini yaratacaksınız. U’yu (hata terimini) yaratmak için 4 ayrı model kullanacaksınız:
Model 1: Ut = Et (Beyaz Gürültü)
Model 2: Ut = 0.25Ut-1 + Et (1. Dereceden ardışık bağımlı süreç)
Model 3: Ut = Et - 0.7Et-1 (1. Dereceden hareketli ortalama)
Model 4: Ut = 0.25Ut-1 + Et - 0.7Et-1 (ARMA(1,1))
4. Her 4 model için türetilmiş Y bağımlı değişkeni ile sabit ve X bağımlı değişkenilerini kullanarak EKK tahminlerini ve tahmini katsayı varyans-kovaryans matrisini ve durbin-watson test istatistiğini hesaplayın. Kalıntılar ve bir dönem önceki kalıntılar kullanılarak oluşturulmuş dağılım grafiğini (scatter diagram) oluşturun. Test sonuçlarını ve dağılım grafiklerini yorumlayın.
Her ne kadar teorik olarak kolay görünsede, gözlemlerim özellikle 1. dereceden ardışık bağımlı sürecin yaratılması (ve sürecin yaratılması için başlangıç değerinin verilmesi gerektiği) sırasında öğrencilerin zorluk çektiği yönündedir.
Tabii yapılabilecek alıştırmalar kesinlikle bunlarla kısıtlı kalmamaktadır. En basit bir rassal yürüyüş modeline uyan bir değişkenin değişik gözlem sayıları için (örneğin 25, 100, 1000, 10,000) görsel grafiğinin çizilmesinden, eş-anlı modellerin (simultaneous) veri yaratma mekanizmasının oluşturulmasına kadar varan bir yelpazede bu alıştırmaları artırabilmek mümkün. Özellikle Kennedy (1999)’nin D ekinde yer alan A, F, W, FF, SS ve XX’de çok yararlı monte carlo alıştırma ve soruları yer almaktadır.
Sonuç
Son yıllarda ekonometri eğitimi ile ilgili yazılmış makalelerde de değinildiği gibi, matematiksel istatistik ve ekonometri eğitiminde öğrencilere verilecek veri üretme mekanizmaları ile ilgili bilgisayar alıştırmaları, derslerde öğretilen teorik çıkarımların uygulama yoluyla öğrencilerin anlayabileceği seviyeye indirilebilmesini sağlaması amacı için çok önemlidir. Bu makalede, bu tip alıştırmaların önemi, 4 basit örnek ile vurgulanmaya çalışılmıştır. 21. yüzyıl ekonometri eğitiminde, hızlı teknoloji ilerlemesi sonucu ucuzlayan ve bu nedenle artan bilgisayar kullanımının doğal sonucu olarak, bu tip veri yaratma mekanizmalarını gösteren alıştırmaların önemli bir rol oynaması kaçınılmazdır.
Kaynaklar
Kennedy, P. (1998): “Teaching Undergraduate Econometrics: A Suggestion for Fundemental Change”, American Economic Review 88, No. 2, 487-491.
__________ (1999): A Guide to Econometrics, Fourth Edition, Blackwell Publishers, Massachussetts.
Hogg, R. V. And A. T. Craig (1995): Introduction to Mathematical Statistics, Fifth Edition, Prentice-Hall, Inc.: New Jersey.
Miller I. And M. Miller (1999): John E. Freund’s Mathematical Statistics, Sixth Edition, Prentice-Hall, Inc.: New Jersey.
Studenmund, A. H. (2000): Using Econometrics A Practical Guide, Fourth Edition, Addison-Wesley: New York.