更多CFA教材詳解,請關注“邊際實驗室”公眾號
線性迴歸模型的假設
我們再上一篇文章已經討論瞭如何對線性迴歸模型中的係數進行描述。接下來我們看一下這個模型的統計假設。假設因變量Y和自變量X都擁有n個觀測值,並且我們想要對以下公式進行估計:
Yi = b0 + b1Xi +εi,i = 1,…,n
為了能夠從具有單個自變量的線性迴歸模型中得出有效的結論,我們需要做出以下六個假設,這被稱為經典線性迴歸模型假設:
1.因變量Y和自變量X之間的關係是線性的。這意味著b0和b1只有一階,並且均不與另一個迴歸參數相乘或相除(如公式中不存在b0/b1)。但是自變量X可以不止取一階。
2.自變量X不是隨機的。
3.殘差的期望值為0:E(ε) = 0。
4.殘差的方差對於所有觀察都是相同的。
5.殘差ε與觀測值不存在相關性。因此,對於所有i不等於j的情形,E(εiεj) = 0。
6.殘差ε符合正態分佈。接下來,我們對這些假設進行分析。
假設1對於線性迴歸模型至關重要。如果自變量和因變量之間的關係是非線性的,則使用線性迴歸模型將產生無效的結果。例如,以下公式是非線性的,因此我們無法對其應用線性迴歸模型。


但是,即使因變量是非線性的,只要參數是線性的,也可以使用線性迴歸。因此,以下方程式也可以用線性迴歸。
假設2和3確保線性迴歸所估計的b0和b1是正確的。
假設4、5和6用來確定估計參數^b0和^b1的分佈,同時檢驗該係數是否具有特定值。
假設4是指殘差的方差對於所有觀察值都是相同的,也稱為同方差假設。在以後的多元迴歸課程中我們將討論如何對不符合這一假設的的情況進行測試和修正。
為了正確估計參數^b0和^b1的方差,假設5(殘差與觀測值不存在相關性)也是必要的。後邊的多元迴歸課程我們將討論不符合該假設的情形。
假設6(殘差符合正態分佈)使我們能夠輕鬆檢驗關於線性迴歸模型的特定假設。
線性迴歸的標準誤
線性迴歸模型有時可以很好地描述兩個變量之間的關係,但有時卻不能。我們需要對這兩種情況進行區分,以使迴歸分析更加有效。我們接下來將討論衡量線性迴歸模型中因變量和自變量之間關係程度的統計方法。
下圖顯示了1990年1月至2017年12月美國標準普爾500指數月收益率和美國每月通脹率的散點圖,以及兩者的擬合迴歸線:標準普爾500的收益率= b0 + b1(通脹率)+ε。在此圖中,實際觀察值與擬合後的迴歸線有很大的偏離。使用估計的迴歸方程來預測每月的股票收益可能會導致結果不準確。
迴歸模型的標準誤可以對這種不確定性進行衡量。標準誤類似於單個變量的標準差,不同之處在於它測量的是迴歸殘差^εi的標準差。
具有一個自變量的線性迴歸模型的標準誤(SEE)的公式為
在分子上,我們計算每個觀察值實際值與預測值(^b0+^b1Xi)之差。因變量的實際值和預測值之間的差是迴歸殘差^εi,也被稱為誤差項。
以上公式與計算標準差的公式類似,只不過分母變成了n-2而不是n-1。我們使用n-2是因為樣本包括n個觀測值和模型中的兩個參數( ^b0和^b1);觀察值數目和參數數目之間的差為n-2。該差值也被稱為自由度;以該值做分母可以確保標準誤的無偏性。
案例 計算估計的標準誤
在此前的案例中,我們估計出通脹率和貨幣供應增長率的迴歸方程為Yi = –0.0008 + 0.3341Xi。 下圖是由此方程式估計得出的標準誤所需數據。
上表中的第一和第二列數字顯示了六個國家的長期貨幣供應增長率Xi和長期通貨膨脹率Yi。數字的第三列顯示每個觀察值從擬合迴歸方程得出的因變量的預測值。以美國為例,長期通脹的預測值為–0.0008 + 0.3339(0.0628)= 0.0202或2.02%。倒數第二列是迴歸殘差,它是因變量Yi的實際值和因變量的預測值之間的差。因此,美國通貨膨脹率的殘差為0.0277 – 0.0202 = 0.0075或0.75%。最後一列是迴歸殘差的平方。
殘差平方的總和為0.000230。將該數值代入計算標準誤的公示,我們得到[0.000230/(6-2)]^(1/2)=0.007583,因此該估計結果的標準誤約為0.76%。
接下來,我們將確定根據貨幣供應量增長預測通脹率結果的置信區間。我們在後面的講解中可以看到,較小的標準誤將使得預測結果更準確。
閱讀更多 邊際實驗室 的文章