精品91麻豆免费免费国产在线_男女福利视频_国产一区二区三区小向美奈子_在教室里和同桌做校园h文

第二章 常用統計技術

【考試趨勢】

單選4-5題,多選6-8題,綜合分析7-8題。

總分值30-40分。總分170分。占比20%左右。

【大綱考點】

一、方差分析

()方差分析基本概念   

1.掌握因子、水平和方差分析的三項基本假定   

2.熟悉方差分析是在同方差假定下檢驗多個正態均值是否相等的統計方法(難點)

()方差分析方法 

1.掌握單因子的方差分析方法(平方和分解、總平方和、因子平方和、誤差平方和,自由由度、f比、顯著性) (重點)

2.了解重復數不等情況下的方差分析方法。(難點)

二、回歸分析   

主要研究定量因子,也就是變量分析

()散布圖與相關系數   

1.掌握散布期望值與與做法   

2.掌握樣本相關系數的定義、計算及其檢驗方法   (重點,難點)

()一元線性回歸 

1.掌握用最小二乘估計建立一元線性回歸方程的方法 (重點,難點)

2.掌握一元線性回歸方程的檢驗方法(重點,難點)

3.熟悉一元線性回歸方法在預測中的應用   

()了解可化為一元線性回歸的曲線回歸問題  

【考點解讀】

第一節 方差分析

一、方差分析

1、三項基本假定-(掌握p75)

為什么要方差分析?目的和用途。方差分析不是分析方差,通過方差分析因子的顯著與否。方差只是手段。對結果的影響是否顯著。要用到假設檢驗。零假設,備擇假設。

但是假設檢驗的前提條件是:正態分布,等方差,觀測相互獨立。也就是大綱里講的三項基本假定。

 

2、方差分析的統計檢驗-(掌握p76)

那么如何在同方差假定下檢驗多個正態均值是否相等呢?其實統計檢驗的問題。大家想一下,零假設,備擇假設是什么?

同一個因子,有不同水平,每個水平重復多次試驗就得到一個分布。有幾個水平就有幾個分布,方差分析是看分布的均值是否相等。相等,說明因子變動對結果沒影響,相差越大就越顯著!

3、單因子的方差分析-(掌握p77-80)

因子a,有r個水平,也就是取值的情況,在試驗中每個水平被重復m 次。那么總共可以得到多少個結果觀測值呢?n=r*m個。

每個水平的和,以及均值,分別共有r個。總和為t,總均值為y

離差平方和,通俗來講,就是每個值離開平均值的平方和。先平方,再求和。能反映離散程度,波動情況。

那么,什么因素造成觀測值的波動呢?如果解釋因子的離差平方和能夠和結果的離差平方和很一致,那么這個因子就是顯著的。

這里,因子平方和的計算很有講究。首先,組間方差,也就是平方和,是用每個水平的均值與總均值相比較來求。因每個水平被重復試驗m 次,還要乘以m

總平方和的求解概念上很簡單,但計算量比較大。

因此,有個簡便計算公式,每個觀測的平方,求和;總和t平方,除以n=r*m;然后兩者相減。大家看一下,教材78頁的公式是不是這樣?

同樣,因子平方和的計算也有簡便公式。可以這樣來理解,每組的(每個水平)的均值平方,因每個水平被重復試驗m 次,故 m 次求和;總和t平方,除以n=r*m;然后兩者相減。

 

一般地,總平方和、因子平方和不會相等。之間的差額就是誤差平方和。當然,為了驗證平方和分解,還要計算一下誤差平方和。

為了能使用f分布進行統計檢驗,還需要用到自由度的概念來構造符合f分布的統計值。

自由度(degree of freedom, df),在數學中能夠自由取值的變量個數,如有3個變量xyz,但x+y+z=18,其自由度等于2。在統計學中,自由度指的是計算某一統計量時,取值不受限制的變量個數。通常df=n-k。其中n為樣本含量,k為被限制的條件數或變量個數,或計算某一統計量時用到其它獨立統計量的個數。電子游戲中也有自由度這個概念。這個,我就不清楚了。統計學上的自由度是指當以樣本的統計量來估計總體的參數時, 樣本中獨立或能自由變化的資料的個數,稱為該統計量的自由度。 統計學上的自由度包括兩方面的內容:

首先,在估計總體的平均數時,由于樣本中的 n 個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n。 在估計總體的方差時,使用的是離差平方和。只要n-1個數的離差平方和確定了,方差也就確定了;因為在均值確定后,如果知道了其中n-1個數的值,第n個數的值也就確定了。這里,均值就相當于一個限制條件,由于加了這個限制條件,估計總體方差的自由度為n-1。例如,有一個有4個數據(n=4)的樣本, 其平均值m等于5,即受到m=5的條件限制, 在自由確定425三個數據后, 第四個數據只能是9, 否則m≠5。因而這里的自由度v=n-1=4-1=3。推而廣之,任何統計量的自由度v=n-限制條件的個數。

其次,統計模型的自由度等于可自由取值的自變量的個數。如在回歸方程中,如果共有p個參數需要估計,則其中包括了p-1個自變量(與截距對應的自變量是常量1)。因此該回歸方程的自由度為p-1。這個解釋,如果把樣本二字換成總體二字也說得過去。這個根本解釋不了在統計學中,自由度的概念。在一個包含n個個體的總體中,平均數為m。知道了n-1個個體時,剩下的一個個體不可以隨意變化。為什么總體方差計算,是除以n而不是n-1呢?方差是實際值與期望值之差平方的期望值,所以知道總體個數n時方差應除以n,除以n-1時是方差的一個無偏估計。

這里,自由度也有分解式。其中,總自由度和因子自由度容易求,二者之差可以求其三。

平方和與自由度之比,得均方差,ms

msa/mse=f,構造出f統計量。并計算統計值。然后與臨界值,門檻值或者閾值,比較。如果大于閾值,拒絕原假設,因子顯著!這個,閾值,教材上叫分位數。1- 分位數。f分位數又有2個參數,即分子和分母的自由度。

最后,列出方差分析表。

(平方和分解、總平方和、因子平方和、誤差平方和,自由度、f比、顯著性

如果顯著,要找出最好的水平,根據均值最好的水平確定。

還可以用均值水平圖直觀顯示。

最后,還要估計我們統計檢驗的誤差大小。即誤差方差,估計值用均方差mse

4、重復數不等情況下的方差分析-(掌握p81

 

 

 

注:許多考生常常疑惑的地方,這里給出解答,教材是沒有的。

第二節 回歸分析

 

1、相關系數

定義,其實可以聯想一下協方差的概念。一個變量x的方差是v(x)=,那么兩個變量之間的協方差呢?可以比照方差的公式。這是理解的心法!

cov(x)=協方差除以兩個變量的標準差乘積就是相關系數。

相關系數的計算方法公式很有規律。

2、樣本相關系數的檢驗-(掌握p84-85

有專門的檢驗表,教材上有。統計值與臨界值比較。

3、最小二乘估計gls-(掌握p86

這個可能大家都很熟悉了。這里簡略講一下。

基本思想是方程的估計值與實際觀測值的之間的殘差平方和最小,所以英文名叫gls.一般最小二乘法。

殘差平方和,離差平方和,回歸平方和

下標r表示回歸,英文名regression

同學看一下,上面3個公式哪個是固定的?哪個是可調的?哪個是要求最小的?

三者之間存在方差分解關系。

4、顯著性檢驗-(掌握p87

方差分析方法來檢驗。關鍵是構造f統計量。

殘差平方和,離差平方和,回歸平方和

下標r表示回歸,英文名regression

同學看一下,上面3個公式哪個是固定的?哪個是可調的?哪個是要求最小的?

三者之間存在方差分解關系和自由度分解關系。

 

5、模型預測-(掌握p87-88

 

兩個步驟。1代入方程得到的估計值。2,給出預測精度,即置信區間。由于假定了作為隨機變量,服從正態分布。所以預測精度可用預測誤差來表示。

預測誤差,

6、曲線回歸問題-(掌握p88-92

主要是變量轉換,化為一元線性回歸問題。求得系數后,再還原到非線性方程。對于不同形式的方程,選優的標準有兩個:判定系數和標準殘差