什麼是多元統計分析?
觀察經濟社會活動往往需要用到多項統計指標,如考察國家宏觀經濟運作狀況,通常會用到國內生産總值、失業率、居民消費價格、進出口等指標,這些指標間一般存在內在的聯繫,研究多項指標間的相互依賴關係和內在統計規律性是多元統計分析的基本內容。
一、基本概念
多元統計分析是經典統計學發展起來的一個分支,是一種多指標(也稱多變數)綜合分析方法,可以在多指標相互關聯情況下分析其統計規律,在研究經濟社會現象中具有廣泛應用。
在研究經濟社會現象時,會收集大量個體的多方面信息,特別是隨著信息化發展,採集到個體數量和指標數量大為增加,比如網上商品交易系統採集到的信息涉及的用戶數以億計,指標數量成百上千,這些都增加了分析的難度。對這些規模宏大、複雜難辨的信息進行提煉簡化,提取重要信息輔助決策,是多元統計分析的重要應用領域。同時,經濟社會現象間往往存在緊密的聯繫,表現為統計指標之間存在相關性、因果關係等,使用多元統計分析有助於研究統計指標間的內在聯繫,發現經濟社會現象的內在規律性。
在實際觀測和調查中,統計指標的取值一般是隨機的,因此統計指標可以用隨機變數來表示,那麼多個統計指標對應多個隨機變數。而多個隨機變數組成的數據集合稱為隨機向量,隨機向量服從一定的統計分佈,這是多元統計分析方法建立的重要基礎。
二、常用方法
多元統計分析方法按照分析特點大致可以分為兩類:一是描述性方法,主要從原始數據中提取重要信息,對系統主要特徵進行研究,包括主成分分析、因子分析、聚類分析、對應分析等。二是解析性方法,主要是研究變數間相關關係、因果關係等,通過建立模型對變數間的關係認識定量化,包括多元回歸分析、判別分析、典型相關分析等。
(一)描述性方法
1.主成分分析
在研究多指標(變數)問題時,由於指標間存在一定相關性,導致信息冗余,增加分析的難度。對此,主成分分析通過將原有的多個變數進行線性變換,組合成幾個較少新的相互無相關性的綜合變數,盡可能提取原有變數信息,達到指標簡化目的。比如,在進行地區發展綜合評價時,往往會選取經濟增長、科技創新、人民生活、生態環境等多項指標,而這些指標往往存在相關性,通過主成分分析將這些指標簡化為一到兩個綜合指標,將有助於降低綜合評價難度。
2.因子分析
因子分析是主成分分析的推廣,將具有複雜關係的多變數轉化為數量較少的幾個綜合變數,從而用有限個不可觀測的隱變數來解釋原始變數間相關關係。比如,在研究人體交感神經和副交感神經對人體的影響時,通常採集收縮壓、舒張壓、心跳間隔、呼吸間隔、舌下溫度5個指標,通過因子分析可以將這5個指標綜合為兩個隱變數指標,從而反映交感神經和副交感神經的影響,找到其與原始5個指標的聯繫。
3.聚類分析
聚類分析是將具有相似特徵的個體歸為一類,從而使同類的個體相似性較高,而不同類的個體之間差異較大。衡量個體之間相似性採用“距離”測度和相似系數,常用的“距離”測度有明式距離、馬氏距離、蘭氏距離,常用的相似系數有夾角余弦、相關係數。聚類分析中常用的方法有系統聚類、動態聚類等。比如,對全國省區市經濟類型進行分類時,一般會選取一些的經濟指標,然後利用這些經濟指標計算地區與地區之間的“距離”,將“距離”近的地區歸為一類,將“距離”遠的地區歸為不同類別,從而形成不同地區經濟發展水準類別,深化對地區經濟的認識。
(二)解析性方法
1.多元回歸分析
多元回歸分析是研究一個因變數與多個解釋變數之間相互依存關係,揭示因變數與解釋變數間的數量關係,從而對因變數進行估計或預測。比如,在預測長期經濟增長趨勢時,通常使用國內生産總值作為因變數,資本存量、就業人數、人力資本存量、制度變數等作為自變數,利用多元回歸方法建立經濟增長與相關因素的定量模型,利用得到的模型關係對未來經濟增長趨勢進行預測。
2.判別分析
判別分析是判別觀察個體所屬類別的一種統計分析方法,它是在已知觀察個體分為若干個類別的條件下,通過建立判別規則,對觀察個體進行判別分類。它與聚類分析最大不同是,聚類分析事先不知道觀察個體有多少個類別,而判別分析事先已知觀察個體的類別個數。常用的判別分析法有距離判別法、費舍爾判別法、貝葉斯判別法等。比如,世界銀行將全球國家劃分為高收入國家、中高收入國家、中低收入國家、低收入國家四種類型,當判斷一個國家屬於哪種類型時,可以使用判別分析方法建立規則進行判別。
掃碼關注中國福建微信
掃一掃在手機上查看當前頁面