A. 聚類分析時如果各變數之間有權重關系該怎麼處理
本來想給你截圖的,可是傳不上來,我就簡單說一下哈。
首先你得進行一次預計算,選擇菜單里分析——降維——因子分析,跳出主面板,把想分析的變數選到變數框里,然後點確定。這時候輸出窗口裡會只有一個或兩個圖表。其中有一個圖表是主成分的方差貢獻。這個圖表裡你要找到兩個相鄰的列(應該是第三列和第四列),其中前一個列指的是單個因子對方差的貢獻率,後一個是因子累計貢獻率。也就是說前一個列里邊數值相加等於100,後一個列里邊數值遞增,最後一個等於100。假如前一個列里是60,30,10,那麼後一列里就是60,90,100.兩個列之間有一個和的關系。找到這兩個列以後,你要找使得累計貢獻率達到百分之八十的那個數。這個表的第一列是1,2,3,等等,它代表第幾個因子,比如3指的那行就包括第三個因子的方差貢獻率,累積到第三個因子的方差貢獻率這兩個數據。你要找到累計到達百分之八十的那個因子是第幾個因子,然後就按提取幾個因子進行計算。
通過預計算知道了提取幾個因子之後,就開始正式計算。再次打開因子分析的主面板,在最右邊一共有五個選項,分別是描述,抽取,旋轉,得分,選項。這五個在預計算里邊沒有用,但是現在要用了。點繼續。
點擊描述,在對話框里選上初始變數分析,kmo統計量及bartlett球形檢驗這兩個選項,(注意,kmo和bartlett是一個選項,選項名就是很長)這一步是用來判斷變數是否適於進行因子分析的。
點擊抽取,對話框里最上邊的方法就選主成分,分析里選上相關性矩陣,輸出選上未旋轉的因子解和碎石圖兩個選項,抽取里選擇因子的固定數目,在要提取的因子後邊填上你預計算里算出的因子數目。點繼續。
旋轉里邊選最大方差法,輸出旋轉解。繼續。
得分里邊選保存為變數,方法為回歸,顯示因子得分系數矩陣也要打上勾。繼續。
確定。
然後就可以分析結果了。
先看kmo和bartlett的結果,kmo統計量越接近1,變數相關性越強,因子分析效果越好。通常0.7以上為一般,0.5以下不能接受,就是不適合做因子分析。bartlett檢驗從檢驗相關矩陣出發,如果p值,就是sig,比較小的話,一般認為小於0.05,當然越小越好,就適於因子分析。
如果這兩個檢驗都合格的話,才可以去寫因子模型。
為了便於描述,假設我們有兩個因子f1,f2,
旋轉變換後的因子載荷矩陣會告訴你每個變數用因子表示的系數。比如變數x1=系數1*f1+系數2*f2,變數2以此類推。
因子得分系數矩陣會告訴你每個因子里各變數佔得權重,比如f1=系數1*x1+系數2*x2+。。。
根據這個我們就能算出因子得分了。
因為之前選擇了將因子保存為新變數,所以spss會直接保存兩個因子得分為兩個新變數,
然後我們不是有一個公式嗎
總得分=因子1的方差貢獻率*因子1的得分+因子2的方差貢獻率*因子2的得分+...
根據這個公式計算一下就可以了。
用spss或者Excel都可以。
希望能對你有幫助哦。
ppv課,大數據培訓專家,最專業的大數據培訓平台。為你提供最好的spss學習教程哦。
-
B. 用聚類分析將21個自變數因子聚為5類後,要考慮這5個因子對因變數的影響,怎樣處理已經歸為一類的數據
你用因子分析弄成幾個指標再做回歸多好~
C. 聚類分析聚類演算法中包含哪些數據類型
聚類來分析聚類演算法中包含哪些源數據類型
許多基於內存的聚類演算法採用以下兩種數據結構:
(1)數據矩陣(Data Matrix,或稱對象一變盤結構):用p個變數來表示n個對象,例如使用年齡、身高、性別、體重等屬性變數來表示對象人,也叫二模矩陣,行與列代表不同實體:
(2)相異度矩陣(Dissimilarity Matrix,又稱為對象一對象結構):存儲所有成對的n個對象兩兩之間的近似性(鄰近度),也叫單模矩陣,行和列代表相同的實體。其中d(ij)是對象i和對象j之間的測量差或相異度。d(i,f)是一個非負的數值,d(ij)越大,兩個對象越不同;d (i,j)越接近於0,則兩者之間越相似(相近)。
許多聚類演算法都是以相異度矩陣為基礎的,如果數據是用數據矩陣形式表示,則往往要將其先轉化為相異度矩陣。
相異度d(i,j)的具體計算會因所使用的數據類型不同而不同,常用的數據類型包括:區間標度變數,二元變數,標稱型、序數型和比例標度型變數,混合類型的變數。
D. 請問在聚類分析中,如何處理分類變數和數值變數同時存在的情況
各種演算法要求不同,有些演算法兩種變數都可以接受。如果只接受分類變數,可以將數值變數劃分成幾個區域,這樣就變成分類變數了。
E. SPSS 中兩個變數相關性的數值是負數怎麼辦
兩個變數相關性的數值是負數表示一個變數的增加可能引起另一個變數的減少,即負相關。可以取它的絕對值來看相關程度的大小。
在回歸與相關分析中,因變數值隨自變數值的增大(減小)而減小(增大),在這種情況下,因變數和自變數的相關系數為負值,即負相關。
函數是研究兩個變數之間的依存關系的一種數量形式。對於兩個變數,如果當一個變數的取值一定時,另一個變數的取值被惟一確定,則這兩個變數之間的關系就是一個函數關系。對於一個變數,可以控制其數量大小的變數稱為可控變數,否則稱為隨機變數。
(5)聚類分析負值擴展閱讀:
相關系數有一個明顯的缺點,即它接近於1的程度與數據組數n相關,這容易給人一種假象。因為,當n較小時,相關系數的波動較大,對有些樣本相關系數的絕對值易接近於1;
當n較大時,相關系數的絕對值容易偏小。特別是當n=2時,相關系數的絕對值總為1。因此在樣本容量n較小時,僅憑相關系數較大就判定變數x與y之間有密切的線性關系是不妥當的。
【例】如果有若干個樣品,每個樣品有n個特徵,則相關系數可以表示兩個樣品間的相似程度。藉此,可以對樣品的親疏遠近進行距離聚類。例如9個小麥品種(分別用A1,A2,...,A9表示)的6個性狀作相關系數計算並檢驗。
由相關系數計算公式可計算出6個性狀間的相關系數,冬季分櫱與每穗粒數之間呈現負相關(ρ = − 0.8982),即麥冬季分櫱越多,那麼每穗的小麥粒數越少,其他性狀之間的關系不顯著。
F. 如何評價spss系統聚類分析結果
1、聚類分析是利用平均值和方差變化計算各變數的聯系,只能說變數間有關系,但未必是因果關系,所以評價關系需要用到相應的檢測方法,這個就是你提出問題的原因。
2、檢驗方法用Z分布、t分布、卡方、F分布,對各變數參數(如平均值、方差等)檢驗,如果檢驗結果成立,那麼分析結果在統計學上有意義。
3、接下來,需要用業務常識理解分析結果,如果發現某些規律性的內容,可以進一步獲取相應數據,再進行分析。這是後話。
G. 聚類分析中有數據缺失怎麼處理
樓主去圖書館查閱《華北工學院學報》2003年05期 的一篇論文吧 名字叫 帶有缺失數據的回聚類分析方法 希望對你答有幫助
傳統的聚類分析方法需要完全數據集,但有些情況下數據是不完全的,即包含缺失數據,這給聚類分析帶來了一定的困難.這里給出了一種迭代演算法為缺失數據確定一個合理的替補值,構造出一個"完全"的數據集,逐步迭代進行聚類分析,並用實例詳細闡述了該方法的步驟.
H. spss聚類分析結果怎麼解釋啊,我看有人把結果做成百分比了,我想知道怎麼做的啊
你的意思是用八種元素做聚類嗎?你有幾個個案?能不能在詳細描述一下你的問題?聚類結果可以保存為變數的。我想你可能需要往這個方面考慮。ppv課學習網站。
I. 聚類演算法評價 adjusted rand index 為什麼會得到是負值
聚類演算法評
J. 一直搞不懂,什麼情況下做聚類分析,求大神指點,最好有些簡單的數據說明
聚類分析抄 是在你需要對所有樣本進行分類時使用
比如市場調查了我的所有客戶基本信息 消費行為特徵等,然後根據這些數據 我要對我的客戶進行一下分類,找出我的客戶主要有哪幾類 每類有什麼共同特點 等
之後就可以根據每類的特殊性 做不同的活動