SPSS由IBM公司出品,它提供了包括描述性統(tǒng)計(jì)、推斷性統(tǒng)計(jì)、因子分析、聚類分析、回歸分析等多種統(tǒng)計(jì)分析功能,并包括文本分析、機(jī)器學(xué)習(xí)算法、數(shù)據(jù)分析模型等。SPSS的界面友好,易于操作,能夠快速從數(shù)據(jù)中提取有用的洞察和分析,廣泛應(yīng)用于教育、心理、醫(yī)學(xué)、市場、人口、保險(xiǎn)等多個研究領(lǐng)域,也用于產(chǎn)品質(zhì)量控制、人事檔案管理和日常統(tǒng)計(jì)報(bào)表等。 作為廣受數(shù)據(jù)分析師青睞的一款數(shù)據(jù)統(tǒng)計(jì)和分析軟件,IBM SPSS Statistics中有全面的數(shù)據(jù)分析方法,今天我們要介紹的是它的聚類分析中的快速聚類分析。
一、方法概述
聚類分析是將研究對象按照一定的標(biāo)準(zhǔn)進(jìn)行分類的方法,分類結(jié)果是每一組的對象都具有較高的相似度,組間的對象具有較大的差異。
這類分析方法多用于對于數(shù)據(jù)樣本沒有特定的分類依據(jù)的情況,IBM SPSS Statistics會通過對數(shù)據(jù)的觀察為用戶做出較為完善的分類。
圖1:功能位置
快速聚類是聚類分析的一種,使用到的功能在“分析”——“分類”中的“K-均值聚類”。
二、案例分享
1.樣本數(shù)據(jù)
圖2:功能位置
我們這里選擇的數(shù)據(jù)樣本是一部分學(xué)生的各科期末成績,使用快速聚類方法可以分析各個學(xué)生成績分布的差異和共性。
2.變量設(shè)置
圖3:功能位置
我們將學(xué)生的所有單科成績作為分析變量,移入到“變量”窗口中,將學(xué)生的編號變量移入到下側(cè)的“個案標(biāo)記依據(jù)”窗口。
聚類數(shù)設(shè)置的是分類的數(shù)目,這個需要根據(jù)數(shù)據(jù)樣本的特點(diǎn)來設(shè)置,我們這里設(shè)置為4類。
聚類方法有兩類,即迭代和分類,前者較為復(fù)雜,會在分析過程中不斷移動凝聚點(diǎn),后者則始終使用初始凝聚點(diǎn),我們選擇兩類都有的第一種分析方法。
3.聚類中心
圖4:聚類中心
用戶可以選擇從外部文件或數(shù)據(jù)文件中寫入或讀取聚類中心,本案例中我們不使用這個功能。
4.迭代設(shè)置
圖5:迭代設(shè)置
我們可以設(shè)置迭代的終止條件,即到達(dá)設(shè)定的最大值后將停止迭代分析,輸出聚類分析結(jié)果。
收斂性標(biāo)準(zhǔn)設(shè)置的是凝聚點(diǎn)改變的最大距離小于初始凝聚點(diǎn)的比例,小于設(shè)定值時,也會停止迭代,輸出結(jié)果。
使用運(yùn)行均值表示每次觀測后都重新計(jì)算凝聚點(diǎn),這些設(shè)置保持默認(rèn)即可。
5.保存
圖6:保存新變量
這是用來設(shè)置保存形式的,勾選“聚類成員”將保存SPSS的分類結(jié)果,勾選“與聚類中心的距離”將保存觀測值和所屬類別的歐氏距離,我們不做設(shè)置。
6.選項(xiàng)
圖7:選項(xiàng)設(shè)置
這個對話框設(shè)置的是輸出的統(tǒng)計(jì)量和個案缺失處理方法,勾選“初始聚類中心”和“每個個案的聚類信息”。
7.結(jié)果輸出
圖8:聚類結(jié)果
在輸出日志中可以看到,這些學(xué)生根據(jù)他們的單科成績被分成了四類,SPSS輸出了多個表格,包括初始聚類中心、迭代歷史記錄、聚類成員、最終聚類中心、最終聚類中心之間的距離和每個聚類中的個案數(shù)目,完整詳細(xì),可信度較高。
三、小結(jié)
使用IBM SPSS Statistics進(jìn)行快速聚類的方法和案例分享就是這么多啦,這是一個較為常用的分類分析法,適用程度很高,希望可以對大家有所幫助!
世界上許多有影響的報(bào)刊雜志就SPSS給予了高度的評價(jià)。 |