1、应用数理统计(论文)利用SPSS软件对美国职业男子篮球联赛(NBA)球员的聚类分析和判别分析 院(系)名称材料科学与工程学院 专业名称材料科学与工程 学生姓名 任课教师2012年12月利用SPSS软件对美国职业男子篮球联赛(NBA)球员的聚类分析和判别分析摘要:美国职业男子篮球联赛(NBA)是全世界最受欢迎的职业篮球赛事。本文采用聚类分析和判别分析这两类数据分析方法对NBA球员进行了分类和判别。 首先对30个球员样本进行系统聚类分析,样本指标选自其比赛数据,得到树状谱系图,根据球员类型将其分为四类。然后选取4个球员的比赛数据,利用聚类分析 得到的分组结果,用Fisher判别分析进行判定,最终确
2、定各NBA球员所属类型。分析过程应用了SPSS 19.0软件。关键字: NBA;聚类分析;判别分析;球员类型一、引言美国职业男子篮球联赛(NBA,全称National Basketball Association)是美国第一大职业篮球赛事,其中产生了迈克尔乔丹、魔术师约翰逊、科比布莱恩特、姚明、勒布朗詹姆斯等世界巨星。该联赛一共拥有30支球队,分属两个联盟:东部联盟和西部联盟;而每个联盟各由三个赛区组成,每个赛区有五支球队。作为最受欢迎的篮球联赛,NBA对与篮球运动的 推广起到了巨大的推动作用,并在全球掀起了篮球的热潮,其培养的一批篮球运动员更是成为全世界篮球迷们的偶像。聚类分析又称群分析、点
3、群分 析,是定量研究分类问题的一种多元统计方法。人类认识世界往往首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学。在社会生活的众多领 域中都存在着大量的分类问题。以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联 系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。为了克服定性分类存在的不足,于是把数学方法引进分类学中,形成了数值分类学,后 来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来,形成一个相对独立的分支。在多元统计分析中,聚类分析在许多领域中都得到了广泛的应用,取 得了许多令
4、人满意的成果。判别分析是在已知分类数目的情况下, 根据一定的指标对不知类别的数据进行归类。它是判别样品所属类型的一种统计方法。其主要原理是利用原有的分类信息,得到体现这种分类的函数关系式(称之为 判别函数,一般是与分类相关若干个指标的线形关系式),然后利用该函数去判断未知样品属于哪一类。因而是个学习和预测的过程。本文通过聚类分析对NBA球员进行了聚类分析,建立起了球员类型模型,然后通过判别分析选取球员样本进行判别,以判定其所归属的球员类型,通过使用SPSS 19.0软件以实现上述分析。二、数据采集首先,选取了ESPN最新发布的NBA现役球员排名中的前三十位球员,然后对其在20112012赛季场
5、均比赛数据进行采集,包括身高、得分、投 篮命中率、篮板、助攻、抢断、封盖、失误八项指标。数据来源于ESPN官方网站现役球员排名和NBA官方网站球员资料,整理后如表1所示。表2-1 NBA三十大现役球员球员比赛数据表编号姓名身高(m)得分投篮命中率篮板助攻抢断封盖失误1LeBron James2.0327.10.5317.96.21.90.83.42Kevin Durant2.0628.00.4968.03.51.31.23.83Dwight Howard2.1120.60.57314.51.91.52.13.24Chris Paul1.8319.80.4783.69.12.50.12.15De
6、rrick Rose1.9121.80.4353.47.90.90.73.16Kobe Bryant1.9827.90.4305.44.61.20.33.57Kevin Love2.0826.00.44813.32.00.90.52.38Dwyane Wade1.9322.10.4974.84.61.71.32.69Russel Westbrook1.9123.60.4574.65.51.70.33.610Deron Williams1.9121.00.4073.38.71.20.44.011Dirk Nowitzki2.1321.60.4576.72.20.70.51.912Rajon Ro
7、ndo1.8511.90.4484.811.71.80.13.613Andrew Bynum2.1318.70.55811.81.40.51.92.514Blake Griffin2.0820.70.54910.93.20.80.72.315Pau Gasol2.1317.40.50110.43.60.61.42.216Tony Parker1.8818.30.4802.97.71.00.12.617Carmelo Anthony2.0322.60.4306.33.61.10.42.618Chris Bosh2.0818.00.4877.91.80.90.82.119Steve Nash1.9
8、112.50.5323.010.70.60.13.720Lamarcus Aldrdge2.1121.70.5128.02.40.90.82.021Kevin Garnett2.1115.80.5038.22.90.91.01.822Kyrie Irving1.8818.50.4693.75.41.10.43.123Tyson Chandler2.1611.30.6799.90.90.91.41.624Marc Gasol2.1614.60.4828.93.11.01.91.925Manu Ginobili1.9812.90.5263.44.40.70.41.926James Harden1.
9、9616.80.4914.13.71.00.22.227Tim Duncan2.1115.40.4929.02.30.71.51.728Andre Iguodala1.9812.40.4546.15.51.70.51.929Paul Pierce2.0119.40.4435.24.51.10.42.830Al Horford2.0812.40.5537.02.20.91.31.5三、聚类分析3.1 聚类分析概述聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并 以此为依据,采用某种聚类法,将所有的样
10、品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。研究怎样对事物进行合理分类(归类)的统计方法称为聚类(clustering)分析。依据分类对象的不同可以把聚类分析再分成Q型聚类和R型聚类,Q型聚类是 指对样品进行聚类,R型聚类是指对变量进行聚类。聚类分析的基本原理是把某种性质相似的对象归于同一类,而不同类的之间则存在较大差异。为此,首先要能刻 画各个变量之间或者各个样本点之间的相似性,Q聚类一般使用“距离”度量样本点之间的相似性,R聚类则使用“相似系数”作为变量相似性的度量。定义样本点 之间的距离可以采用欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等测度,
11、定义各变量之间的相似系数则多采用样本相关系数、夹角余弦等测度。聚类分析包括很多种方法,包括系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,不同的方法适合解决不同类型的问题,本文中使用的为系统聚类法。系 统聚类法(Hierarchical Clustering Method)是最常用的一种聚类方法,初始时要先把要归类的n个对象各自视为一类,然后逐渐把关系最密切的两个类合并成一个新类,知道最后把n个对象都 归为一类时停止。这种聚类过程可以用一张聚类谱系图形象的展示出来。由于系统聚类时要把两个“最接近”的类合并到一起构成一个新类,这事还需要规定类与类之间的相似性测度,常
12、用的方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平法和。3.2 系统聚类分析1)数据预处理标准化指标选用的度量单位将直接影响聚类分析的结果,可能产生非常不同的聚类结构。一般来说,所用度量单位越小,变量的值域就越大,对聚类结果的影响也越大。为了 避免对变量单位选择的依赖,数据应当标准化。数据量纲不同时,必须进行标准化;但如果量纲相同,可数量级相差很大,这时也应该进行标准化。本文采取标准差标准化的方法对原始数据进行处理(3-1)。变换后的数据均值为0,标准差为1,消去了量纲的影响;当抽样样本改变时,它仍能保持相对稳定性。 (3-1)2)关系矩阵的构造本文中对三十个球员样本进行聚
13、类,即为Q型聚类,用“距离”判定样本间亲疏程度,以度量样本间相似性。常用的距离测度有欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等。其中以欧氏距离为采用的最为广泛。本文中采用的是平方欧氏距离(Squared Eucidean distance)(3-2)。 (3-2)3)系统聚类方法选择常用的系统聚类方法有:a)组间平均距离连接法(Between-groups linkage):合并两类的结果使所有的两两项对之间的平均距离最小,既非最大距离,也非最小距离。b)组内平均连接法(Within-groups linkage):两类合并为一类后,合并后的类中所有项之间的平均距离最小。c)最短距离法(N
14、earest neighbor):首先合并最近或最相似的两项,但样品有链接聚合的趋势,这是其缺点,不适合一般数据的分类处理,除去特殊数据外,不提倡用这种方法。d)最长距离法(Furthest neighbor):用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法。e)重心聚类法(Centroid clustering):两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值。该距离随聚类地进行不断缩小,谱系树状图很难跟踪,且符号改变频繁,计算较烦。f)中位数法(Median clustering):两类间的距离既不采用两类间的最近距离,也不采用最远距离
15、,而采用介于两者间的距离,图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。g)离差平方和法(Wards method):基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大。该法在实际应用中分类效果较好,应用较广,但要求样品间的距离必须是欧氏距离。本文中选用了离差平法和法,即ward法进行系统聚类分析。4)SPSS软件实现综上所述,首先对所选取的NBA球员样本聚类分析数据进行标准化处理,然后选取平方欧氏距离作为样本间距离测度,通过离差平方和法(ward法)进行系统聚类,最后确定最佳分类。利用SPSS 19.0软件进行系统聚类分析,并选择分
16、类数为35,已选择最优分类,输出结果如下:表3-1 标准差标准化后的球员数据编号姓名身高得分投篮命中率篮板助攻抢断封盖失误1LeBron James0.031631.445560.37818-0.011550.824940.99955-0.389181.445622Dwight Howard0.875180.666162.459442.03572-1.022920.383392.340121.445623Dwyane Wade-1.022801.205750.09899-0.358010.033000.794160.520590.782494Chris Paul-2.07724-0.71279
17、-0.84012-1.082431.748872.43726-1.14732-0.411145Dirk Nowitzki1.086070.706130.53047-0.16903-0.62695-1.25971-0.38918-0.809026Kevin Durant0.347961.64541-0.86550-0.23202-0.59395-0.027380.217330.384617Kobe Bryant-0.495581.16578-1.14469-0.767470.065990.17800-1.147320.649878Derrick Rose-1.233691.10582-1.296
18、98-1.082431.05592-0.02738-0.389181.180379Deron Williams-1.233690.12657-1.44927-1.113931.880860.17800-0.995691.3130010Blake Griffin0.558850.606200.251271.43729-0.23098-0.64355-0.540810.2519911Pau Gasol1.08607-0.133230.835040.83886-0.39597-1.054321.12710-1.0742712Carmelo Anthony0.031631.22573-1.04317-
19、0.07454-0.52796-0.43816-0.389180.2519913Amare Stoudemire0.558851.165780.175130.20893-0.62695-0.438161.581980.9151214Steve Nash-1.23369-0.95261-0.10406-1.271412.27683-1.05432-1.147321.3130015Russel Westbrook-1.233690.48630-1.37312-0.924951.220911.61571-0.692431.8435016Kevin Love0.558850.14655-0.66245
20、2.41368-0.65995-1.05432-0.69243-0.5437717Rajon Rondo-1.86635-1.79197-0.56092-1.019442.210832.23187-0.995691.1803718Manu Ginobili-0.49558-0.41302-1.60155-1.208420.131990.99955-0.69243-0.4111419Tim Duncan0.87518-1.212410.098990.42940-0.59395-0.848931.58198-1.2069020Zach Randolph0.347960.126570.200511.
21、46879-0.75894-0.64355-0.84406-0.6763921Paul Pierce-0.17925-0.113250.02284-0.67298-0.39597-0.23277-0.23755-0.4111422Kevin Garnett0.87518-0.912640.835040.42940-0.692950.58878-0.08592-1.2069023Lamarcus Aldrdge0.875180.466310.098990.39791-0.79194-0.232770.52059-0.8090224Chris Bosh0.55885-0.15322-0.00254
22、0.24042-0.85793-0.64355-0.38918-0.9416425Al Horford0.55885-0.832701.520330.58689-0.36297-0.643550.21733-1.3395226Marc Gasol1.40240-1.552150.78428-0.16903-0.65995-0.438161.27873-0.9416427Rudy Gay0.031630.06662-0.63707-0.42100-0.560961.204940.36896-0.0132628Tony Parker-1.55002-0.393030.58123-1.397400.
23、69295-0.02738-1.298940.1193629Joakim Noah0.87518-1.552150.733520.90185-0.75894-0.232770.97547-0.8090230Andrew Bynum1.08607-1.632091.977200.58689-1.02292-1.670481.73361-1.47215聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 212127.730004211201.672002035102.8120018421244.0311017522296.019001268178.3620097121911.39
24、20026841614.993001898918.8756020101223.271001411131527.693001612222632.307502213252837.1890024141642.0951002515233047.771002116131453.4531101917182160.6410421184568.32283221931381.508016232081196.3289225211823120.17817152422422154.0861812262337192.15419027241825231.3452113282518291.30514202726412403
25、.748227282713556.03725232928418781.80926242929141232.15427280群集成员案例4 群集1:LeBron James 12:Kevin Durant 13:Dwight Howard 24:Chris Paul 35:Derrick Rose 36:Kobe Bryant 17:Kevin Love 28:Dwyane Wade 19:Russel Westbrook110:Deron Williams 311:Dirk Nowitzki 112:Rajon Rondo 313:Andrew Bynum 214:Blake Griffin
26、215:Pau Gasol 216:Tony Parker 317:Carmelo Anthony 118:Chris Bosh 419:Steve Nash 320:Lamarcus Aldrdge121:Kevin Garnett 422:Kyrie Irving 323:Tyson Chandler 424:Marc Gasol 425:Manu Ginobili 426:James Harden 327:Tim Duncan 428:Andre Iguodala 429:Paul Pierce 330:Al Horford 44结果与讨论根据表3-3及聚类树状谱系图,结合实际球员情况,
27、选择分为四类的结果比较令人满意,具体分类结果及描述如表3-4所示。第 一类球员中,包括LeBron James、 Dwyane Wade等球员,一般均为锋卫摇摆人,身体素质出众,进攻能力强且手段多样,具有超强的得分能力,也是最具观赏性的,往往在场上扮演着得分尖兵的角色,为 球队主要得分点,更是球队胜利的关键人物;第二类球员中,包括Dwight Howard、Pau Gasol等球员,均为前锋或中锋球员,身高较高,主要活动在内线低位,往往在球队中承担着主要的篮板防守重任,同时兼具一定得分能力,助攻少,所谓“赢 球靠进攻,夺冠靠防守”,要想赢得长久的胜利,同样离不开这些兢兢业业的内线球员;第三类球
28、员中,包括Chris Paul、Derrick Rose等,均为控球型后卫球员,身高较矮,助攻能力出众兼具一定得分能力,在场上扮演着球队大脑的角色,将整支球队串联起来,成为一个整体;第四类球员 中,包括Dirk Nowitzki、Blake Griffin等,均为前锋型球员,一般身高较高,但灵活且活动范围广,得分能力强,在球队中为主要得分点的同时承担一定篮板和防守任务。表3-4 分类结果球员类别描述球员第一类多为锋卫摇摆人,进攻手段多样。具有超强的得分能力,为球队主力得分点LeBron James、 Dwyane Wade、 Kevin Durant 、Kobe Bryant、Carmelo
29、Anthony、 Amare Stoudemire、 Manu Ginobili 、Paul Pierce 、Rudy Gay第二类均为前锋或中锋球员,主要在低位活动,承担球队主要篮板及防守重任,兼具一定得分能力Dwight Howard、Pau Gasol、Tim Duncan、Kevin Garnett、Al Horford、Marc Gasol、Joakim Noah、Andrew Bynum第三类均为控球后卫,身高较矮。助攻能力出众并具备一定得分能力Chris Paul、Derrick Rose、Deron Williams、Steve Nash、Russel Westbrook、Ra
30、jon Rondo、Tony Parker第四类均为前锋球员,身高较高,但灵活且活动范围大,得分能力出众Dirk Nowitzki、Blake Griffin、Kevin Love、Zach Randolph、Lamarcus Aldrdge、Chris Bosh综上所述,根据分类结果,结合球员20102011赛季球员实际表现,可以看出,所分类球员与描述之间是非常吻合的,分类效果较好五、判别分析5.1判别分析概述判别分析是一种常用的统计分析方法。判别分析是根据观察或测量到若干变量值,判断研究对象如何分类的方法。例如,我们积累了某种病虫害各种发生状态的若干历 史资料样本),希望从中总结出分类的规
31、律性(即判别公式,在以后的工作中遇到新的发生状态(样本)时。只要根据总结出来的判别公式判断它所属的类就行了。 动物、植物分类等都可以用判别分析来解决。我们常用的判别分析方法有距离判别法、费歇尔判别法和贝叶斯判别法等。这里采用的是Fisher 判别法。这种方法是以Fisher准则为标准来评选判别函数的。所谓Fisher准则,指的是较优的判别函数应该能根据待判对象的n个指标最大限度地将它 所属的类与其他类区分开来。Fisher判别法就是先把多维变量X的各项指标综合成一维指标Y,建立线性判别函数,然后对一维变量Y进行距离判别,实际上 是一种降维处理。进行判别分析必须已知观测对象的分类和若干表明观测对
32、象特征的变量值。判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。线性判别函数一般形式是: (4-1)其中: Y 为判别分数(判别值);X1,X2,X3:Xn为反映研究对象特征的变量,a0、a1、a2、a3an为各变量的系数,也称判别系数。5.2 SPSS软件实现SPSS对于分为m 类的研究对象,建立 m 个线性判别函数。对于每个个体进行判别时,把测试的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类。或者计算属于各类的概率,从而判断该个体属于哪类。还可建立标准化和未标准化的典则判别函数。由于在上述分析中已对3
33、0名NBA球员进行了初步分类,则依然选取聚类分析中的这30名NBA球员的比赛数据(标准化),根据聚类分析得到的分成4类的结果 向量,定义新的变量“分组类别”,选择 SPSS分析分类判别,采取自变量全进入模型来进行判别分析,由于聚类分析将各球员分为了4类,因此该变量的取值范围为14。运行后得到输出结果 如下:表4-1 标准化的典型判别式函数系数函数123Zscore(身高).995-.069.029Zscore(得分)-.097-.621.063Zscore(投篮命中率).373.319-.018Zscore(篮板).802.069-.677Zscore(助攻)-.084.622-.413Zsc
34、ore(抢断).354-.086.404Zscore(封盖)-.167.689.622Zscore(失误)-.835-.170.252表4-2 分类函数系数分组变量1234Zscore(身高)-3.95913.292-19.05210.444Zscore(得分)1.363-1.896-.049.540Zscore(投篮命中率)-1.4893.399-3.1791.410Zscore(篮板)-3.3716.372-8.4176.381Zscore(助攻)-2.578.9883.440-1.464Zscore(抢断)-.0472.081-3.2321.067Zscore(封盖)-.083.8152
35、.304-3.650Zscore(失误)2.420-5.8387.315-4.380(常量)-3.965-14.814-25.282-10.146Fisher 的线性判别式函数图4-1 典则判别函数散点图表4-3 按照案例顺序的统计量案例数目实际组最高组第二最高组判别式得分预测组P(Dd | G=g)P(G=g | D=d)到质心的平方 Mahalanobis 距离组P(G=g | D=d)到质心的平方 Mahalanobis 距离函数 1函数 2函数 3pdf初始111.64331.0001.6734.00026.356-1.200-.654-.062222.6263.9991.7494.0
36、0116.3404.5361.2671.620311.0543.9617.6323.03914.036-4.109-.4471.534433.84931.000.8021.00032.668-6.1291.640-.716544.7903.9961.0482.00412.2663.587-1.555-.321611.40931.0002.8924.00025.650-.420-2.5501.348711.08031.0006.7663.00025.575-3.564-2.749.121833.32831.0003.4451.00032.813-7.181-.538.270933.91531.0
37、00.5191.00040.508-7.255.691-.9961044.83031.000.8832.00017.0153.172-1.210-2.0631122.8813.993.6664.00710.5915.1801.351-.3291211.44731.0002.6624.00026.438-1.004-2.682.2331311.13731.0005.5324.00024.730.266-.3652.1061433.17231.0004.9991.00056.969-7.1552.713-2.0531533.29031.0003.7471.00030.098-6.955-.453.
38、6081644.12131.0005.8112.00025.3264.914-1.703-3.3931733.23431.0004.2681.00054.410-7.2033.092-.7181811.65231.0001.6313.00022.640-2.782-.996.9001922.7373.9991.2664.00116.2203.9422.077.7262044.80631.000.9812.00018.7703.905-1.669-2.2532111.78831.0001.0564.00025.505-.869-.646.6482222.4633.8792.5704.1216.5
39、295.348.137-.0662344.2983.8573.6782.1437.2593.798-.844.5172444.7043.9971.4062.00313.0652.959-1.324-.4172522.5773.9661.9784.0348.6844.5421.422-.9472622.73131.0001.2924.00020.6694.9641.9841.4692711.44131.0002.6964.00027.178-.301-.9511.9652833.64931.0001.6441.00022.525-5.760.340-.4452922.9963.998.0644.00213.0524.9591.672.158302
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。
Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1
陕公网安备 61072602000132号 违法和不良信息举报:0916-4228922