加拿大数据狂人Ed Küpfer的位置理论和因子分析-竞技沙龙-万维论坛-万维读者网（电脑版）

送交者: RECAP 2005年11月16日14:32:17 于 [竞技沙龙] 发送悄悄话

Ed Küpfer的位置理论和因子分析

长期以来，NBA联盟习惯用中锋、大前锋、小前锋、得分后卫、控球后卫这样的字眼把球员大致地分成五个类型。另外还有一些其他的分类方法，比如把大、小前锋简化为前锋，把得分、控球后卫简化为后卫。或者仅仅把球员区分为“内线”、“外线”；“前场”、“后场”等等。但这些分类方法并不能准确描述球员在场上的具体职责。比如，KIDD和NASH无疑是控球后卫，而象IVERSON、ARENAS这样的球员究竟是控球后卫还是得分后卫呢？同样的，TMAC究竟是小前锋还是得分后卫？MARION究竟是大前锋还是小前锋？TD究竟是中锋还是大前锋？随着NBA的发展，越来越多的全能型球员涌现，而传统的5分法无法给这些人准确的位置定义。下面是我排出的全摇摆阵容：

C：DUNCAN/小S
PF：MARION/DIRK
SF：KG/MAGGETTE
SG：IVERSON/TMAC
PG：ARENAS/MARBURY

这支球队实力强劲，而且每一个球员都可以打至少两个以上的位置。我们很难用传统的5分法位置理论去评价他们：当ARENAS的助攻出手比达到一比四，你能说他是个称职的控位么？但他所在的球队不断的胜利。然而反过来说某些球队的胜利并不需要控位显然又不对劲。现代篮球越来越多的摇摆人，已经使传统位置区分在很大程度上失去了意义。3分法、甚至两分法可以部分解决这个问题，但这种靠模糊位置定义的位置区分法实在太消极，也失去了定义位置的本意：当人们说，火箭需要一个出色的后场球员，他们究竟是指火箭需要一个怎样的球员呢？ARENAS还是NASH？

加拿大数据狂人Ed Küpfer针对这个问题做了研究，他指出，传统的5分法着眼于球员“应该做什么”而不是球员“真正做了什么”。没有多少球员能严格依据传统5分法的那些理想化描述去发挥能力履行职责。即便在10年前可以，现在也不行了，因为现代篮球需要越界球员。当定义某样事物时，应根据事物的实际属性确定它的归属，而不是先凭空设定几个归属，然后把事物往里面套。因此，联盟现在需要一套开放式的位置理论。这个新理论只描述球员在场上的实际功能，然后把这些表现归入一个坐标系，从而获悉球员的真实位置。联盟有多少球员就有多少位置，但其中还是会有大量的位置重合。

这样做的现实意义是什么？当你构建一支球队时，你不会太清楚球队究竟具体缺乏一些怎样的球员。依据传统理论你在5个位置上都有很不错的球员，但为什么始终无法打出好成绩呢？不同位置间的球员何以有的组合能打出好的化学反应，有的不行？这并不是人品问题。又比如你有两个同样优秀的中锋YAO或MILLER，要给他们搭配怎样的球员才能达到相当的实战效果？你可能明显意识到球队缺乏某种能力，比如缺篮板，但怎样把这种球队缺陷与具体的目标人物联系起来呢，同样的价码，应该在市场上追求SWIFT还是篮板更好的WALKER？这些都是让球队GM烦恼的问题。而开放坐标系可能可以帮助解决这些问题。

所谓坐标系，首先涉及坐标轴的定义。比如你可以把助攻能力设为X坐标轴，把篮板能力设为Y坐标轴，把得分能力设为Z坐标轴……等等。这样每个球员在相应的坐标轴上都有一个数点。问题在于，设定太多的坐标轴则很难直观地了解球员之间的具体异同。最适合人们肉眼观察的要么是二维，最多三维。因此必须把球员的各种能力归聚成两种或者三种。而科学的实现这种降维工作就需要运用因子分析方法。

因子分析说复杂不复杂，说简单不简单，学过统计的朋友应该都知道是怎么一回事，而不懂统计的一言两语也很难说清楚。下面只是大概地说说它的原理。因子分析就是把一个事物涉及的各种各样的因素，依据因素变化的相关程度，归类为两种或三种大的因素。比如形容一个学生的学习能力，涉及语文、政治、历史、数学、物理、化学等科目。经过因子分析，由于不同科目内在的相关性（可计算），语政历相关性很高，数理化相关性也很高，但这两类科目之间交叉的相关性很低，于是可以大概地分成“文”、“理”两个大因子。由这两个因子作为坐标轴画个图即可观察学生的学习能力是否有偏向。

这时你也许发现了，其实传统意义的位置5分法也可以说是一种5个因子的因子分析。传统5分法的问题就在于它对自身涉及的变量及其相关性没有作准确的数据描述，纯粹出自人们过往的经验，并把这种经验往现役球员身上生搬硬套。

把因子分析运用到篮球领域可以直观地比较球员的功能近似程度。但有一些问题急待解决。首先是变量的选取。应选择球员的场均数据还是每分钟数据？应选择相对（+/-）数据还是绝对数据？另外，在篮球领域，不同变量之间有数值上的相关性等于有实际意义上的相关性吗？比如研究两个球员，一个场均10分2帽，另一个场均10分2断，可以得出得分、盖帽、抢断间的真实相关性吗？好象不行。但Ed Küpfer暂时搁置了这些问题，先做研究。

他使用的变量如下：

MPG
FGA/48
eFG%
FTA/48
Reb/48
Ast/48
T/O/48
Blk/48
PF/48
Pts/48

并且这些变量用的是82GAMES上球员的“BY POSITION”数据，也就是同时还要考虑对位球员的数据，因此除了MPG外有9*2=18个变量，一共19个变量。把联盟所有（或者相当多）球员历年来的数据输入SPSS或MINITAB等数据分析软件，会得到“Factor Score Coefficients”，如下：

Factor Score Coefficients

Variable Factor1 Factor2
MPG 0.015 -0.225
oFGA 0.002 -0.223
oeFG 0.049 -0.144
oFTA 0.095 -0.225
oReb 0.159 -0.039
oAst -0.130 -0.032
oT/O -0.017 -0.101
oBlk 0.135 -0.020
oPF 0.078 0.131
oPts 0.041 -0.283
dFGA -0.084 -0.039
deFG 0.015 0.019
dFTA 0.042 0.091
dReb 0.159 0.003
dAst -0.153 0.012
dT/O -0.074 0.063
dBlk 0.151 0.013
dPF 0.143 -0.079
dPts -0.049 0.016

这也就是各因子间的相关度。以FACTOR 1为X轴，FACTOR 2为Y轴，得到一张平面图，然后用每个变量各自的系数乘以目标球员的各项相对数据，再各自分别相加，就可以得到该球员的两个坐标值（因子得分）。把球员的坐标值标到图上去就完工了。以下是Ed Küpfer做的一张图（点击）：

这就是所谓的“开放性位置（功能）图”，它首先表现了球员功能的不同倾向，从图上看，X轴大概等同于进攻功能（非指能力），Y轴大概等同于防守功能（非指能力），其次，它还能表现联盟各类型球员的需求程度，如下图（点击）：

这是联盟所有球员的开放图，明显，右上区（大多是中锋和大前锋）的球员相对较少，他们的功能比别的区域高同时又是稀缺人才，因此在合同谈判时理应得到大合同。

即便ED本人也认为这个理论缺陷非常多，各种变量的取舍、变量间实际的相关性与数字相关性的背离等等。同时，由于ED不是统计学出身，他采用的是最简单的主成分正交分析，运用因子分析不同的旋转方式应得到不同的效果，他不清楚那一种旋转才最适合篮球比赛，并且ED也没提出他这个因子分析的可分析度有多高（SPSS里应该会返回此项的一个专门数值）。但我还是觉得，因子分析对于数据分析篮球还是一种有价值的方法。关键就在于厘清ED搁置的以及他不懂的那些问题（求助统计达人）。

从图形结果上看，我觉得ED的分析不能让人满意。按他选的变量和旋转等等，实际上返回的结果仍有明显的价值评判的意味。也就是说内线球员的功能在总体上肯定比外线高很多。这是否是来自基础变量的不公平？或者说应该用其他因子旋转方式？还是说，两个坐标轴真的完全没有方向意义，左右上下都无所谓？但Y轴下方显然没有出色球员嘛。他的课题本意是要研究球员“位置”，我不知道他是否能从自己的研究中得出什么有用的结论（他说这个研究还没完）。

假如真的可以制作出科学合理的“开放性球员功能位置图”，我们可以利用它来做很多研究。比如，我们可以研究每赛季战绩最出色球队的人员的功能位置图，比较自己的球队就可以直观找到球队的人员缺陷。把能力缺陷转化为人员缺陷是有现实意义的，因为你只能去找具体的人来补强球队，而不是人的能力。同样10板的球员，还会受其他变量的影响而造成融合问题。而在找球员的时候，也只要根据自己缺乏的球员种类，依据图表一对照就能找到非常近似的十几个球员。诸如此类的应用将会有很多。

0%(0)

	实用资讯

回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉：海航获五星
海外华人福利！在线看陈建斌《三叉戟》热血归回豪情筑梦 高清免费看无地区限制

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2004:	石头辛苦,我帮不上你忙,惭愧.大家进来
2004:	ShunShun: 愿赌服输