加拿大數據狂人Ed Küpfer的位置理論和因子分析-競技沙龍-萬維論壇-萬維讀者網（電腦版）

送交者: RECAP 2005年11月16日14:32:17 於 [競技沙龍] 發送悄悄話

Ed Küpfer的位置理論和因子分析

長期以來，NBA聯盟習慣用中鋒、大前鋒、小前鋒、得分後衛、控球後衛這樣的字眼把球員大致地分成五個類型。另外還有一些其他的分類方法，比如把大、小前鋒簡化為前鋒，把得分、控球後衛簡化為後衛。或者僅僅把球員區分為“內線”、“外線”；“前場”、“後場”等等。但這些分類方法並不能準確描述球員在場上的具體職責。比如，KIDD和NASH無疑是控球後衛，而象IVERSON、ARENAS這樣的球員究竟是控球後衛還是得分後衛呢？同樣的，TMAC究竟是小前鋒還是得分後衛？MARION究竟是大前鋒還是小前鋒？TD究竟是中鋒還是大前鋒？隨着NBA的發展，越來越多的全能型球員湧現，而傳統的5分法無法給這些人準確的位置定義。下面是我排出的全搖擺陣容：

C：DUNCAN/小S
PF：MARION/DIRK
SF：KG/MAGGETTE
SG：IVERSON/TMAC
PG：ARENAS/MARBURY

這支球隊實力強勁，而且每一個球員都可以打至少兩個以上的位置。我們很難用傳統的5分法位置理論去評價他們：當ARENAS的助攻出手比達到一比四，你能說他是個稱職的控位麼？但他所在的球隊不斷的勝利。然而反過來說某些球隊的勝利並不需要控位顯然又不對勁。現代籃球越來越多的搖擺人，已經使傳統位置區分在很大程度上失去了意義。3分法、甚至兩分法可以部分解決這個問題，但這種靠模糊位置定義的位置區分法實在太消極，也失去了定義位置的本意：當人們說，火箭需要一個出色的後場球員，他們究竟是指火箭需要一個怎樣的球員呢？ARENAS還是NASH？

加拿大數據狂人Ed Küpfer針對這個問題做了研究，他指出，傳統的5分法着眼於球員“應該做什麼”而不是球員“真正做了什麼”。沒有多少球員能嚴格依據傳統5分法的那些理想化描述去發揮能力履行職責。即便在10年前可以，現在也不行了，因為現代籃球需要越界球員。當定義某樣事物時，應根據事物的實際屬性確定它的歸屬，而不是先憑空設定幾個歸屬，然後把事物往裡面套。因此，聯盟現在需要一套開放式的位置理論。這個新理論只描述球員在場上的實際功能，然後把這些表現歸入一個坐標系，從而獲悉球員的真實位置。聯盟有多少球員就有多少位置，但其中還是會有大量的位置重合。

這樣做的現實意義是什麼？當你構建一支球隊時，你不會太清楚球隊究竟具體缺乏一些怎樣的球員。依據傳統理論你在5個位置上都有很不錯的球員，但為什麼始終無法打出好成績呢？不同位置間的球員何以有的組合能打出好的化學反應，有的不行？這並不是人品問題。又比如你有兩個同樣優秀的中鋒YAO或MILLER，要給他們搭配怎樣的球員才能達到相當的實戰效果？你可能明顯意識到球隊缺乏某種能力，比如缺籃板，但怎樣把這種球隊缺陷與具體的目標人物聯繫起來呢，同樣的價碼，應該在市場上追求SWIFT還是籃板更好的WALKER？這些都是讓球隊GM煩惱的問題。而開放坐標系可能可以幫助解決這些問題。

所謂坐標系，首先涉及坐標軸的定義。比如你可以把助攻能力設為X坐標軸，把籃板能力設為Y坐標軸，把得分能力設為Z坐標軸……等等。這樣每個球員在相應的坐標軸上都有一個數點。問題在於，設定太多的坐標軸則很難直觀地了解球員之間的具體異同。最適合人們肉眼觀察的要麼是二維，最多三維。因此必須把球員的各種能力歸聚成兩種或者三種。而科學的實現這種降維工作就需要運用因子分析方法。

因子分析說複雜不複雜，說簡單不簡單，學過統計的朋友應該都知道是怎麼一回事，而不懂統計的一言兩語也很難說清楚。下面只是大概地說說它的原理。因子分析就是把一個事物涉及的各種各樣的因素，依據因素變化的相關程度，歸類為兩種或三種大的因素。比如形容一個學生的學習能力，涉及語文、政治、歷史、數學、物理、化學等科目。經過因子分析，由於不同科目內在的相關性（可計算），語政歷相關性很高，數理化相關性也很高，但這兩類科目之間交叉的相關性很低，於是可以大概地分成“文”、“理”兩個大因子。由這兩個因子作為坐標軸畫個圖即可觀察學生的學習能力是否有偏向。

這時你也許發現了，其實傳統意義的位置5分法也可以說是一種5個因子的因子分析。傳統5分法的問題就在於它對自身涉及的變量及其相關性沒有作準確的數據描述，純粹出自人們過往的經驗，並把這種經驗往現役球員身上生搬硬套。

把因子分析運用到籃球領域可以直觀地比較球員的功能近似程度。但有一些問題急待解決。首先是變量的選取。應選擇球員的場均數據還是每分鐘數據？應選擇相對（+/-）數據還是絕對數據？另外，在籃球領域，不同變量之間有數值上的相關性等於有實際意義上的相關性嗎？比如研究兩個球員，一個場均10分2帽，另一個場均10分2斷，可以得出得分、蓋帽、搶斷間的真實相關性嗎？好象不行。但Ed Küpfer暫時擱置了這些問題，先做研究。

他使用的變量如下：

MPG
FGA/48
eFG%
FTA/48
Reb/48
Ast/48
T/O/48
Blk/48
PF/48
Pts/48

並且這些變量用的是82GAMES上球員的“BY POSITION”數據，也就是同時還要考慮對位球員的數據，因此除了MPG外有9*2=18個變量，一共19個變量。把聯盟所有（或者相當多）球員歷年來的數據輸入SPSS或MINITAB等數據分析軟件，會得到“Factor Score Coefficients”，如下：

Factor Score Coefficients

Variable Factor1 Factor2
MPG 0.015 -0.225
oFGA 0.002 -0.223
oeFG 0.049 -0.144
oFTA 0.095 -0.225
oReb 0.159 -0.039
oAst -0.130 -0.032
oT/O -0.017 -0.101
oBlk 0.135 -0.020
oPF 0.078 0.131
oPts 0.041 -0.283
dFGA -0.084 -0.039
deFG 0.015 0.019
dFTA 0.042 0.091
dReb 0.159 0.003
dAst -0.153 0.012
dT/O -0.074 0.063
dBlk 0.151 0.013
dPF 0.143 -0.079
dPts -0.049 0.016

這也就是各因子間的相關度。以FACTOR 1為X軸，FACTOR 2為Y軸，得到一張平面圖，然後用每個變量各自的係數乘以目標球員的各項相對數據，再各自分別相加，就可以得到該球員的兩個坐標值（因子得分）。把球員的坐標值標到圖上去就完工了。以下是Ed Küpfer做的一張圖（點擊）：

這就是所謂的“開放性位置（功能）圖”，它首先表現了球員功能的不同傾向，從圖上看，X軸大概等同於進攻功能（非指能力），Y軸大概等同於防守功能（非指能力），其次，它還能表現聯盟各類型球員的需求程度，如下圖（點擊）：

這是聯盟所有球員的開放圖，明顯，右上區（大多是中鋒和大前鋒）的球員相對較少，他們的功能比別的區域高同時又是稀缺人才，因此在合同談判時理應得到大合同。

即便ED本人也認為這個理論缺陷非常多，各種變量的取捨、變量間實際的相關性與數字相關性的背離等等。同時，由於ED不是統計學出身，他採用的是最簡單的主成分正交分析，運用因子分析不同的旋轉方式應得到不同的效果，他不清楚那一種旋轉才最適合籃球比賽，並且ED也沒提出他這個因子分析的可分析度有多高（SPSS里應該會返回此項的一個專門數值）。但我還是覺得，因子分析對於數據分析籃球還是一種有價值的方法。關鍵就在於釐清ED擱置的以及他不懂的那些問題（求助統計達人）。

從圖形結果上看，我覺得ED的分析不能讓人滿意。按他選的變量和旋轉等等，實際上返回的結果仍有明顯的價值評判的意味。也就是說內線球員的功能在總體上肯定比外線高很多。這是否是來自基礎變量的不公平？或者說應該用其他因子旋轉方式？還是說，兩個坐標軸真的完全沒有方向意義，左右上下都無所謂？但Y軸下方顯然沒有出色球員嘛。他的課題本意是要研究球員“位置”，我不知道他是否能從自己的研究中得出什麼有用的結論（他說這個研究還沒完）。

假如真的可以製作出科學合理的“開放性球員功能位置圖”，我們可以利用它來做很多研究。比如，我們可以研究每賽季戰績最出色球隊的人員的功能位置圖，比較自己的球隊就可以直觀找到球隊的人員缺陷。把能力缺陷轉化為人員缺陷是有現實意義的，因為你只能去找具體的人來補強球隊，而不是人的能力。同樣10板的球員，還會受其他變量的影響而造成融合問題。而在找球員的時候，也只要根據自己缺乏的球員種類，依據圖表一對照就能找到非常近似的十幾個球員。諸如此類的應用將會有很多。

0%(0)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2004:	石頭辛苦,我幫不上你忙,慚愧.大家進來
2004:	ShunShun: 願賭服輸