我的理解是:如果有兩個知識領域A和B涉及A的數據用X表示,涉及B的數據用Y表示。那麼一個完整的數據形式應該是(X,Y)用來同時刻畫兩個知識領域的聯合數據。如果A有20個數據,B有30個數據,那麼聯合數據集合就有20x30 = 600 個數據需要用來訓練一個同時涵蓋知識體系A和B的AI模型。
但是如果,A和B是相對獨立的體系,關於A 的問題的答案只取決於X,而同 Y 無關。同樣,關於B的問題的答案只取決於Y,同 X 無關。那麼就沒有必要用聯合數據600個(X,Y)數據對來訓練AI模型了,只需要用20個數據 X 來訓練AI模型涉及知識領域A的回答。同理也只需用 30 個數據 Y來訓練模型關於知識領域B的問題即可。總數居量只需要 20+30 = 50
當然實際情況比這要求的數據量要大的多。因此 A+B 和 AxB 兩者之間的數據量只差那就更大了。這就是混合型專家對數據要求優越性。這雖然算不上什麼驚天動地的大突破,但也算是個不小的改進,至少對節約訓練模型的數據量,節約成本而言如此
由於深度求索採用的是如上所說的混合專家型,所以每當你向它發問時,它先要決定去哪個知識領域或專家那裡去找有關答案。找到相應的知識領域後,從那裡調出相應的AI模型(即專家)再給出答案。這就是每次向DeepSeek發問,它總是裝模做樣地先來個思索過程:奧,看來你這個問題看來涉及某某領域,我需要到那裡給你找出答案云云,浪費很多時間。然後再給你答案。
這種混合專家型模型的另一個缺點就是缺乏不同知識體系間的關聯性,所提供的答案只是局限在特定的知識體系內。當然大多數情況下,這也足夠了