我的理解是:如果有两个知识领域A和B涉及A的数据用X表示,涉及B的数据用Y表示。那么一个完整的数据形式应该是(X,Y)用来同时刻画两个知识领域的联合数据。如果A有20个数据,B有30个数据,那么联合数据集合就有20x30 = 600 个数据需要用来训练一个同时涵盖知识体系A和B的AI模型。
但是如果,A和B是相对独立的体系,关于A 的问题的答案只取决于X,而同 Y 无关。同样,关于B的问题的答案只取决于Y,同 X 无关。那么就没有必要用联合数据600个(X,Y)数据对来训练AI模型了,只需要用20个数据 X 来训练AI模型涉及知识领域A的回答。同理也只需用 30 个数据 Y来训练模型关于知识领域B的问题即可。总数居量只需要 20+30 = 50
当然实际情况比这要求的数据量要大的多。因此 A+B 和 AxB 两者之间的数据量只差那就更大了。这就是混合型专家对数据要求优越性。这虽然算不上什么惊天动地的大突破,但也算是个不小的改进,至少对节约训练模型的数据量,节约成本而言如此
由于深度求索采用的是如上所说的混合专家型,所以每当你向它发问时,它先要决定去哪个知识领域或专家那里去找有关答案。找到相应的知识领域后,从那里调出相应的AI模型(即专家)再给出答案。这就是每次向DeepSeek发问,它总是装模做样地先来个思索过程:奥,看来你这个问题看来涉及某某领域,我需要到那里给你找出答案云云,浪费很多时间。然后再给你答案。
这种混合专家型模型的另一个缺点就是缺乏不同知识体系间的关联性,所提供的答案只是局限在特定的知识体系内。当然大多数情况下,这也足够了