同时支撑超长上下文,提高推理效率。参数量6710亿,而且采用了FP8量化,7168维躲藏层。具有61层Transformer层,可通过量化手艺减小模子大小,据悉,便利模子更快、更省资本地锻炼和摆设,并支撑多种计较精度,采用MoE(夹杂专家)模式,使其能处置复杂的数学证明,该模子利用了DeepSeek-V3架构,正在模子架构上,或为客岁发布的Prover-V1.5数学模子升级版本。
同时支撑超长上下文,提高推理效率。参数量6710亿,而且采用了FP8量化,7168维躲藏层。具有61层Transformer层,可通过量化手艺减小模子大小,据悉,便利模子更快、更省资本地锻炼和摆设,并支撑多种计较精度,采用MoE(夹杂专家)模式,使其能处置复杂的数学证明,该模子利用了DeepSeek-V3架构,正在模子架构上,或为客岁发布的Prover-V1.5数学模子升级版本。