
DeepSeek-V3 仓库是一个围绕同名大语言模型(DeepSeek-V3)构建的开源项目,主要包含模型相关的代码、配置及文档。以下是其核心信息介绍:
1. 模型概述
DeepSeek-V3 是一款高性能的混合专家模型(Mixture-of-Experts, MoE),总参数规模为 671B,每个 token 处理时激活 37B 参数。其核心特点包括:
- 采用 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,兼顾效率与性能;
- 创新无辅助损失的负载均衡策略,减少性能损耗;
- 引入多 token 预测(Multi-Token Prediction, MTP)训练目标,提升性能并支持推理加速;
- 预训练基于 14.8 万亿高质量 token,后续经监督微调(SFT)和强化学习(RL)优化;
- 训练效率极高,全流程仅需 2.788M H800 GPU 小时,且训练过程稳定无显著损失波动。
2. 模型下载
提供两个主要模型版本,可从 Hugging Face 获取:
- DeepSeek-V3-Base:基础预训练模型,上下文长度 128K;
- DeepSeek-V3:经微调的对话模型,上下文长度 128K。
模型总大小为 685B,包含 671B 主模型权重和 14B MTP 模块权重(MTP 支持仍在开发中)。
3. 评估结果
在多项基准测试中表现优异,优于多数开源模型,接近闭源模型水平:
- 通用能力:在 BBH、MMLU、DROP 等任务上领先,如 MMLU(5-shot)准确率达 87.1%;
- 代码能力:HumanEval(0-shot)Pass@1 达 65.2%,MBPP(3-shot)达 75.4%;
- 数学能力:GSM8K(8-shot)准确率 89.3%,MATH(4-shot)达 61.6%。
4. 本地运行方法
支持多种框架和硬件,包括:
- 框架:DeepSeek-Infer Demo、SGLang、LMDeploy、TensorRT-LLM、vLLM、LightLLM 等;
- 硬件:NVIDIA GPU(支持 FP8/BF16)、AMD GPU(通过 SGLang 支持 FP8/BF16)、华为 Ascend NPU(支持 INT8/BF16)。
模型原生提供 FP8 权重,如需 BF16 格式,可使用仓库中的 fp8_cast_bf16.py 脚本转换。
5. 许可证
6. 其他信息
- 权重结构:包含主模型权重(61 层 Transformer)和 MTP 模块(共享嵌入层和输出头);
- 文档:提供详细的权重说明(
README_WEIGHTS.md)和本地运行指南;
- 反馈与支持:可通过 GitHub Issues 或邮箱
service@deepseek.com 联系。
更多细节可参考仓库中的 README.md 及相关文档。