返回列表 发布新帖

[源码] DeepSeek-V3 仓库

353 0
digger 发表于 2025-11-4 15:31:55 | 查看全部 阅读模式 来自:中国–新疆–阿克苏地区 电信

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×

QQ20251104-152959.webp

DeepSeek-V3 仓库是一个围绕同名大语言模型(DeepSeek-V3)构建的开源项目,主要包含模型相关的代码、配置及文档。以下是其核心信息介绍:

1. 模型概述

DeepSeek-V3 是一款高性能的混合专家模型(Mixture-of-Experts, MoE),总参数规模为 671B,每个 token 处理时激活 37B 参数。其核心特点包括:

  • 采用 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,兼顾效率与性能;
  • 创新无辅助损失的负载均衡策略,减少性能损耗;
  • 引入多 token 预测(Multi-Token Prediction, MTP)训练目标,提升性能并支持推理加速;
  • 预训练基于 14.8 万亿高质量 token,后续经监督微调(SFT)和强化学习(RL)优化;
  • 训练效率极高,全流程仅需 2.788M H800 GPU 小时,且训练过程稳定无显著损失波动。

2. 模型下载

提供两个主要模型版本,可从 Hugging Face 获取:

  • DeepSeek-V3-Base:基础预训练模型,上下文长度 128K;
  • DeepSeek-V3:经微调的对话模型,上下文长度 128K。

模型总大小为 685B,包含 671B 主模型权重和 14B MTP 模块权重(MTP 支持仍在开发中)。

3. 评估结果

在多项基准测试中表现优异,优于多数开源模型,接近闭源模型水平:

  • 通用能力:在 BBH、MMLU、DROP 等任务上领先,如 MMLU(5-shot)准确率达 87.1%;
  • 代码能力:HumanEval(0-shot)Pass@1 达 65.2%,MBPP(3-shot)达 75.4%;
  • 数学能力:GSM8K(8-shot)准确率 89.3%,MATH(4-shot)达 61.6%。

4. 本地运行方法

支持多种框架和硬件,包括:

  • 框架:DeepSeek-Infer Demo、SGLang、LMDeploy、TensorRT-LLM、vLLM、LightLLM 等;
  • 硬件:NVIDIA GPU(支持 FP8/BF16)、AMD GPU(通过 SGLang 支持 FP8/BF16)、华为 Ascend NPU(支持 INT8/BF16)。

模型原生提供 FP8 权重,如需 BF16 格式,可使用仓库中的 fp8_cast_bf16.py 脚本转换。

5. 许可证

6. 其他信息

  • 权重结构:包含主模型权重(61 层 Transformer)和 MTP 模块(共享嵌入层和输出头);
  • 文档:提供详细的权重说明(README_WEIGHTS.md)和本地运行指南;
  • 反馈与支持:可通过 GitHub Issues 或邮箱 service@deepseek.com 联系。

更多细节可参考仓库中的 README.md 及相关文档。

[发帖际遇]: digger 发帖时在路边捡到 3 匠币,偷偷放进了口袋. 幸运榜 / 衰神榜
匠心独运,千锤百炼,品质非凡。
回复 转播

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

您需要 登录 后才可以回复,轻松玩转社区,没有帐号?立即注册
快速回复
关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表