设为首页收藏本站

商务合作 +86-15292350166

匠们网

首页网站首页

社区社区论坛

圈子圈子小团体

登录立即注册

匠们网»社区 › 办公&编程 › 大数据AI › DeepSeek-V3 仓库

返回列表发布新帖

[源码] DeepSeek-V3 仓库

353 0

digger 发表于 2025-11-4 15:31:55 | 查看全部阅读模式 来自:中国–新疆–阿克苏地区电信

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册微信登陆 QQ登录 sms 手机登录

×

DeepSeek-V3 仓库是一个围绕同名大语言模型（DeepSeek-V3）构建的开源项目，主要包含模型相关的代码、配置及文档。以下是其核心信息介绍：

1. 模型概述

DeepSeek-V3 是一款高性能的混合专家模型（Mixture-of-Experts, MoE），总参数规模为 671B，每个 token 处理时激活 37B 参数。其核心特点包括：

采用 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构，兼顾效率与性能；
创新无辅助损失的负载均衡策略，减少性能损耗；
引入多 token 预测（Multi-Token Prediction, MTP）训练目标，提升性能并支持推理加速；
预训练基于 14.8 万亿高质量 token，后续经监督微调（SFT）和强化学习（RL）优化；
训练效率极高，全流程仅需 2.788M H800 GPU 小时，且训练过程稳定无显著损失波动。

2. 模型下载

提供两个主要模型版本，可从 Hugging Face 获取：

DeepSeek-V3-Base：基础预训练模型，上下文长度 128K；
DeepSeek-V3：经微调的对话模型，上下文长度 128K。

模型总大小为 685B，包含 671B 主模型权重和 14B MTP 模块权重（MTP 支持仍在开发中）。

3. 评估结果

在多项基准测试中表现优异，优于多数开源模型，接近闭源模型水平：

通用能力：在 BBH、MMLU、DROP 等任务上领先，如 MMLU（5-shot）准确率达 87.1%；
代码能力：HumanEval（0-shot）Pass@1 达 65.2%，MBPP（3-shot）达 75.4%；
数学能力：GSM8K（8-shot）准确率 89.3%，MATH（4-shot）达 61.6%。

4. 本地运行方法

支持多种框架和硬件，包括：

框架：DeepSeek-Infer Demo、SGLang、LMDeploy、TensorRT-LLM、vLLM、LightLLM 等；
硬件：NVIDIA GPU（支持 FP8/BF16）、AMD GPU（通过 SGLang 支持 FP8/BF16）、华为 Ascend NPU（支持 INT8/BF16）。

模型原生提供 FP8 权重，如需 BF16 格式，可使用仓库中的 fp8_cast_bf16.py 脚本转换。

5. 许可证

代码仓库遵循 MIT 许可；
模型使用受 Model License 约束，支持商业用途。

6. 其他信息

权重结构：包含主模型权重（61 层 Transformer）和 MTP 模块（共享嵌入层和输出头）；
文档：提供详细的权重说明（README_WEIGHTS.md）和本地运行指南；
反馈与支持：可通过 GitHub Issues 或邮箱 service@deepseek.com 联系。

更多细节可参考仓库中的 README.md 及相关文档。

温馨提示：

本文DeepSeek-V3 仓库由 digger 发表于 2025-11-4 15:31

原文链接：https://www.jiangmen.pro/thread-75-1-1.html

1、本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2、本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3、本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4、未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5、匠们网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6、下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7、本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

[发帖际遇]: digger 发帖时在路边捡到 3 匠币，偷偷放进了口袋.

幸运榜 / 衰神榜

匠心独运，千锤百炼，品质非凡。

回复转播

使用道具举报

返回列表发布新帖

回复

digger

主题	0 回帖	1062 积分

+ 关注发消息

上一主题下一主题

站长推荐 /1

投诉/建议联系

+86 152 9235 0166

|Archiver|手机版|小黑屋

Copyright © 2026 温宿钦诺网络科技工作室 版权所有 新ICP备2022000030号-1 新公网安备65292202000113号 Powered by Discuz! X3.5

关灯在本版发帖

扫一扫添加微信客服

QQ客服返回顶部

快速回复 返回顶部 返回列表