<p><img src="data/attachment/forum/202511/04/153145a0w8phw60pmh8w00.webp" alt="QQ20251104-152959.webp" title="QQ20251104-152959.webp" /></p>5 q- u$ c2 m& `4 i! w; a" P
<p>DeepSeek-V3 仓库是一个围绕同名大语言模型(DeepSeek-V3)构建的开源项目,主要包含模型相关的代码、配置及文档。以下是其核心信息介绍:</p>. C( A( O) i& v, G
<h2>1. 模型概述</h2>; b* O( j5 e" [8 Y2 b6 a, f& x8 n/ B
<p>DeepSeek-V3 是一款高性能的混合专家模型(Mixture-of-Experts, MoE),总参数规模为 671B,每个 token 处理时激活 37B 参数。其核心特点包括:</p>
B0 U$ F' o7 ~7 \' y; V- K<ul>- P+ N N E |2 A& a1 J4 ? R
<li>采用 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,兼顾效率与性能;</li>
: d2 W( ?8 w4 B6 g4 [! r3 O<li>创新无辅助损失的负载均衡策略,减少性能损耗;</li> c" S: Z. H( G
<li>引入多 token 预测(Multi-Token Prediction, MTP)训练目标,提升性能并支持推理加速;</li>
2 C# i* B" N, h% A' e9 ]<li>预训练基于 14.8 万亿高质量 token,后续经监督微调(SFT)和强化学习(RL)优化;</li>
, M) \* k" J H& D- F# _& g" L( b<li>训练效率极高,全流程仅需 2.788M H800 GPU 小时,且训练过程稳定无显著损失波动。</li>
. Q9 B+ B9 y* ^: ?</ul>% N/ M @- R( K3 j2 m, d0 V2 s/ y- L
<h2>2. 模型下载</h2>% ?4 K; ?8 `4 n( m3 n% ]9 r) Y& ]
<p>提供两个主要模型版本,可从 Hugging Face 获取:</p>
$ E: ]+ b$ d5 X; Y( I<ul>
% j6 ]2 j; E5 i2 C3 Q! c9 l; V& I<li><strong>DeepSeek-V3-Base</strong>:基础预训练模型,上下文长度 128K;</li>
1 i9 v( M, E S/ e& Q1 o8 g4 ~<li><strong>DeepSeek-V3</strong>:经微调的对话模型,上下文长度 128K。</li># A* H4 }$ }) {. c6 I' p
</ul>
1 E) U: _5 }+ v1 ?' Q<p>模型总大小为 685B,包含 671B 主模型权重和 14B MTP 模块权重(MTP 支持仍在开发中)。</p>
+ N9 H( a7 V3 l3 t; X; S' c; O<h2>3. 评估结果</h2>
, N3 x _2 G {8 g) W5 k<p>在多项基准测试中表现优异,优于多数开源模型,接近闭源模型水平:</p> K k/ L& y6 c' n4 b) ?' c; L. h6 B
<ul>9 E6 W3 A; H0 l7 u$ M& f* v
<li><strong>通用能力</strong>:在 BBH、MMLU、DROP 等任务上领先,如 MMLU(5-shot)准确率达 87.1%;</li>5 {/ E- R; C9 ?+ Z8 ~# h
<li><strong>代码能力</strong>:HumanEval(0-shot)Pass@1 达 65.2%,MBPP(3-shot)达 75.4%;</li>
$ k. c$ F# N* I( I6 a" K/ f<li><strong>数学能力</strong>:GSM8K(8-shot)准确率 89.3%,MATH(4-shot)达 61.6%。</li>
% w% J; V5 G3 c0 h8 I</ul>
: Z: T+ y. b" y ~1 Z1 \<h2>4. 本地运行方法</h2>
% d& Z/ i6 V2 k( S* O2 L<p>支持多种框架和硬件,包括:</p>
9 b; m. [& e- f<ul>1 z# P% C: n! ?7 G
<li><strong>框架</strong>:DeepSeek-Infer Demo、SGLang、LMDeploy、TensorRT-LLM、vLLM、LightLLM 等;</li>. d7 R" M( N6 F- L7 j+ m
<li><strong>硬件</strong>:NVIDIA GPU(支持 FP8/BF16)、AMD GPU(通过 SGLang 支持 FP8/BF16)、华为 Ascend NPU(支持 INT8/BF16)。</li>
# w1 _& u+ `/ `, [. x! j</ul>
: {* Y! q5 B$ d+ d1 K<p>模型原生提供 FP8 权重,如需 BF16 格式,可使用仓库中的 <code>fp8_cast_bf16.py</code> 脚本转换。</p>! y0 O7 D; b2 W+ U
<h2>5. 许可证</h2>
0 @$ L; A/ d* a- [<ul>
; c7 N# e1 Y, R! w<li>代码仓库遵循 <a href="LICENSE-CODE">MIT 许可</a>;</li>) u$ L+ A& W; E0 g0 @1 o6 ^" j2 \5 ~
<li>模型使用受 <a href="LICENSE-MODEL">Model License</a> 约束,支持商业用途。</li>' l0 L7 P' G6 Y, c6 F4 B; c
</ul>
+ _9 @* B+ b! t! O+ o$ `2 O$ `<h2>6. 其他信息</h2>
; k" {3 |2 g4 h( V7 \. C2 m<ul># t; E6 U2 O6 n1 o( f
<li>权重结构:包含主模型权重(61 层 Transformer)和 MTP 模块(共享嵌入层和输出头);</li>
/ K' L5 ^3 y5 _# @- S* {1 D<li>文档:提供详细的权重说明(<code>README_WEIGHTS.md</code>)和本地运行指南;</li>
: Z u5 D" V: g* c/ {<li>反馈与支持:可通过 GitHub Issues 或邮箱 <code>service@deepseek.com</code> 联系。</li>
& @% V: i2 o3 `/ K0 S r</ul>
6 e, R4 z; a7 [% i<p>更多细节可参考仓库中的 <code>README.md</code> 及相关文档。</p>8 }: V( R; {! K
|
-
温馨提示:
本文《DeepSeek-V3 仓库》由: digger 发表于 2025-11-4 15:31
原文链接:https://www.jiangmen.pro/thread-75-1-1.html
- 1、本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2、本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3、本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4、未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5、匠们网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6、下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7、本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
- 8、该内容可能包含由AI辅助创作,请仔细甄别。
|