提高效率和生产力

Mimaktsa10 · Post by **Mimaktsa10** » Sat Feb 22, 2025 9:45 am

强大的代码模型：DeepSeek-Coder-V2 是一个专为编码任务设计的开源混合专家（MoE）模型，实现与 GPT-4 Turbo 相当的性能。
提高编码和数学技能：扩展训练显著提高编码和数学推理能力，同时保持强大的一般语言表现。
主要进步：与DeepSeek-Coder-33B相比，它在代码相关任务、推理和整体能力方面表现出更佳的表现。
扩展的语言和上下文支持：现在支持 338 种编程语言（从 86 种增加），并将上下文长度从 16K 扩展到 128K，以处理更大的代码输入。

DeepSeek-V3
一种高性能多模式 AI 模型，集成文本、图像和其他数据类型以提供全面的输出。

Deepseek V3
来源：DeepSeek

强大而高效的 MoE 模型：DeepSeek-V3 具柬埔寨号码数据有 671B 个参数（每个标记 37B），并使用 MLA 和 DeepSeekMoE 架构实现更快的推理和经济高效的训练。
大规模预训练和微调：对 14.8 万亿个标记进行训练，然后进行监督微调和强化学习，以获得顶级性能。
竞争性能：性能超越开源模型并与领先的闭源 AI 模型相媲美，同时仅需要 2.788M H800 GPU 小时进行训练。

DeepSeek-R1
以研究为重点的人工智能模型，旨在通过实验技术提高机器学习能力。

2025年1月推出：基于DeepSeek-V3构建，专为高级推理任务而设计。
竞争性能：与 OpenAI 的 o1 模型相媲美，同时更具成本效益。
高容量特点：6710 亿个参数和 128,000 个上下文长度，可处理大量输入。

Janus-Pro-7B
一个紧凑但功能强大的 70 亿参数模型，针对高效的 AI 任务进行了优化，且对计算要求不高。

对于小规模的AI应用来说，它是轻量级的并且具有成本效益。
推理速度快，延迟低。
保留强大的文本生成和编码能力。