DeepSeek爆火的深层原因_前沿科技

创始人

2025-02-25 02:20:32

0次

一、技术突破：算法创新

DeepSeek通过多头潜在注意力机制（MLA）和混合专家模型（DeepSeekMoE）

等创新架构，将显存占用降至传统模型的5%-13%，推理成本仅为GPT-4 Turbo的

1/70，训练成本更是OpenAI同类模型的1/10。这种高效能模式得益于稀疏化算法

和动态精度调节技术，通过仅激活相关参数和压缩数据存储，显著降低资源消耗。

DeepSeek R1的核心优势在于其独特的强化学习（Reinforcement Learning, RL）

策略。与传统依赖大量人工标注数据的监督微调（SFT）不同，DeepSeek R1完全

依靠强化学习进行训练，无需监督微调。这种方法在显著降低了对标注数据依赖的

同时，更让模型能够在自我博弈中激发推理潜能。

DeepSeek R1采用了创新的GRPO（Group Relative Policy Optimization）

算法框架，进一步优化了强化学习的训练过程，降低了计算开销，提高了训练稳定性。

二、商业模式颠覆：开源与低价策略

DeepSeek 开源了多个模型，如 DeepSeek-V3、DeepSeek-R1 等，这些模型

不仅性能卓越，而且使用 MIT 许可协议，支持免费商用、任意修改和衍生开发。

这使得开发者可以根据自己的需求，对模型进行定制化开发，从而推动了 AI 技术

在各个领域的应用和创新。许多开发者基于 DeepSeek 的开源模型，开发出了各种

进一步拓展了 DeepSeek 的应用场景，也为全球 AI 技术的发展注入了新的活力。

在人工智能领域，训练成本一直是制约模型发展和应用的重要因素。而 DeepSeek

在成本控制方面却展现出了惊人的优势。与其他国际知名模型相比，DeepSeek 的

训练成本和使用成本都大幅降低。据公开资料显示，DeepSeek-R1 的预训练费用

仅为 557.6 万美元，而 OpenAI 的 GPT-4o 训练成本高达 7800 万美元，这意味着

DeepSeek-R1 以不到十分之一的成本实现了足以与 GPT-4o 较量的水平。在 API

服务定价上，DeepSeek-R1 也极具竞争力，每百万输入 tokens 只要 1 - 4 元，

每百万输出 tokens 只要 16 元，这个收费大约只有 OpenAI o1 运行成本的

三十分之一。