在DeepSeek-V3突破性表现的背后,是一个由杰出人才组成的团队,他们迅速从相对默默无闻崛起,挑战全球AI界的权威。本页面将带您一窥那些使DeepSeek成为AI领域强大力量的工程师和研究人员。
领导与起源
DeepSeek AI成立于2023年,由梁文峰创立的中国量化对冲基金High-Flyer Capital Management支持。最初作为一个研究实验室,它迅速发展成为全球最受瞩目的AI公司之一。
与许多通过大规模公关活动和融资公告宣布其存在的AI初创公司不同,DeepSeek一直保持着相对低调的姿态,让他们的技术成就为自己代言。公司的这种做法反映了其量化金融的根源——优先考虑可衡量的性能和效率,而非市场营销炒作。
技术智囊团
GitHub仓库活动揭示了推动DeepSeek-V3开发的关键贡献者:
- 于星凯:频繁合并拉取请求的核心维护者,在仓库的技术方向上发挥了重要作用。
- 黄盼盼:另一位杰出贡献者,与DeepSeek AI和HFAiLab均有联系。
- 张丽月:负责硬件兼容性工作的贡献者,特别是华为Ascend NPU支持。
团队远不止这些在GitHub上可见的贡献者。根据发表的论文如“DeepSeek-R1:通过强化学习激励大型语言模型的推理能力”,更广泛的研究团队包括数十名研究人员和工程师,包括郭大雅、杨德建、张浩伟、宋俊潇等。
团队文化与招聘
据报道,DeepSeek通过积极招募中国顶尖大学的博士级AI研究人员来构建其团队。他们与众不同的做法在于跨学科的关注——公司还雇佣没有计算机科学背景的人员,以帮助他们的技术更好地理解广泛的学科。
这种深厚技术专长与多样化知识领域的结合,可能有助于其模型在不同用例中的多功能性。
工程哲学
DeepSeek团队最独特的方面或许是他们的工程哲学。正如艾伦AI的研究科学家Tim Dettmers所描述的,DeepSeek的工作代表了“在资源约束下的如此干净的工程……这一切看起来如此优雅。”
他们的方法体现了资源丰富和效率:
-
最大化有限资源:据报道,DeepSeek-V3仅使用2048个GPU在两个月内训练完成,成本约为600万美元——仅为竞争对手花费的一小部分。
-
开放协作:与许多转向闭源模型的AI领导者不同,DeepSeek拥抱开放性,发布了FlashMLA、DeepEP、DualPipe、3FS和Deep-GEMM等优化工具。
-
实用创新:团队专注于解决实际的工程挑战,而不仅仅是理论上的进步。最近的提交显示,他们在硬件兼容性(华为Ascend NPU支持)、文档改进和支持多个推理引擎(包括LightLLM)方面的工作。
影响与认可
尽管——或许正因为——在受限条件下工作,如由于出口限制而难以获得顶级NVIDIA H100 GPU,团队仍取得了显著的创新。OpenAI的创始成员Andrej Karpathy指出,DeepSeek-V3“在今天的开放权重发布中,以开玩笑般的预算训练出前沿级大型语言模型,看起来如此轻松。”
这种技术实力颠覆了全球AI格局,挑战了只有美国科技巨头才能引领AI发展的观念。DeepSeek团队展示了创新和高效的工程可以克服资源限制。
展望未来
随着DeepSeek的不断演进,团队似乎专注于使先进AI能力民主化。当前的GitHub活动表明,他们正在进行改进文档、硬件兼容性和推理选项的工作——所有这些都是为了让这项技术对全球开发者更加可及。
DeepSeek团队证明了专注的工程技术人才可以颠覆一个由资源远超自己的科技巨头主导的行业——证明了在AI发展中,聪明的优化有时比蛮力计算更重要。