【编者按】
时光荏苒,一元复始。2025年伊始,HIT专家网延续惯例,推出年度“回顾展望”系列文章,邀请行业有识之士结合自身实践积累,分享年度洞察,以思想之火花,点亮行业前行之路。

2025年春节期间,杭州深度求索公司在全球大模型领域异军突起,在2024年底发布DeepSeek-V3基础上,接连发布DeepSeek-R1以及Janus-Pro-7B两个版本。这些不同版本的大模型以其强大的功能、性能、低成本和开源等特点,不仅展现了中国在AI领域的实力,更揭示了整个行业发展的新趋势与挑战。
同样在2024年末,OpenAI以连续12天的发布会,发布了o1正式版、Sora、Canvas,最后一天更是推出王炸产品GPT-o3,各项性能直奔通用人工智能(AGI)而去。
2024年度诺贝尔物理学和化学奖,均颁给了人工智能算法专家,这在很大程度昭示,人工智能时代真的来了。
当下,以大模型为代表的新一代人工智能及其对智能医疗的影响,尤为值得探讨。包括医疗行业在内的垂直大模型,通常都是将通用大模型作为基座模型,用专业领域的知识和数据训练而成。目前人工智能大模型还处于典型的技术驱动阶段,技术进步驱动更多应用场景的落地。
因此,智能医疗进展主要体现在两个方面:一是技术的进步,近年来AI代表性的进步主要体现在通用大模型快速进化和生态繁荣上;二是应用的创新,通用大模型的快速进展,驱动智能医疗应用层面的快速发展,催生了大量面向医疗具体业务场景的垂直大模型。
回顾刚刚过去的2024年,总的来讲,基于大模型的人工智能在技术层面主要有以下进展:
1.架构创新与性能提升
大模型在上下文窗口长度扩展、知识密度增强和混合专家(Mixture-of-Experts, MoE)架构和强化微调技术(Reinforcement Fine-Tuning,RFT)等方面都取得了长足的进展。通过改进模型架构,提升性能的同时降低计算成本,使得大模型更加高效和适应性强。Scaling Law(规模定律)在模型性能提升中起到了指导作用,推动了模型规模与性能关系的深入研究。
强化微调技术提升是比较重要的一项关键技术。它是一种新的 AI 模型训练方法,旨在创建能够以最少的训练示例执行复杂技术任务的专业模型,与传统的监督式微调不同,该技术允许模型发展出新的“思考”问题的方式。
2.多模态融合提升
大模型已逐步从自然语言处理向多模态理解和生成等场景拓展,多模态生成式 AI 等技术发展迅速,能够将文本与图像、视频等多种模态高效结合,实现了理解和生成方面的质的飞跃,进一步拓展了生成式AI的应用场景和创作边界。
大模型基于多模态的人机交互能力大幅度提升。比如,GPT-4o可以支持文本、音频、图像,甚至是视频的处理。字节跳动发布的豆包视觉理解模型,能精准识别视觉内容,还具备理解、推理、创作能力,已接入豆包App和PC端产品。
在视频生成方面,OpenAI Sora无疑开了先河。2024 年 12 月 10 日,OpenAI 正式上线 Sora,用户可根据文本、图像和视频输入来创造新视频,与2024年2月17日发布的Sora预览版相比,在视频质量、视频融合、视频编辑、电影效果等方面都有了显著提升。谷歌、Meta 以及国内不少AI机构相继分别推出了Veo 2、MetaMotivo等视频生成模型。
3.推理能力提升
大模型推理技术取得突破,使大模型从简单的聊天机器人升级为能够解决复杂问题的 “推理者”,标志着AI建设范式上的一大突破,从“快思考”发展到“慢思考”。2024年9月13日,Open AI发布了其首款具有推理能力的模型OpenAI-o1预览版,12月10日,openAI推出正式版o1。与o1预览版相比,正式版o1拥有视觉输入推理能力等新功能,随后发布的o3 推理能力较o1有了进一步提升。
除了OpenAI,头部企业以及不少创业型公司都推出了各自的推理大模型。谷歌于2024年 12 月 19 日发布的首个通用推理模型 Gemini 2.0 flashthinking具有思考速度快、推理过程透明、多模态能力强大等优势,在数学、代码、指令跟随、长 QA、创意写作等综合类别指标中名列前茅。豆包推出的视觉理解模型,能够同时处理文本和图像信息,实现综合理解和精准回答。
4.多种AI工具快速发展
AI多工具融合,成为提升AI能力和实用性的主流趋势。其中,AI Agent和知识库/RAG的结合尤为明显。
AI Agent,是具备自主性和目标导向能力的智能代理,通过与用户的多通道交互,执行复杂的任务链,甚至根据动态环境自主调整策略。相比传统AI工具,AI Agent更强调自主性与协作性,能够整合多种模型和工具协同工作,实现从数据分析到决策支持的完整闭环。2024年2月,字节跳动发布国内AI-Agent平台Coze,支持界面化流程设计,预制多种场景模版,帮助用户实现AI能力的开箱即用。2024年11月,微软正式推出新平台Copilot Studio,允许企业为其开发自主人工智能代理。麦肯锡在该平台,通过自动化的流程分配智能体,将项目受理流程从20天缩短至仅2天。OpenAI在2025年1月23日发布的首个智能体——Operator,可以上网为用户执行具体的任务。比如,用户只要简单输入需求,它就能自动完成餐厅订位、购买日常用品、预订比赛门票等任务,还支持多任务并行处理和个性定制。
RAG(Retrieval-augmented Generation),检索增强生成技术,通过引入外部知识库,将大型语言模型(如GPT)与检索系统整合在一起,在生成答案前动态检索相关信息,避免完全依赖模型内置的训练数据,适用于实时问答、专业领域辅助和企业知识管理,提高知识的时效性和降低模型训练成本。2024年12月,FastGPT发布更新,新增API类型知识库,以减轻外部文件知识库对服务性能的影响。
2024年9月,百度智能体AgentBuilder发布最新版本,企业级RAG模型效果最高提升60%,实现知识库无限扩容并支持灵活配置调优。微软Copilot Studio 支持多种信息源作为知识进行输入,包括外部网站、企业数据、本地知识库等。
5.具身智能取得新突破
具身智能,是指一种基于物理身体进行感知和行动的智能系统。多模态感知技术不断发展,使机器人能够更全面、准确地感知环境,为决策提供了更强大的支持。,机器人的运动控制技术取得进步,实现了更灵活、稳定和精细的动作执行。
马斯克预测,未来机器人与人类的比例可能达到5:1,全球将有300亿台机器人运行。这一预测应该是基于不断提升的机器人技术,以及全球人口老龄化、劳动力短缺等现实问题的考虑。
6.国产大模型快速崛起
在大模型这个赛道,目前基本就是中美两国相互角逐和全力推进。
在这场大模型的角逐中,国内互联网大厂率先布局,像百度的文心一言、阿里的通义千问、字节的豆包、腾讯的混元等。同时,新兴势力不断涌现,诸如深度求索的DeepSeek、MiniMax的abab 系列、智谱清言的ChatGLM 系列、阶跃星辰的Step 系列、月之暗面的Kimi、零一万物的Yi 系列、百川智能的Baichuan4 系列等。
2024 年 12 月 19 日,智源研究院发布最新一期大模型综合及专项评测结果。在覆盖国内外 100 余个开源和商业闭源大模型的评测中,豆包通用模型 pro 获得大语言模型主观评测最高分。在多模态模型评测中,豆包视觉理解模型排名视觉语言模型第二,成绩仅次于GPT-4o。
国产大模型强势崛起的标志性事件,无疑是杭州深度求索公司刚发布不久的DeepSeek-V3、R1以及Janus-Pro-7B几个版本的模型。DeepSeek主要在以下几个方面取得突破:
一是技术架构创新。DeepSeek-V3打破传统Transformer的显存与计算瓶颈,首创多头潜注意力机制(MLA)、革新动态路由算法,以及创新性多令牌预测框架,攻克长文本推理的显存效率瓶颈,突破MoE模型长期存在的专家选择困境,实现推理吞吐量跨越式提升,大幅降低了训练和推理成本。此外,DeepSeek-V3 使用数据蒸馏技术生成的高质量数据,提升了训练效率。
二是推理能力跃升。DeepSeek-R1模型不仅展示了与OpenAI的o1相当的推理能力,R1-Zero模型通过纯强化学习,无需人工反馈就实现了推理能力的自主进化。DeepSeek-R1 基于 DeepSeek-V3 架构,这是一个拥有 671B 参数的混合专家(MoE)架构。该架构包含 16 个专家网络,每个专家专注于数学、代码、逻辑等不同领域,通过动态激活机制,每个 token 激活 37B 参数,从而实现高效的推理能力。DeepSeek-R1 的核心创新在于其训练方式,它完全依赖强化学习(Reinforcement Learning, RL)来提升模型的推理能力,而不使用任何监督微调(Supervised Fine-Tuning, SFT)数据。
三是成本效率革命。FP8混合精度训练通过硬件加速、算法优化与软件生态支持,显著降低千亿参数模型的训练成本。其30%的成本降幅源于显存占用减少、计算效率提升及能耗优化。这一成本效率的突破,打破了人们对AI模型训练必须依赖顶级硬件的固有认知,解决“养不起”的问题。未来,随着技术成熟与生态完善,FP8或成为大模型训练的标配,推动AI技术更广泛落地。
其中,FP8,即8位浮点数据类型,相比常用的FP32(32位浮点)和FP16(16位浮点),FP8用更少的位数来表示浮点数,能显著减少存储和计算需求。
混合精度训练,是指在训练过程中同时使用多种精度的数据类型,如结合FP8与FP32等,利用不同精度的优势来提高训练效率和效果。
四是开源生态优势。开源生态吸引大量开发者提交代码优化(如显存压缩算法)、垂直领域微调方案(如法律合同生成),迭代速度远超闭源模型,社区贡献的昇腾910B适配方案使国产芯片推理速度提升40%。提供从预训练、微调到部署的全栈工具链(如DeepSeek-Engine),降低工程化难度,解决“用不好”的问题。
五是行业格局重塑。DeepSeek的成功对整个AI行业产生了深远影响,其低成本高效率的训练方案,可能撼动英伟达的市场地位,大模型竞争已从“拼参数和算力”转向“拼成本效率与生态开放性”,意味着AI平权时代的来临。
DeepSeek的“开源+低成本”策略将迫使其他模型审慎选择通用赛道,转向更务实的垂直化与生态绑定,大模型市场将呈现“少数开源底座+N个垂直专家”的格局,谁能以更低成本覆盖更广泛场景,并通过开源或生态绑定形成网络效应,谁将主导下一阶段市场格局。
以DeepSeek为代表的新一代大模型以其卓越的能力、极低的成本和开源的生态,让大模型技术可以迅速普及化,这无疑将驱动更多智能医疗场景的实现。
这意味着,大模型时代的智能医疗必将迎来发展新阶段。敬请关注续篇《大模型在医疗领域应用新进展》。
(本文在成稿过程中,参考了中国信息通信研究院《2024人工智能白皮书》、DeepSeek、豆包、Kimi等大模型工具,李翀、刘洋也有贡献,特此说明)
回顾展望 | 汪建华:创新无止境,从手麻系统到手术运营平台(上)
回顾展望 | 汪建华:创新无止境,从手麻系统到手术运营平台(下)
统信软件:“政策+业务”双轮驱动,医疗信创的必由之路 | 回顾展望
黄烨东:影像与医技全场景应用的订阅时代已经到来 | 回顾展望
陈中阳:信息技术创新已成为医疗新基建的关键引擎 | 回顾展望

精彩不容错过!
【责任编辑:封诚】
评论前必须登录!
注册