微信图片_2026-04-27_172910_096

顶尖AI模型正加速升级,头部AI企业则正加速上市,比如准备于2026年下半年提交首次公开募股(IPO)申请的OpenAI和Anthropic。

而在另一边,是大众对AI喜忧参半、爱恨交织的复杂情绪,以及部分地区已经爆发的人-机矛盾,例如,美国的某些地方政府开始限制甚至禁止新建数据中心。

值得追踪的AI领域信息可谓纷繁,有没有一份总结报告可为大家梳理行业全貌、总结发展趋势?斯坦福大学以人为本人工智能研究院(Stanford HAI)4月13日发布的《2026年人工智能指数报告》(The 2026 AI Index Report),值得追看。

这份长达400多页的报告包含数十个数据指标与图表,从基准测试得分、投资规模、公众认知等多个维度,全面解读AI发展现状。IEEE Spectrum杂志的编辑近期提炼出该报告的关键内容,配合12幅数据图表,总结了全球AI发展的最新趋势。

美国企业领跑AI模型开发

过去十年,美国是人工智能模型领域的带头大哥,且直到2025年依然优势稳固。

长期关注AI发展趋势的多学科研究机构Epoch AI此前发布数据称:2025年“美产”的“知名”AI模型(发布机构的总部位于美国)数量高达50个;中国机构进步神速,在2025年贡献了总计30个杰出模型;欧洲方面则只有2个。

下图展示了2003~2025年美国、中国、欧洲发布的知名AI模型数量变化趋势。

微信图片_2026-04-27_172915_569

另一项关键的长期趋势是企业成为开发主力。这里引用Epoch AI的统计数据:2025年有87个知名模型出自企业,其他来源的仅7个。企业占据标杆产品总量的90%以上;此比例在2015年不到50%,在2003年则为0。因而可以认为,如今几乎所有知名AI模型均由企业而非学术或政府机构研发。

中国在机器人赛道一骑绝尘

美国发布了最多模型,中国则部署了最多机器人,且同样领衔优势巨大。

根据国际机器人联合会(IFR)的数据,2024年中国新增工业机器人安装量达29.5万台,日本与美国的新装量分别约为4.45万台和3.42万台。

下图展示了2011~2024年德国、韩国、美国、日本和中国的每年新增工业机器人安装量。可以看到中国遥遥领先。

微信图片_2026-04-27_172919_097

自2022年以来,全球AI算力年增长3.3倍

斯坦福大学最新的人工智能指数报告提供了大量关于AI建设的亮眼数据。不过要说亮眼,Epoch AI统计的全球人工智能总算力数据可谓璀璨耀眼。

下图基于Epoch AI的数据绘制,展示了英伟达、谷歌、亚马逊、AMD、华为的AI芯片在全球算力中占据的份额。

微信图片_2026-04-27_172922_728

如图所示,以英伟达H100芯片算力为基准,自2022年以来,全球人工智能算力每年增长超3倍;自2021年以来,总算力已增长30倍。

此外,英伟达一直独占算力鳌头,是算力扩张浪潮中的最大受益者,其GPU占当前全球AI总算力的60%以上,而自主设计AI专用硬件的亚马逊和谷歌分别位列第二、三位。

AI模型训练造成巨量碳排放

斯坦福人工智能指数报告往年就已指出AI训练的碳排放问题——眼下,此问题仍持续加剧并引发担忧。

报告估计,训练诸如Grok 4(由xAI公司创建)这样的前沿大语言模型,会带来远高于往年估算值、超7.2万吨的二氧化碳当量排放。OpenAI的GPT-4预计造成5184吨碳排放,Meta的Llama 3.1 405B则会产生8930吨。

下图展示了2012~2025年间多款知名AI模型训练产生的预估碳排放量。2025年的碳排放量因Grok 3和Grok 4模型而大幅飙升。

微信图片_2026-04-27_172926_168

不过,该指数报告的指导委员会联合主任雷 · 佩罗特(Ray Perrault)认为估算出的结果需谨慎解读:“Grok模型的碳排放数据高度依赖公开报道(如《福布斯》杂志文章)、xAI官方声明以及其他未经核实的信息,因此其中引入了一些不确定性。Epoch AI独立估算的Grok 4碳排放更惊人,高达约14万吨二氧化碳当量。”

人工智能推理环节的碳排放也持续上升,当然,不同模型差异显著。报告显示,推理效率最低的模型的碳排放量达最高效模型的10倍以上。据估计,DeepSeek-V3模型响应“中等长度”提示时的功耗约23瓦,Claude 4 Opus的约为5瓦。

大语言模型飞速越过各类新基准测试

过去10年间,AI模型的能力以惊人速度提升且仍保持加速进步的势头。多模态大语言模型表现突出,几乎做到了“在新的基准测试刚推出来时就马上攻克它们”。智能体人工智能(Agentic AI)的性能跃升更是令人惊奇。

不妨看看下面这份基于人工智能指数报告的数据而绘制的图表。如图所示,各项基准测试旨在衡量AI各维度的技术性能,以人类表现为参考基准,展示了2012~2025年间AI各项性能的进步情况。

微信图片_2026-04-27_172929_425

可以看到,在图像分类方面,AI很早便超越人类;进入2020年代后,模型在多项任务中接近甚至超越了人类基准。图表最右侧两条极为陡峭曲线分别代表OSWorld基准测试(评估自主操作计算机的能力)和SWE-Bench Verified软件工程基准测试(评估自主编写代码的能力)。

另一方面,在名为“人类终极测试”(Humanity’s Last Exam)的基准测试中,AI也进步神速。

该测试包含各领域专家设计的行业最难问题。2025年的斯坦福人工智能指数报告显示,排名第一的OpenAI o1模型正确率仅 8.8%;时间并未过去多久,该数字已升至38.3%——而且它还够不上最新水平,因为2026年4月表现最佳的模型,如Anthropic公司的Claude Opus 4.6和谷歌的Gemini 3.1 Pro,都已越过50%的正确率水平。

不过佩罗特也提醒道,基准测试成绩未必反映实际应用效果:“我们普遍缺乏标准用以衡量系统(或智能体)在特定场景下应有的表现水平。举例来说,某AI在某法律推理基准测试里达到75%的准确率,无法说明该AI可于法律实务中提供多高水平的帮助。”

AI在医学领域研究取得进展

人工智能基准测试的进步似乎已体现于医学领域:AI应用快速普及行业,其中医学研究方面的应用尤为突出。

通过下方柱状图,可以看到2018年至2025年间,有关AI用于新药研发的论文的数量增长趋势;过去两年,相关论文数量翻倍;眼下多模态生物医学AI(用于联合分析医学影像与文本)相关论文数量则是两年前的2.7倍。

微信图片_2026-04-27_172932_956

大语言模型仍存在时钟认读困难

AI虽已在部分赛道大显神威,却依旧难以胜任诸如认读时钟、理解日历之类的日常任务。参阅大模型为什么不会数数?陈小平深入解析大模型的发展和关键问题 | 锚点

旨在衡量多模态大语言模型识别模拟时钟能力的ClockBench测试显示,表现最佳的GPT-5.4模型仅取得50%左右的正确率。大多数模型的表现相当糟糕,比如在“人类终极测试”中拔尖的Claude Opus 4.6面对时钟却只有8.9%的认读正确率。

下图对比了不同大语言模型在执行模拟时钟认读任务时的表现,其准确率从仅8.9%到50.6%不等。

微信图片_2026-04-27_172937_488

虽说现实场景极少要求大语言模型执行此类任务,但这反映的普遍问题很关键。如佩罗特所言:“研究表明,当系统被问到结合了语言与其他模态(如图像或语音中的语调)的问题时,语言部分所承担的任务权重大到令人惊讶,甚至令非语言信息被忽略。”

AI相关投资在2025年创历史新高

AI模型的性能表现与AI企业的融资金额正携手并进。专注人工智能分析的Quid公司发布数据称,2025年的AI相关投资再创新高,达5810亿美元以上。

新纪录是2024年(2530亿美元)的两倍多,也远超2021年老纪录(3600亿美元)。此外,不同于2021年并购交易主导投资的情况,2025年的新高由针对AI企业的私人投资拉动。

下图展示了2013~2025年全球范围内AI相关的企业投资(按投资活动类型划分)的变化趋势。可以看到2021年的增长高峰、2022~2024年间的回落以及2025年大幅飙升再创新高。

微信图片_2026-04-27_172940_688

值得一提的是,大部分AI资本都流向了美国,比如2025年总金额中的3440亿美元。

软件工程师全面拥抱AI

人工智能的普及不只关联巨额资本,还有GitHub上广大爱好者们的参与热情。截至2025年,代码托管平台GitHub的AI相关项目数量已猛增至558万个,达2020年水平的大约5倍,较2024年增长23.7%。

下图展示了2011~2025年GitHub上AI项目数量从0到558万个的变化。

微信图片_2026-04-27_172944_417

上述数据并非AI生成泛滥、低质项目横行的结果,因为其中“获得至少10个星标的AI项目数量增速与整体增速一致”“AI项目总星标数的增速也近似整体增速”,这意味着人类的普遍参与。值得一提的是,开源智能体AI软件OpenClaw已获得35.2万个星标。(星标数量反映项目质量。)

计算机科学对AI的热情同样高涨。过去10年,人工智能相关的计算机科学论文数量从10.2万篇增至25.8万篇。截至2024年,超68%的论文来自学术界,政府与企业分别贡献了约 11.5%和12.5%。机器学习、计算机视觉、生成式AI领域的论文增长最为显著。

AI对就业的总体影响仍不明朗

生成式AI的兴起伴随着就业焦虑,由于全球头部AI企业的CEO们作出悲观预测,这种情绪更是不断加剧。不过目前相关数据只可用“喜忧参半”来形容。

软件开发人员和客户支持专员(比如客服)被认为是遭遇AI替代风险极高的两类职业。而过往与最新数据所表明的趋势是:这些职业的初级岗位正在减少,中级和高级岗位数量保持稳定甚至增加。

下方两幅折现图围绕软件开发人员和客户支持专员两项职业,展示了2021~2025年不同年龄段“标准化员工数量”变化趋势。

微信图片_2026-04-27_172947_833

需要指出的是,上述就业变化难以脱离宏观经济趋势单独看待。正如人工智能指数报告所指出的,多个行业失业率均在上升;而与预期相反的一个现象是,受AI影响最小的职业群体的失业率涨幅竟高于受AI影响最大的群体!

公众对AI的整体认知略有改观

另一项令人意外的发现是:过去几年,公众对人工智能的乐观情绪有显著的小幅度增长。

市场研究公司益普索(Ipsos)的调查显示,59%的受访者认为“AI利大于弊”,68%的人表示自己“足够懂AI”,而这两类人的比例在2024年分别为55%和67%。

整体态度更为积极,但也有某些加剧的负面情绪。例如,52%的受访者表示,使用人工智能的产品和服务让他们感到“不安”。

下图展示了2022~2025年公众关于AI的看法的变化。

微信图片_2026-04-27_172951_274

不同国家对AI的态度差异显著。中国以及马来西亚、泰国、印度尼西亚、新加坡等东南亚国家越发趋向积极和乐观。同比变化数据显示,德国、法国与荷兰的乐观情绪增长最强烈,同比增幅分别为12%、10%和10%;哥伦比亚则一反往年趋势,以6%的降幅成为消极变化最大国。

各国对AI监管的信任度差异显著

尽管越来越多人认为人工智能将带来正向影响,但部分国家的民众对于政府监管AI的信任度极低。

值得注意的是,美国领跑AI投资,却在监管信任度方面排名垫底。益普索调查显示,仅31%的美国受访者信任本国政府监管AI的能力。日本和多数欧洲国家的信任度也较低;亚洲和南美国家的信任度最高。

下图展示了各国民众对政府监管AI的信任度。其中新加坡以81%居首,美国以31%垫底。

微信图片_2026-04-27_172955_570

基于前述种种信息,可以看到美国与哥伦比亚呈现反差强烈的矛盾组合:美国老百姓对AI监管极不信任,但多数受访者认为AI利大于弊;哥伦比亚民众则展现很高的监管信任度,其整体态度却显著恶化。

资料来源:

12 Graphs That Explain the State of AI in 2026 AI investment is skyrocketing while AI’s impact on jobs and public perception remains mixed

END