12张图表解读2026年AI发展现状和趋势……斯坦福大学发布《2026年人工智能指数报告》

顶尖AI模型正加速升级，头部AI企业则正加速上市，比如准备于2026年下半年提交首次公开募股(IPO)申请的OpenAI和Anthropic。

而在另一边，是大众对AI喜忧参半、爱恨交织的复杂情绪，以及部分地区已经爆发的人-机矛盾，例如，美国的某些地方政府开始限制甚至禁止新建数据中心。

值得追踪的AI领域信息可谓纷繁，有没有一份总结报告可为大家梳理行业全貌、总结发展趋势？斯坦福大学以人为本人工智能研究院（Stanford HAI）4月13日发布的《2026年人工智能指数报告》（The 2026 AI Index Report），值得追看。

这份长达400多页的报告包含数十个数据指标与图表，从基准测试得分、投资规模、公众认知等多个维度，全面解读AI发展现状。IEEE Spectrum杂志的编辑近期提炼出该报告的关键内容，配合12幅数据图表，总结了全球AI发展的最新趋势。

美国企业领跑AI模型开发

过去十年，美国是人工智能模型领域的带头大哥，且直到2025年依然优势稳固。

长期关注AI发展趋势的多学科研究机构Epoch AI此前发布数据称：2025年“美产”的“知名”AI模型(发布机构的总部位于美国)数量高达50个；中国机构进步神速，在2025年贡献了总计30个杰出模型；欧洲方面则只有2个。

下图展示了2003～2025年美国、中国、欧洲发布的知名AI模型数量变化趋势。

另一项关键的长期趋势是企业成为开发主力。这里引用Epoch AI的统计数据：2025年有87个知名模型出自企业，其他来源的仅7个。企业占据标杆产品总量的90%以上；此比例在2015年不到50%，在2003年则为0。因而可以认为，如今几乎所有知名AI模型均由企业而非学术或政府机构研发。

中国在机器人赛道一骑绝尘

美国发布了最多模型，中国则部署了最多机器人，且同样领衔优势巨大。

根据国际机器人联合会（IFR）的数据，2024年中国新增工业机器人安装量达29.5万台，日本与美国的新装量分别约为4.45万台和3.42万台。

下图展示了2011~2024年德国、韩国、美国、日本和中国的每年新增工业机器人安装量。可以看到中国遥遥领先。

自2022年以来，全球AI算力年增长3.3倍

斯坦福大学最新的人工智能指数报告提供了大量关于AI建设的亮眼数据。不过要说亮眼，Epoch AI统计的全球人工智能总算力数据可谓璀璨耀眼。

下图基于Epoch AI的数据绘制，展示了英伟达、谷歌、亚马逊、AMD、华为的AI芯片在全球算力中占据的份额。

如图所示，以英伟达H100芯片算力为基准，自2022年以来，全球人工智能算力每年增长超3倍；自2021年以来，总算力已增长30倍。

此外，英伟达一直独占算力鳌头，是算力扩张浪潮中的最大受益者，其GPU占当前全球AI总算力的60%以上，而自主设计AI专用硬件的亚马逊和谷歌分别位列第二、三位。

AI模型训练造成巨量碳排放

斯坦福人工智能指数报告往年就已指出AI训练的碳排放问题——眼下,此问题仍持续加剧并引发担忧。

报告估计，训练诸如Grok 4(由xAI公司创建)这样的前沿大语言模型，会带来远高于往年估算值、超7.2万吨的二氧化碳当量排放。OpenAI的GPT-4预计造成5184吨碳排放，Meta的Llama 3.1 405B则会产生8930吨。

下图展示了2012~2025年间多款知名AI模型训练产生的预估碳排放量。2025年的碳排放量因Grok 3和Grok 4模型而大幅飙升。

不过，该指数报告的指导委员会联合主任雷 · 佩罗特(Ray Perrault)认为估算出的结果需谨慎解读：“Grok模型的碳排放数据高度依赖公开报道(如《福布斯》杂志文章)、xAI官方声明以及其他未经核实的信息，因此其中引入了一些不确定性。Epoch AI独立估算的Grok 4碳排放更惊人，高达约14万吨二氧化碳当量。”

人工智能推理环节的碳排放也持续上升，当然，不同模型差异显著。报告显示，推理效率最低的模型的碳排放量达最高效模型的10倍以上。据估计，DeepSeek-V3模型响应“中等长度”提示时的功耗约23瓦，Claude 4 Opus的约为5瓦。

大语言模型飞速越过各类新基准测试

过去10年间，AI模型的能力以惊人速度提升且仍保持加速进步的势头。多模态大语言模型表现突出，几乎做到了“在新的基准测试刚推出来时就马上攻克它们”。智能体人工智能(Agentic AI)的性能跃升更是令人惊奇。

不妨看看下面这份基于人工智能指数报告的数据而绘制的图表。如图所示，各项基准测试旨在衡量AI各维度的技术性能，以人类表现为参考基准，展示了2012～2025年间AI各项性能的进步情况。

可以看到，在图像分类方面，AI很早便超越人类；进入2020年代后，模型在多项任务中接近甚至超越了人类基准。图表最右侧两条极为陡峭曲线分别代表OSWorld基准测试(评估自主操作计算机的能力)和SWE-Bench Verified软件工程基准测试(评估自主编写代码的能力)。

另一方面，在名为“人类终极测试”(Humanity’s Last Exam)的基准测试中，AI也进步神速。

该测试包含各领域专家设计的行业最难问题。2025年的斯坦福人工智能指数报告显示，排名第一的OpenAI o1模型正确率仅 8.8%；时间并未过去多久，该数字已升至38.3%——而且它还够不上最新水平，因为2026年4月表现最佳的模型，如Anthropic公司的Claude Opus 4.6和谷歌的Gemini 3.1 Pro，都已越过50%的正确率水平。

不过佩罗特也提醒道，基准测试成绩未必反映实际应用效果：“我们普遍缺乏标准用以衡量系统(或智能体)在特定场景下应有的表现水平。举例来说，某AI在某法律推理基准测试里达到75%的准确率，无法说明该AI可于法律实务中提供多高水平的帮助。”

AI在医学领域研究取得进展

人工智能基准测试的进步似乎已体现于医学领域：AI应用快速普及行业，其中医学研究方面的应用尤为突出。

通过下方柱状图，可以看到2018年至2025年间，有关AI用于新药研发的论文的数量增长趋势；过去两年，相关论文数量翻倍；眼下多模态生物医学AI(用于联合分析医学影像与文本)相关论文数量则是两年前的2.7倍。

大语言模型仍存在时钟认读困难

AI虽已在部分赛道大显神威，却依旧难以胜任诸如认读时钟、理解日历之类的日常任务。（参阅大模型为什么不会数数？陈小平深入解析大模型的发展和关键问题 | 锚点）

旨在衡量多模态大语言模型识别模拟时钟能力的ClockBench测试显示，表现最佳的GPT-5.4模型仅取得50%左右的正确率。大多数模型的表现相当糟糕，比如在“人类终极测试”中拔尖的Claude Opus 4.6面对时钟却只有8.9%的认读正确率。

下图对比了不同大语言模型在执行模拟时钟认读任务时的表现，其准确率从仅8.9%到50.6%不等。

虽说现实场景极少要求大语言模型执行此类任务，但这反映的普遍问题很关键。如佩罗特所言：“研究表明，当系统被问到结合了语言与其他模态(如图像或语音中的语调)的问题时，语言部分所承担的任务权重大到令人惊讶，甚至令非语言信息被忽略。”

AI相关投资在2025年创历史新高

AI模型的性能表现与AI企业的融资金额正携手并进。专注人工智能分析的Quid公司发布数据称，2025年的AI相关投资再创新高，达5810亿美元以上。

新纪录是2024年(2530亿美元)的两倍多，也远超2021年老纪录(3600亿美元)。此外，不同于2021年并购交易主导投资的情况，2025年的新高由针对AI企业的私人投资拉动。

下图展示了2013~2025年全球范围内AI相关的企业投资(按投资活动类型划分)的变化趋势。可以看到2021年的增长高峰、2022~2024年间的回落以及2025年大幅飙升再创新高。

值得一提的是，大部分AI资本都流向了美国，比如2025年总金额中的3440亿美元。

软件工程师全面拥抱AI

人工智能的普及不只关联巨额资本，还有GitHub上广大爱好者们的参与热情。截至2025年，代码托管平台GitHub的AI相关项目数量已猛增至558万个，达2020年水平的大约5倍，较2024年增长23.7%。

下图展示了2011～2025年GitHub上AI项目数量从0到558万个的变化。

上述数据并非AI生成泛滥、低质项目横行的结果，因为其中“获得至少10个星标的AI项目数量增速与整体增速一致”“AI项目总星标数的增速也近似整体增速”，这意味着人类的普遍参与。值得一提的是，开源智能体AI软件OpenClaw已获得35.2万个星标。(星标数量反映项目质量。)

计算机科学对AI的热情同样高涨。过去10年，人工智能相关的计算机科学论文数量从10.2万篇增至25.8万篇。截至2024年，超68%的论文来自学术界，政府与企业分别贡献了约 11.5%和12.5%。机器学习、计算机视觉、生成式AI领域的论文增长最为显著。

AI对就业的总体影响仍不明朗

生成式AI的兴起伴随着就业焦虑，由于全球头部AI企业的CEO们作出悲观预测，这种情绪更是不断加剧。不过目前相关数据只可用“喜忧参半”来形容。

软件开发人员和客户支持专员（比如客服）被认为是遭遇AI替代风险极高的两类职业。而过往与最新数据所表明的趋势是：这些职业的初级岗位正在减少，中级和高级岗位数量保持稳定甚至增加。

下方两幅折现图围绕软件开发人员和客户支持专员两项职业，展示了2021～2025年不同年龄段“标准化员工数量”变化趋势。

需要指出的是，上述就业变化难以脱离宏观经济趋势单独看待。正如人工智能指数报告所指出的，多个行业失业率均在上升；而与预期相反的一个现象是，受AI影响最小的职业群体的失业率涨幅竟高于受AI影响最大的群体！

公众对AI的整体认知略有改观

另一项令人意外的发现是：过去几年，公众对人工智能的乐观情绪有显著的小幅度增长。

市场研究公司益普索(Ipsos)的调查显示，59%的受访者认为“AI利大于弊”，68%的人表示自己“足够懂AI”，而这两类人的比例在2024年分别为55%和67%。

整体态度更为积极，但也有某些加剧的负面情绪。例如，52%的受访者表示，使用人工智能的产品和服务让他们感到“不安”。

下图展示了2022~2025年公众关于AI的看法的变化。

不同国家对AI的态度差异显著。中国以及马来西亚、泰国、印度尼西亚、新加坡等东南亚国家越发趋向积极和乐观。同比变化数据显示，德国、法国与荷兰的乐观情绪增长最强烈，同比增幅分别为12%、10%和10%；哥伦比亚则一反往年趋势，以6%的降幅成为消极变化最大国。

各国对AI监管的信任度差异显著

尽管越来越多人认为人工智能将带来正向影响，但部分国家的民众对于政府监管AI的信任度极低。

值得注意的是，美国领跑AI投资，却在监管信任度方面排名垫底。益普索调查显示，仅31%的美国受访者信任本国政府监管AI的能力。日本和多数欧洲国家的信任度也较低；亚洲和南美国家的信任度最高。

下图展示了各国民众对政府监管AI的信任度。其中新加坡以81%居首，美国以31%垫底。

基于前述种种信息，可以看到美国与哥伦比亚呈现反差强烈的矛盾组合：美国老百姓对AI监管极不信任，但多数受访者认为AI利大于弊；哥伦比亚民众则展现很高的监管信任度，其整体态度却显著恶化。

资料来源：

12 Graphs That Explain the State of AI in 2026 AI investment is skyrocketing while AI’s impact on jobs and public perception remains mixed

END

新闻动态

12张图表解读2026年AI发展现状和趋势……斯坦福大学发布《2026年人工智能指数报告》

新冠疫情的3种发展趋势预测

2021年，有哪些值得关注的太空大事件？

新冠病毒，它是什么颜色？

地球上最致命的12种病毒

新冠病毒究竟起源于哪里？自然起源说，生物武器说，实验室泄漏说……

新冠病毒疫情将会怎样结束？

一栋楼里有人确诊怎么办？

14世纪，人类就开始用“隔离”阻断传染病

新发现：新冠轻症患者10天后不再具有传染性

新发现：新冠病毒最爱入侵哪几种细胞？

α、β、γ……新冠病毒变种有简洁的新名字了

奶酪好吃有营养，但有人却说脂肪多、含盐量高对健康不利…