
2026,AGI 真的要来了!
几个小时前,OpenAI API构建者 Sherwin Wu 推荐了一篇红杉资本的文章《2026:这就是AGI》,点评道:非常清晰的2026年AI趋势展望!
Sherwin特别点出了今年的大模型的一个走向:长时程智能体。
文章的作者是红杉资本的两位合伙人:Pat Grady and Sonya Huang。
这篇文章开头就点出:不用等2030年了,2026年AGI就会到来!
红杉表示:长时程Agent在功能层面已经等同于 AGI,而 2026 年,将是它们真正的年份。
言外之意,2026 年将是长时程智能体(long horizon agents)主导的元年。而这恰恰标志着 AGI 的真实到来。
展开剩余92%ps:之前大家提AGI更多是概念上的,而长时程Agent则代表着用于办事的功能性AGI!
值得注意的是,OpenAI 的 Sherwin Wu 特别提到文章中引用的一个 METR 数据,即:
AI 在长任务上的能力每 7 个月翻倍,目前前沿模型已能以 80% 成功率处理约 30 分钟的软件任务。
Wu 在帖子中强调,2026 年人们将广泛采用这类小时级任务。
更为让人吃惊的是,如果这个指数增长曲线成立,文章指出,
若持续下去,到 2028 年,AI 就可以处理一天的专家任务;到 2034 年,是一整年;而到 2037 年,AI甚至可以完成一世纪规模的工作,如交叉分析 20 万项临床试验。
这简直是一件颠覆生产力和创业模式的超级变革。
不止OpenAI,谷歌的AI产品负责人,同样也在评论区表达了对2026的乐观预期,并表示:
2026年,随着模型变得极其有用,历史上感知的AGI与“这些系统将变得非常实用的现实”之间的界限将会变得模糊,成为大家广泛讨论的话题。
文章的硬核之处,在于绕开了AGI的哲学讨论,同时也放弃了技术定义,转而给出一个极度务实的功能性标准:AGI“能不能把事情搞清楚、能不能办成事”。
两位红杉合伙人将“AI进步”分为三个拐点:2022年的预训练知识、2024年底的推理计算,以及近期自主迭代的agent,并以“创始人招募顶尖人才的Agent”的为例,展示了一个非常科幻但又非常真实的处理模糊复杂任务的能力。
注:图片由ChatGPT生成
而这,恰恰是“让AI能把事情想清楚、干成事”的三点要素,也就是达到了AGI的功能定义。
总之,2026–2027, AI 势必会从 Talkers (会说话)变成 doers(能做事)。事实也证明,市面上各个领域也都将涌现出更加出色的专家级Agent。
那么,接下来创业者的机会在哪里呢?
红杉的两位合伙人给出了建议,一定要注意:
你未来卖的不是软件功能,而是“某类工作被持续、可靠完成”的结果。不放思考:哪些工作,真正受限于人类的持续注意力?哪些角色,本质上是一连串可被Agent长期执行的判断与行动?当 UI 从聊天框变成“派活系统”,你的产品还成立吗?
以下是小编为大家梳理的精彩观点,enjoy!
2026:这就是 AGI
准备好上马吧:你对 2030 年的那些畅想,现在在 2026 年就已经变成可能。
多年前,一些顶尖研究者曾告诉我们,他们的目标是 AGI。出于好奇,我们很天真地追问了一句:“那你们怎么定义 AGI?”
他们停顿了一下,彼此试探性地看了看,然后给出了一个后来几乎成了 AI 圈“口头禅”的回答:
“嗯……我们每个人其实都有自己的定义,但等我们真的看到它的时候,就会知道那是 AGI。”这个小插曲非常典型地反映了人们在追求一个清晰、统一的 AGI 定义时所面临的困境——这个定义一直难以捉摸。
定义很模糊,但现实并不模糊。
AGI 已经出现了,就在现在。
编程 Agent 是第一个例子,而且接下来还会有更多。
长时程Agent在功能层面已经等同于 AGI,而 2026 年,将是它们真正的年份。
不被细节束缚
在继续之前,有一点需要先说清楚:我们并不具备提出一个“技术性 AGI 定义”的道德权威。
我们是投资人。我们研究的是市场、创始人,以及二者的碰撞——也就是:商业。
因此,我们给出的不是技术定义,而是功能性定义。每一种新的技术能力,都会引出 Don Valentine 式的经典追问:
“那又怎样?”
答案存在于真实世界的影响之中。
AGI 的功能性定义
AGI,就是“把事情想明白、搞清楚的能力”。就这么简单。
我们当然明白,这样一个不精确的定义,无法解决任何哲学争论。但从实用角度来看,如果你真的是想把一件事做成,你想要的是什么?
你想要的是一个能把事情搞清楚的 AI。
至于它是“怎么做到的”,远不如“它确实能做到”来得重要。
一个能把事情想明白的人类,通常具备三样东西:
一定的基础知识 在这些知识之上进行推理的能力 能够不断尝试、修正,最终逼近答案的能力一个能把事情想明白的 AI,同样具备三样东西:
一定的基础知识(预训练) 在这些知识之上进行推理的能力(推理阶段算力) 能够通过反复迭代找到答案的能力(长时程Agent)第一个要素(知识 / 预训练):造就了 2022 年最初的 ChatGPT 时刻。第二个要素(推理 / 推理阶段算力):随着 2024 年末 o1 的发布而出现。第三个要素(迭代 / 长时程Agent):则是在最近几周才真正到位——随着 Claude Code 以及其他编程Agent跨过了某个关键能力门槛。
真正具备通用智能的人,可以连续数小时自主工作:不断犯错、修正错误,在没有外部指令的情况下判断下一步该做什么。
真正具备通用智能的Agent,现在也开始能做到这一点了。而这,是一件全新的事情。
“把事情搞清楚”,到底意味着什么?
一位创始人给他的智能Agent发了一条消息:
“我需要一个开发者关系负责人。技术水平要高,能赢得资深工程师的尊重;同时又真的喜欢混 Twitter。我们的客户是平台团队。去办吧。”Agent从最显而易见的地方开始入手:
它在 LinkedIn 上搜索“Developer Advocate”和“DevRel”,并把范围限定在以开发者为中心的优秀公司——Datadog、Temporal、LangChain。
它找到了数百个个人资料。但职位头衔,并不能说明谁真正擅长这份工作。
于是,它从“履历”转向“信号”。
它去 YouTube 上搜索技术大会演讲视频,找到了 50 多位演讲者,然后进一步筛选出互动数据表现强的那些人。
接着,它把这些演讲者与 Twitter 账号进行交叉比对。一半的人账号基本不活跃,或者只是转发公司博客。这不符合需求。
但还有十来个人不一样:
他们真的有粉丝基础,会表达真实观点,会回复他人,能获得开发者的互动。而且,他们的内容有品味。
Agent继续收敛范围。它检查这些人在过去三个月里的发帖频率。发帖明显减少,有时意味着对当前工作的投入度下降。
最终,三个名字浮现出来。它开始深入研究这三个人。
其中一个,刚刚官宣了新职位——来不及了。
另一个,是一家刚完成融资公司的创始人——不太可能离开。
第三个,是一家 D 轮公司里的资深 DevRel,而那家公司刚刚裁掉了市场团队。
她最近一次的技术演讲,主题正好就是这家创业公司所瞄准的平台工程领域。
她在 Twitter 上有 1.4 万粉丝,发的还是工程师真的会互动的梗图。她的 LinkedIn,已经两个月没更新了。
Agent为创始人起草了一封邮件:
提到了她最近的那场演讲,点出了她与这家创业公司 ICP 的重合点,还特别强调了小团队所能提供的创作自由度。
邮件的建议目标,是一次轻松的聊天,而不是一场正式的招聘推销。
总耗时:31 分钟。
创始人得到的,是一个“唯一候选人”的短名单,而不是在招聘网站上发一个 JD,然后等待。
这,就是“把事情搞清楚”的含义。
在不确定性中推进目标:提出假设、验证假设、撞墙、调整方向,直到某个关键点突然对齐。
注意,这个Agent没有照本宣科。它运行的,是一个优秀招聘者在脑中反复执行的同一套循环,只不过,它在 31 分钟内不知疲倦地完成了这一切,而且没人教它该怎么做。
当然,需要说清楚的是:Agent仍然会失败。它们会产生幻觉、丢失上下文,有时还会自信满满地朝着完全错误的方向一路狂奔。
但趋势已经非常明确:能力在快速逼近,而这些失败,也正在变得越来越可修复。
我们是如何走到今天的?从推理模型到长时程Agent
在去年的一篇文章中,我们写到:推理模型是 AI 领域最重要的下一块新前沿。长时程Agent在此基础上更进一步,让模型不仅能思考,还能在时间维度上采取行动、不断迭代。
让一个模型“多想一会儿”并不容易。基础的推理模型,通常只能思考几秒钟或几分钟。
目前看起来,有两条不同的技术路径都在奏效,而且扩展性很好:强化学习,以及智能体框架。前者通过在训练过程中不断“推着模型一把”,让它学会在更长时间内保持专注、不跑偏;后者则围绕模型已知的局限性进行工程设计,比如记忆交接、信息压缩等。
强化学习的规模化,主要发生在研究型实验室中。在这一方向上,它们已经取得了显著进展,从多智能体系统到可靠的工具使用能力。
而优秀Agent框架的设计,则属于应用层的范畴。今天市场上一些最受欢迎的产品,正是因为它们在Agent框架上的工程质量异常出色而被记住的,比如 Manus、Claude Code、Factory 的 Droids 等。
如果说现在只能押注一条指数级增长曲线,那一定是长时程Agent的性能
METR 一直在细致追踪 AI 完成长时任务的能力,其进展速度呈指数级增长,大约每 7 个月翻一倍。沿着这条指数曲线推演,到 2028 年,Agent应该可以稳定完成需要人类专家一整天才能完成的任务;到 2034 年,是一整年;而到 2037 年,甚至可能是一整个世纪。
那又意味着什么?
很快,你就可以“雇佣”一个Agent了。这本身就是判断 AGI 是否到来的一个试金石(致谢:Sarah Guo)。
今天,你已经可以“雇佣” GPT-5.2、Claude、Grok 或 Gemini。接下来,还会有更多具体形态出现:
在医疗领域,OpenEvidence 的 Deep Consult 像一位专科医生;
在法律领域,Harvey 的Agent像一名律师事务所的助理;
在网络安全领域,XBOW 像一名渗透测试工程师;
在 DevOps 领域,Traversal 的Agent像一名 SRE;
在 GTM(市场进入)领域,Day AI 同时充当 BDR、售前工程师和营收运营负责人;
在招聘领域,Juicebox 像一名招聘官;
在数学领域,Harmonic 的 Aristotle 像一位数学家;
在半导体设计领域,Ricursive 的Agent像芯片设计师;
而在 AI 研究本身,GPT-5.2 和 Claude 已经在扮演 AI 研究员的角色。
从“会说话的人”到“能干活的人”:对创始人的意义
这对创始人而言,影响极其深远。
2023 和 2024 年的 AI 应用,本质上是“会说话的”。其中有些对话能力非常高级,但它们真正带来的影响是有限的。
2026 和 2027 年的 AI 应用,将是“能干活的”。它们会更像同事。使用方式会从每天用几次,变成全天候、每天不间断地使用,而且往往会同时运行多个实例。用户不再只是零星地省下几个小时,而是从一个独立贡献者,转变为管理一支Agent团队的人。
还记得之前那些关于“售卖工作本身”的讨论吗?现在,这件事变成现实了。
你到底能完成哪些工作?长时程Agent的能力,与一次性的模型前向推理有着本质区别。
在你的行业里,长时程Agent会解锁哪些全新的能力?哪些任务真正需要持续性投入,而瓶颈恰恰在于“长时间保持注意力”?
你要如何把这些工作产品化?当“工作的界面”从聊天机器人演进为Agent委派,你所在领域里的应用交互方式会如何变化?
你能否把这类工作做到稳定可靠?你是否在近乎偏执地优化你的Agent框架?是否建立了强有力的反馈闭环?
你又该如何销售这些工作?你能否围绕“价值”和“结果”来定价和打包?
准备上马吧。现在,是乘上长时程Agent指数曲线的时候了。
今天,你的Agent或许只能稳定工作大约 30 分钟。但很快,它们就能完成相当于人类一整天的工作;最终,甚至是一整个世纪的工作量。
当你的计划尺度被拉长到“世纪”,你还能实现什么?
一个世纪,意味着 20 万项从未被系统交叉分析过的临床试验;
一个世纪,意味着有史以来所有客服工单终于被完整挖掘出真正的信号;
一个世纪,意味着整个美国税法体系被重新整理、重构为一个逻辑自洽的整体。
你原本最激进的路线图,现在,已经变成了现实可行的版本。
发布于:海南省科元网提示:文章来自网络,不代表本站观点。