Featured

介绍Trio——一个用于物理操作的世界模型

IoTeX Team

19 Jun 2026 • 9 min read

IoTeX 关于 Trio、现实世界的 AI 和我们对反路线图第一个挑战的回答的状态更新。

在三月份，IoTeX 发布了其 2026 的反路线图 — 三个挑战而不是时间表。挑战 1 是生存性的：成为 AI 与物理世界的接口。我们的答案是明确的 — 视觉优先，让任何直播流成为智能 你物理操作可以实时作用于它。这个答案是 Trio，一个为物理操作构建的世界模型，由 IoTeX 背后的核心团队在 MachineFi Lab 构建。我们迎接了这个挑战，现在我们正在交付。

在历史上，物理世界一直由人类运行。一个人观察发生的事情，判断其含义，然后采取行动 — 驾驶卡车，操作生产线，巡视车间。感知、预测、行动：这个循环一直需要人类参与。

AI 首先改变了数字世界 — 语言、代码、图像。现在它开始着眼于物理世界。一个 AI 在实时交通中驾驶汽车。一个 AI 通过想象它如何玩来学习视频游戏。一个机器人在折叠一堆衣物。所有这些背后的部分 — 让机器观察情况、想象接下来会发生什么并采取行动的东西 — 是一个世界模型。 Trio 是一种新的世界模型：它使得 AI 能够实时观察整个操作。

那些其他模型并不是故意设计得那么狭窄：一个汽车、一个游戏、一个机器人、一个任务。但最大的物理表面已经连接并在观察 — 每个仓库、商店、工厂和车间的摄像头……一个在这些设备上运行的世界模型 — 针对整个操作，实时地 — 正是挑战 1 所要求的接口。这正是 Trio 所构建的目的。

Trio 是什么

注意那四者的共同点：每个模型只运行一件事情 — 一辆车、一个游戏、一个机器人、一个虚拟世界。它们都不运行一个操作。而这正是物理经济大多数活动的所在地 — 在午餐高峰时段的餐厅，在汽车回转洗车的洗车场，在装载卡车的仓库，在繁忙的商店里，在生产线上的工厂 — 有数十人、车辆和机器同时在不停地活动，全天候通过摄像头进行监控，而无人有时间去观察。

这就是 Trio 的目的。 Trio 是我们针对物理操作的世界模型 — 不是单一的庞大模型，而是一个 由三个产品组成的套件，将实时的操作进行感知、预测和行动。在语言模型学习文本的工作原理时，Trio 学习一个地方的工作原理 — 它里面有什么、怎么移动、接下来会发生什么 — 针对你的操作，利用你已经拥有的摄像头和传感器。我们并不取代语言模型；我们为它们提供物理世界。

Trio 分三个阶段运行这个循环 — 并且按这个顺序交付。 感知如今已实时交付；预见和行动是接下来要做的。

感知 → 预测 → 行动

感知 — 观察 · 理解 — Trio-Retina · Trio-Lumen — 现在可用
预测 — 预见 · 提前推理 — 下一个
行动 — 关闭循环 — 稍后

今天，这两个产品是现实并且在你的手中。 Trio-Retina （观察）将任何摄像头视频流转化为一个标准的实时状态 — 谁在什么地方，他们在做什么，去哪里。 Trio-Lumen （理解）使其能够用简单的英语进行编程 — “在非工作时间标记任何在装卸区的人” — 监视每一帧，并将其转化为事件和警报。感知和理解，今天即可交付。

pip install trio-retinaTrio-Retina 是开源的——可以在您自己的机器上运行，或者在Playground中实时体验。

这两个是其余部分构建的基础。前瞻与行动——在问题发生之前预见麻烦，然后在现场采取行动——是循环的下一个阶段。这个顺序是经过深思熟虑的：您无法预见您尚未看到的，因此我们先建立了视觉。

在开放互联网中训练的模型了解世界的样子。Trio 学习您的操作是如何运行的。

在一个仓库中它的样子

去掉抽象。一个装卸码头，在轮班中。叉车从一个停车区倒退出来；一个工人从两个货架之间走出，走在交叉的路径上。两者尚未看到彼此。

看见——Trio-Retina 在摄像头旁边的小盒子上运行，已经将叉车和人这两个物体追踪到：它们的位置，以及各自的去向。

预见——Trio 的世界模型将接下来的两秒时间向前推进。这两条路径相交。它曾见过此确切几何结构的糟糕结局。

行动——一个确定性的边缘安全门在大约 50 毫秒内触发交叉警报——比任何一个人都更快——并指示叉车停止。这是一次近乎失误，而不是事故报告。

这就是整个论点在一个画面中：不是在事件发生后您调出的视频，而是在事件发生的瞬间做出的决策。

一个真实世界模型——以及我们的不同之处

Trio 处于一个快速移动的领域。世界模型是许多 AI 的优秀头脑目前所聚焦的地方。这个理念追溯到 Ha & Schmidhuber 的世界模型（2018）——一个 agent 学习其环境的简约模型并在其中"梦见"推出。Yann LeCun 认为潜在空间中的预测世界模型（他的 JEPA）是通向自主机器智能的缺失部分；李飞飞称这个前沿为空间智能，而她的World Labs构建生成可探索的 3D 世界的模型。这个领域大致分为几个阵营：

潜在预测——V-JEPA 2（Meta）和Dreamer系列在潜在空间中学习动态并在其中规划。
生成与交互世界——Genie 3 （DeepMind），NVIDIA Cosmos，以及 World Labs 的 Marble 生成和想象环境。
驾驶——特斯拉 FSD和Wayve 的 GAIA-2在地球上运行着最多的世界模型——给一辆车使用。
机器人技术——Physical Intelligence、Skild AI，和Figure为一个单一机器人构建基础模型。

几乎所有这些要么想象或模拟一个世界，要么建模一个单一 agent的自我中心领域——一辆车，一个机器人。Trio 是唯一一个在实时、真实的第三方操作中运行的模型——整个仓库或商店，同时处理许多人和机器——并实时对其做出反应。

两个轴线使Trio与众不同。 在技术上 — 它小、快且专门化：在边缘进行实时处理，每次查询的底价接近 $0.004，按决策计费，基础设施被冻结，加上每个站点的小适配器（LoRA，在GPU小时中训练）而不是在每帧上重新运行一个巨大的通用模型。在OVBench流媒体基准测试中，将一个开放权重模型包裹在Trio的栈中，仅从架构的角度提高了准确度 +2.3个百分点，其感知流没有前沿模型设置的固定分钟限制。 在场景方面 — 它运行在已经存在的操作上，并立即对其进行处理，而不是想象一个世界、驾驶一辆汽车或移动一个机器人。

Trio的构建方式

对于技术团队：这是Trio如何保持快速和便宜，以便在每台摄像头上全天运行。如果你想了解操作故事，请快速浏览 — 回报在最后一行。

五个原则将系统整合在一起：每个层之间的接口都是一个强类型、可检查的场景图（从不使用不透明的向量）；一个路由器拥有成本，持续运行便宜的层，仅在需要时唤醒昂贵的推理；工具是双向的，因此推理层可以指挥下层重新检查或重新模拟；每个决策都附带其证据，以便操作员可以检查、争议和覆盖它；而基础模型在冻结的同时，小的每个部署适配器 — LoRA模块和跨层融合适配器，在GPU小时内训练而不是完整的重新训练 — 让每个站点专业化。

这些原则实现为七个层面 — 六个在单个决策的路径上，加上跨所有层面的治理：感知（摄像头·麦克风·遥测 → 一个带时间戳的流） → 边缘感知（检测 + 跟踪，Jetson级，紧邻摄像头） → 预测（世界模型：潜在状态·惊讶·推出） → 融合与记忆（场景图 + 唤醒推理的路由器） → 推理（代理 → 与其证据配对的决策） → 行动与集成（警报·机器人/PLC·独立安全规则），以及 MLOps与治理 跨越所有层面。

由于感知和预测在本地运行，只有紧凑的符号和潜在状态传输到云中 — 从不传输原始视频 — Trio按决策计费，而不是按每帧的每个令牌计费。

Trio的运行场所

仓库只有一帧。餐厅、洗车店、商店、我们开启的工厂 — 同一个模型指向任何在今天与人工操作员一起在摄像头上运行的操作，提升他们现有系统所遗漏的内容：

特许经营操作 — 排队管理、减少缩水、员工合规、客户流量分析。
安全与访问 — 入侵检测、闲逛分析、防尾随、非工作时间的执法。
物流与仓储 — 装卸码头状态、车辆停留、个体防护装备合规、跨院子和楼层的安全标准操作规程执行。
制造与工业 — 线路监控、缺陷检测、每条生产线和机器区域的危险警报。
智慧城市 — 停车、交通流量、公共安全、跨街道和交通运输的基础设施监控。
医疗与生命科学 — 跌倒检测、占用模式、跨住院病房和校园的行为监测。
酒店与场馆 — 人群管理、VIP区域访问控制、大规模实时事件响应。
关键基础设施 — 24/7周边情报、入侵检测、对不能错过警报的场所的自主响应。

我们所建立的 — 以及接下来要做的

Trio不再是白板上的论文。 v1.0技术报告正式化了整个系统 — 感知-预测-行动栈、五个原则、七个层面 — 包括两个完全工作的参考领域（洗车店和仓库），连同上面的叉车与行人近失误，捕捉到的确定性边缘安全门在大约 50毫秒 内触发，远低于100毫秒的上限。 Trio-Retina是开源的（pip install trio-retina），而 游乐场已上线 — 打开它，观看Trio在你的浏览器中读取真实视频素材。

三大力量使得现在成为时刻：边缘硅可以最终实现实时操作推理而无需云端往返；多实体场景理解已经跨越了单对象检测从未接近的研究门槛；物理环境的操作者准备好了迎接今天AI中可能最低价的能力——在他们已经拥有的摄像头上建立世界模型，而无需新硬件。在这里，Trio向上成长——从今天的观察和理解走向未来的预测，并在适当的时候采取行动。

今天就开始使用Trio

有两种方式进行——现在都可以使用：

构建它 · 开发者—— GitHub上的Trio-Retina。 开源感知层——与模型无关的状态层，将任何检测器转换为一个标准的事件流加上潜在状态。 pip install trio-retina 并在你的机器上运行它。

试用它 · 操作者——平台上的Trio-Lumen。 在浏览器中查看你的操作——Trio将真实视频作为带状态的对象和流量中的人群进行读取，然后指向你自己的摄像头，用简单的英语提问。

Trio、IoTeX与机器经济

Trio并非凭空而来。它建立在十年的IoTeX基础之上——基础设施和连接设备网络、设备身份（ioID）、可验证的机器数据（Quicksilver）以及现实世界AI实现所需的机器对机器支付（x402），以便在数据、身份和信任的支持下落地到现实世界。而Trio则是将IoTeX的愿景具体化的产品：挑战1旨在让IoTeX成为AI观察、验证和在物理世界中采取行动的接口，而Trio正是观察。

将其结合起来，你就有了反路线图所描述的机器经济。机器需要三样东西：去看世界，去信任他们所看到的东西，并去采取行动。IoTeX提供去中心化的信任，而Trio则提供用以感知物理现实的眼睛和耳朵，以及用于推理和采取行动的大脑。

持续交付...

挑战1现在有了答案。让AI在物理世界上拥有视角并使其真实——这就是我们的2026年反路线图所面临的第一个也是最根本的挑战。我们找到了路径，并从那时起全速建设。Trio是真实世界的AI，能够交付，而不是幻灯片软件——它在现有的摄像头上运行，并从第一天起将其转化为价值。

官方发布临近，我们承诺的未来几乎就在我们手中。感谢你与我们一起建设并关注进展。

—— IoTeX团队

关于世界模型的进一步阅读

D. Ha, J. Schmidhuber. 世界模型。 2018.
Y. LeCun. 通往自主机器智能的道路。 2022.（介绍JEPA)
F.-F. Li. 从文字到世界：空间智能是AI的下一个前沿。 2025.（世界实验室）
D. Hafner, W. Yan, T. Lillicrap. 在可扩展世界模型中训练代理（DreamerV4）。 2025.
Meta AI. V-JEPA 2。 2025.
DeepMind. Genie 3。 2025.
NVIDIA. 物理AI的宇宙世界基础模型平台。 2025.
Wayve. GAIA-2：可控的多摄像头世界模型。 2025.