Featured

Giới thiệu Trio — Một Mô Hình Thế Giới cho Các Hoạt Động Vật Lý

IoTeX Team

19 Jun 2026 • 9 min read

Cập nhật trạng thái IoTeX về Trio, AI trong thế giới thực, và câu trả lời của chúng tôi cho thách thức đầu tiên của Kế hoạch chống lại.

Vào tháng 3, IoTeX đã công bố Kế hoạch chống lại cho năm 2026 — ba thách thức thay vì một thời gian. Thách thức 1 là thách thức tồn tại: trở thành giao diện của AI đối với thế giới vật lý. Câu trả lời của chúng tôi rất cụ thể — tầm nhìn trước tiên, biến bất kỳ luồng trực tiếp nào thành trí tuệ mà các hoạt động vật lý của bạn có thể hành động ngay lập tức. Câu trả lời đó là Trio, một mô hình thế giới cho các hoạt động vật lý, được xây dựng tại MachineFi Lab bởi đội ngũ cốt lõi của IoTeX. Chúng tôi đã nhận thách thức và giờ đây chúng tôi đang chuyển giao.

Trong suốt lịch sử, thế giới vật lý đã được điều hành bởi con người. Một người quan sát những gì đang xảy ra, đánh giá ý nghĩa của nó và hành động dựa trên đó — lái xe tải, làm việc trên dây chuyền, đi bộ trên sàn. Nhìn nhận, dự đoán, hành động: vòng lặp đó luôn cần một con người ở trong đó.

AI đã thay đổi thế giới kỹ thuật số trước tiên — ngôn ngữ, mã, hình ảnh. Bây giờ nó đang bắt đầu vào thế giới vật lý. Một AI lái xe ô tô qua giao thông trực tiếp. Một AI học một trò chơi video bằng cách tưởng tượng cách mà nó chơi. Một robot gấp một chồng quần áo. Phần nằm dưới tất cả chúng — điều cho phép một máy móc quan sát một tình huống, tưởng tượng điều gì sẽ xảy ra tiếp theo và hành động dựa trên đó — là một mô hình thế giới. Trio là một loại mô hình thế giới mới: cái mô hình cung cấp cho AI khả năng nhìn vào toàn bộ hoạt động, trực tiếp.

Các cái khác là hẹp có chủ đích: một xe, một trò chơi, một robot, một nhiệm vụ. Nhưng bề mặt vật lý lớn nhất của tất cả đã được kết nối và đang quan sát — các camera trên mọi kho hàng, cửa hàng, nhà máy và sàn xe… Một mô hình thế giới chạy trên các camera đó — trên toàn bộ hoạt động, trực tiếp — chính là giao diện mà Thách thức 1 yêu cầu. Đó là lý do Trio được xây dựng.

Trio Là Gì

Chú ý những gì bốn cái đó có điểm chung: mỗi cái chạy một thứ — một xe, một trò chơi, một robot, một thế giới ảo. Không cái nào trong số đó chạy một hoạt động. Và đó là nơi mà phần lớn nền kinh tế vật lý thực sự sống — một nhà hàng vào giờ ăn trưa, một trạm rửa xe đang chạy xe qua các khu vực của nó, một kho hàng đang tải xe tải, một cửa hàng đang làm việc trên sàn của nó, một dây chuyền nhà máy — những nơi có hàng chục người, xe cộ và máy móc đang di chuyển cùng một lúc, quanh năm suốt tháng, tất cả trên các camera mà không ai có thời gian để theo dõi.

Đó là lý do Trio được xây dựng. Trio là mô hình thế giới của chúng tôi cho các hoạt động vật lý — không phải là một mô hình khối duy nhất, mà là một bộ ba sản phẩm mà cùng nhau nhìn nhận, dự đoán và hành động trên một hoạt động trực tiếp. Nơi một mô hình ngôn ngữ học cách văn bản hoạt động, Trio học cách một địa điểm hoạt động — cái gì có trong đó, nó di chuyển như thế nào, điều gì xảy ra tiếp theo — cho hoạt động của bạn, từ các camera và cảm biến mà bạn đã có. Chúng tôi không thay thế các mô hình ngôn ngữ; chúng tôi cung cấp cho chúng thế giới vật lý.

Trio thực hiện vòng lặp đó trong ba giai đoạn — và nó được chuyển giao theo thứ tự đó. Nhìn nhận hiện tại; dự đoán và hành động là những gì tiếp theo.

NHÌN NHẬN → DỰ ĐOÁN → HÀNH ĐỘNG

Nhìn nhận — Nhìn · Hiểu — Trio-Retina · Trio-Lumen — Đang hoạt động ngay bây giờ
Dự đoán — Dự đoán · suy luận trước — Tiếp theo
Hành động — Đóng vòng lặp — Sau

Ngày hôm nay, hai trong số đó đã hiện thực và nằm trong tay bạn. Trio-Retina (Nhìn) biến bất kỳ luồng camera nào thành một lần đọc tiêu chuẩn, trực tiếp về những gì đang xảy ra — ai ở đâu, họ đang làm gì, họ đang đi đâu. Trio-Lumen (Hiểu) làm cho điều đó có thể lập trình bằng tiếng Anh đơn giản — "đánh dấu bất kỳ ai ở bến hàng sau giờ làm việc" — theo dõi mọi khung hình quanh năm suốt tháng và chuyển đổi nó thành sự kiện và cảnh báo. Nhìn nhận và hiểu biết, được chuyển giao hôm nay.

pip install trio-retinaTrio-Retina là mã nguồn mở — chạy trên máy của bạn, hoặc thử nó trực tiếp trong Playground.

Hai thứ này là nền tảng mà phần còn lại được xây dựng trên đó. Nhìn xa và hành động — dự đoán rắc rối trước khi nó xảy ra, sau đó hành động tại hiện trường — là những giai đoạn tiếp theo của vòng lặp. Thứ tự này là có chủ đích: bạn không thể thấy trước điều bạn chưa thấy được, vì vậy chúng tôi đã xây dựng sự nhìn nhận đầu tiên.

Một mô hình được đào tạo trên internet mở học cách thế giới trông như thế nào. Trio học cách hoạt động của bạn chạy ra sao.

Nó Trông Như Thế Nào Trong Một Nhà Kho

Bỏ đi sự trừu tượng. Một bến tải, giữa ca. Một chiếc xe nâng lùi ra khỏi một khoang; một công nhân bước ra từ giữa hai giá trên một lối đi cắt ngang nó. Cả hai chưa thể nhìn thấy nhau.

Nhìn thấy — Trio-Retina, chạy trên một hộp nhỏ bên cạnh camera, đã có cả hai như những đối tượng được theo dõi: chiếc xe nâng và người, vị trí của họ, và nơi mỗi người đang hướng tới.

Dự đoán — mô hình thế giới của Trio tiến hai giây tiếp theo về phía trước. Hai lối đi giao nhau. Nó đã thấy hình học chính xác này kết thúc không tốt trước đây.

Hành động — một cổng an toàn xác định kích hoạt cảnh báo giao nhau trong khoảng 50 mili giây — nhanh hơn bất kỳ ai có thể phản ứng — và chiếc xe nâng được ra hiệu để dừng lại. Một gần va chạm thay vì một báo cáo sự cố.

Đó là toàn bộ luận điểm trong một khung hình: không phải là video bạn tìm thấy sau khi điều gì đó xảy ra, mà là một quyết định được đưa ra ngay trước khi điều đó xảy ra.

Một Mô Hình Thế Giới Thực — và Cách Chúng Tôi Khác Biệt

Trio nằm trong một lĩnh vực chuyển động nhanh. Các mô hình thế giới là nơi nhiều nhà trí tuệ tốt nhất của AI hiện đang hướng đến. Ý tưởng này bắt nguồn từ World Models của Ha & Schmidhuber (2018) — một tác nhân học một mô hình nhỏ gọn của môi trường và "mơ" các triển khai bên trong đó. Yann LeCun lập luận rằng một mô hình thế giới dự đoán trong không gian tiềm ẩn (mô hình JEPA của ông) là mảnh ghép còn thiếu trên con đường đến trí tuệ máy tự động; Fei-Fei Li gọi biên giới trí tuệ không gian, và World Labs phát triển các mô hình tạo ra các thế giới 3D có thể khám phá. Lĩnh vực này chia thành các trại:

Dự đoán tiềm ẩn — V-JEPA 2 (Meta) và dòng Dreamer học động lực trong không gian tiềm ẩn và lập kế hoạch bên trong chúng.
Các thế giới sinh ra & tương tác — Genie 3 (DeepMind), NVIDIA Cosmos, và Marble của World Labs hình dung và tạo ra môi trường.
Lái xe — Tesla FSD và GAIA-2 của Wayve chạy các mô hình thế giới được triển khai nhiều nhất trên Trái Đất — cho một chiếc xe.
Robot — Physical Intelligence, Skild AI, và Figure phát triển các mô hình nền tảng cho một robot duy nhất.

Hầu như tất cả trong số họ đều hình dung hoặc mô phỏng một thế giới, hoặc mô hình một miền trung tâm với một tác nhân duy nhất — một chiếc xe, một robot. Trio là mô hình duy nhất hoạt động trên những hoạt động thật, trực tiếp, của những người thứ ba đã tồn tại — một toàn bộ nhà kho hoặc cửa hàng, nhiều người và máy móc cùng một lúc — và hành động trên chúng trong thời gian thực.

Hai trục tạo nên sự khác biệt cho Trio. Kỹ thuật — nó nhỏ, nhanh và chuyên biệt: thời gian thực ở rìa, mức giá gần $0.004 cho mỗi truy vấn, tính phí theo quyết định, một nền tảng cố định cộng với các adapter nhỏ cho từng trang (LoRA, được đào tạo trong giờ GPU) thay vì một mô hình tổng quát khổng lồ được chạy lại cho mỗi khung hình. Trên thang đo hiệu suất OVBench, việc gói gọn một mô hình mở trong stack của Trio nâng cao độ chính xác +2.3 điểm chỉ từ kiến trúc, và các luồng cảm nhận của nó không bị giới hạn thời gian cố định mà các mô hình tiên phong gặp phải. Theo kịch bản — nó thực hiện các hoạt động đã tồn tại, và hành động ngay bây giờ, thay vì tưởng tượng một thế giới, điều khiển một chiếc xe, hoặc di chuyển một con robot.

Cách Trio được xây dựng

Đối với các nhóm kỹ thuật: đây là cách mà Trio giữ cho chạy nhanh và đủ rẻ để hoạt động trên mọi camera, suốt cả ngày. Nếu bạn ở đây để tìm hiểu câu chuyện về các hoạt động, hãy lướt qua — phần thưởng nằm ở dòng cuối cùng.

Năm nguyên tắc giữ cho hệ thống hoạt động: mọi giao diện giữa các lớp là một đồ thị cảnh strongly-typed, có thể kiểm tra được (không bao giờ là vector mờ); một bộ định tuyến nắm giữ chi phí, chạy các lớp rẻ liên tục và chỉ đánh thức lý luận đắt giá khi cần thiết; các công cụ là hai chiều, vì vậy lớp lý luận có thể ra lệnh cho các lớp dưới xem xét lại hoặc tái mô phỏng; mọi quyết định đều đi kèm với bằng chứng của nó, để một người điều hành có thể kiểm tra, tranh cãi và ghi đè nó; và các mô hình nền tảng giữ nguyên trong khi các adapter nhỏ cho từng triển khai — các mô-đun LoRA và một adapter tổng hợp giữa các lớp, được đào tạo trong giờ GPU thay vì tái đào tạo toàn bộ — chuyên biệt hóa từng trang.

Các nguyên tắc đó được hiện thực hóa thành bảy mặt phẳng — sáu trong đường đi của một quyết định đơn, cộng với quản trị trên tất cả: Cảm nhận (camera · mic · telemetry → một luồng có dấu thời gian) → Cảm nhận Rìa (phát hiện + theo dõi, lớp Jetson, bên cạnh các camera) → Dự đoán (mô hình thế giới: trạng thái tiềm ẩn · bất ngờ · triển vọng) → Tổng hợp & Bộ nhớ (đồ thị cảnh + bộ định tuyến đánh thức lý luận) → Lý luận (đại lý → quyết định đi kèm với bằng chứng của nó) → Hành động & Tích hợp (cảnh báo · robot / PLC · quy tắc an toàn độc lập), với MLOps & Quản trị trên tất cả nó.

Bởi vì cảm nhận và dự đoán hoạt động cục bộ và chỉ có các ký hiệu và tiềm ẩn cô đọng đi đến đám mây — không bao giờ là video thô — Trio được tính phí theo quyết định, không phải theo token cho mỗi khung.

Nơi Trio hoạt động

Nhà kho là một khung hình. Nhà hàng, tiệm rửa xe, cửa hàng, nhà máy mà chúng tôi đã mở — cùng một mô hình chỉ vào bất kỳ hoạt động nào chạy trên camera, ngày hôm nay song song với các người điều hành con người, làm nổi bật những gì mà hệ thống hiện tại của họ bỏ lỡ:

Hoạt động Nhượng quyền — Quản lý hàng chờ, giảm thiểu hao hụt, tuân thủ của nhân viên, phân tích lưu lượng khách hàng.
Bảo mật & Truy cập — Phát hiện xâm nhập, phân tích loitering, ngăn ngừa tailgating, thi hành sau giờ làm việc.
Logistics & Kho bãi — Tình trạng bến, thời gian dừng của xe, sự tuân thủ PPE, thi hành các quy trình an toàn SOP trên các khu vực và sàn.
Chế tạo & Công nghiệp — Giám sát dây chuyền, phát hiện lỗi, cảnh báo nguy hiểm trên mọi dây chuyền và khu vực máy móc.
Thành phố thông minh — Đỗ xe, lưu lượng giao thông, an toàn công cộng, giám sát cơ sở hạ tầng trên các đường phố và phương tiện giao thông.
Chăm sóc sức khỏe & Khoa học đời sống — Phát hiện ngã, mẫu cư trú, giám sát hành vi trên các phòng ở và khuôn viên.
Khách sạn & Địa điểm — Quản lý đám đông, kiểm soát quyền truy cập khu VIP, phản ứng sự cố thời gian thực quy mô.
Cơ sở hạ tầng quan trọng — Thông tin vòng ngoài 24/7, phát hiện xâm nhập, phản ứng tự động cho các địa điểm không thể bỏ lỡ cảnh báo.

Những gì chúng tôi đã xây dựng — và điều gì tiếp theo

Trio không còn là một luận án trên bảng trắng. Báo cáo kỹ thuật v1.0 chính thức hóa toàn bộ hệ thống — stack cảm nhận–dự đoán–hành động, năm nguyên tắc, bảy mặt phẳng — với hai miền tham chiếu hoàn chỉnh (một tiệm rửa xe và một nhà kho), xuống đến cú va chạm gần giữa xe nâng và người đi bộ trên, bị bắt bởi một cổng an toàn rìa xác định được hoạt động trong khoảng 50 mili giây, rất trong mức trần 100 mili giây. Trio-Retina là mã nguồn mở (pip install trio-retina), và Playground đang hoạt động — hãy mở nó và xem Trio đọc hình ảnh thực tế trong trình duyệt của bạn.

Ba lực lượng tạo ra khoảnh khắc hiện tại: silicon biên có thể cuối cùng hoạt động lý luận vận hành thời gian thực mà không cần quay lại đám mây; việc hiểu cảnh đa thực thể đã vượt qua ngưỡng nghiên cứu mà phát hiện đối tượng đơn lẻ chưa bao giờ đạt tới; và các nhà điều hành của môi trường vật lý sẵn sàng cho khả năng có thể bị định giá thấp nhất trong AI hiện nay — một mô hình thế giới trên các camera mà họ đã sở hữu, mà không cần phần cứng mới. Từ đây, Trio phát triển lên vòng lặp — từ việc nhìn và hiểu hôm nay đến việc tiên đoán và, theo thời gian, hành động trên sàn.

Bắt đầu với Trio hôm nay

Hai cách vào — cả hai đều hoạt động ngay bây giờ:

XÂY DỰNG TRÊN NÓ · CÁC NHÀ PHÁT TRIỂN — Trio-Retina trên GitHub. Lớp cảm nhận mã nguồn mở — lớp trạng thái không phụ thuộc vào mô hình biến bất kỳ máy phát hiện nào thành một dòng sự kiện tiêu chuẩn cộng với trạng thái tiềm ẩn. pip install trio-retina và chạy nó trên máy của bạn.

CHƠI VỚI NÓ · CÁC NHÀ VẬN HÀNH — Trio-Lumen trên nền tảng. Xem hoạt động của bạn sống động trong trình duyệt — Trio đọc các hình ảnh thực tế như các đối tượng với trạng thái và đám đông như dòng chảy, sau đó chỉ vào các camera của bạn và yêu cầu bằng tiếng Anh đơn giản.

Trio, IoTeX, và Kinh Tế Máy Móc

Trio không đến từ hư vô. Nó được xây dựng dựa trên một thập kỷ của IoTeX — cơ sở hạ tầng và mạng thiết bị kết nối, danh tính thiết bị (ioID), dữ liệu máy có thể xác minh (Quicksilver), và các khoản thanh toán giữa máy với máy (x402) mà AI thế giới thực cần có để đặt chân vào thế giới với dữ liệu, danh tính, và sự tin cậy phía sau. Và Trio là sản phẩm để biến tầm nhìn của IoTeX thành hiện thực: Thách thức 1 đã đặt ra mục tiêu làm cho IoTeX trở thành giao diện mà AI nhìn thấy, xác minh và hành động trên thế giới vật lý, và Trio là cái nhìn.

Ghép nó lại với nhau và bạn có được nền kinh tế máy móc mà Anti-Roadmap đã mô tả. Máy móc cần ba điều: để nhìn thế giới, để tin tưởng vào những gì chúng thấy, và để hành động dựa trên nó. IoTeX cung cấp sự tin cậy phi tập trung, trong khi Trio cung cấp mắt và tai để nhận biết thực tế vật chất — và bộ não để lý luận và hành động dựa trên đó.

Tiếp tục Giao hàng...

Thách thức 1 đã có câu trả lời. Đưa AI thấy thế giới vật chất và biến nó thành hiện thực — đó là thách thức đầu tiên và quan trọng nhất trong Anti-Roadmap cho 2026. Chúng tôi đã tìm ra con đường, và chúng tôi đã xây dựng với tốc độ tối đa từ đó. Trio là AI thế giới thực được truyền tải, không phải phần mềm trượt — nó chạy trên các camera đã có và biến chúng thành giá trị từ ngày đầu tiên.

Ra mắt chính thức đang đến gần, và tương lai mà chúng tôi hứa hẹn gần như nằm trong tay chúng tôi. Cảm ơn bạn đã cùng chúng tôi xây dựng và theo dõi.

— Nhóm IoTeX