-
Sensor Layer(传感器层)收集信息:摄像头、LIDAR、麦克风、电池状态、GPS 等多模态进行感知输入。
-
AI + World Captioning Layer(世界理解层)翻译信息:多模态模型将视觉、语音、状态转为自然语言描述(如“你看到一个人在挥手”)。
-
Natural Language Data Bus(自然语言总线)传递信息:所有感知被转成带时间戳的语言片段,在不同模块间传递。
-
Data Fuser(情境融合层)组合信息:整合多源输入,生成用于决策的完整语境(prompt)。
-
Multi-AI Planning/Decision Layer(多智能体规划层)生成决策:多个 LLM 读取语境,结合链上规则生成行动计划。
-
NLDB 下行通道:将决策结果通过语言中间层传递给硬件执行系统。
-
Hardware Abstraction Layer(硬件抽象层)做出行动:将语言指令转为底层控制命令,驱动硬件执行(移动、语音播报、交易等)。
为了让一个想法能尽快落地成机器人执行的任务,OM1 内置了这些工具:
-
快速新增技能:用自然语言和大模型,就能在数小时内给机器人添加新行为,而非几个月的硬编码。
-
多模态组合:轻松融合 LiDAR、视觉、声音等感知,让开发者不必自己写复杂的传感器融合逻辑。
-
预配置大模型接口:内置 GPT-4o、DeepSeek、VLMs 等语言/视觉模型,支持语音交互。
-
广泛的软硬件兼容:支持 ROS2、Cyclone DDS 等主流协议,与现有机器人中间件无缝衔接。无论是 Unitree G1 人形、Go2 四足,还是 Turtlebot、机械臂,都能直接接入。
-
对接 FABRIC:OM1 原生支持身份、任务协调和链上支付,让机器人不仅能单机完成任务,还能参与全球协作网络。
目前,OM1 已落地于多个真实场景:
-
Frenchie(Unitree Go2 四足机器狗):在 USS Hornet 国防技术展示 2024 中完成复杂场地任务。
-
Iris(Unitree G1 人形机器人):在 EthDenver 2025 Coinbase 展台进行现场人机交互演示,并计划通过 RoboStore 的教育项目进入全美高校课程。
即便有了强大的大脑,如果机器人彼此之间无法安全、可信地协作,依旧只能各自为战。现实中,不同厂商的机器人往往自建系统、各自为政,技能和数据无法共享;跨品牌甚至跨国协作则更加缺乏可信身份与标准规则。于是,一些难题出现了:
-
身份与位置证明:机器人怎么证明自己是谁、在哪、在做什么?
-
技能与数据共享:如何授权机器人共享数据、调用技能?
