🤖 Open-H-Embodiment: 首个医疗机器人开源数据集
核心发现
医疗AI过去主要是基于感知的模型(解释信号、分类病理/解剖结构),但医疗涉及"行动"。静态的、仅感知的数据集缺乏体现、接触动力学和闭环控制,已不足以满足需求。
1. Open-H-Embodiment 数据集
- 778小时的CC-BY-4.0医疗机器人训练数据
- 涵盖模拟、手术台练习和真实临床程序
- 使用商业机器人(CMR Surgical, Rob Surgical, Tuodao)和研究机器人(dVRK, Franka, Kuka)
- 35个组织参与,包括Johns Hopkins、Stanford、NVIDIA等
2. GR00T-H: 手术机器人视觉语言动作模型
首个手术机器人策略模型,基于Isaac GR00T N系列,使用Cosmos Reason 2 2B作为VLM主干。
- 独特体现投影器:将每个机器人的特定运动学映射到共享的归一化动作空间
- 状态Dropout (100%):推理时丢弃本体感受输入,产生更好的真实世界结果
- 相对末端执行器动作:克服运动学不一致
- 已在SutureBot基准测试中展示完整端到端缝合能力
3. Cosmos-H-Surgical-Simulator
手术机器人的世界基础模型(WFM)。
- 从NVIDIA Cosmos Predict 2.5 2B微调
- 效率提升:600次rollout仅需40分钟 vs 真实世界2天
- 隐式学习组织变形和工具交互
- 用于生成合成数据增强代表性不足的数据集
4. 下一步:迈向手术机器人推理
目标是从感知控制转向推理能力的自主性——手术机器人的"ChatGPT时刻"。需要扩展到包含意图、结果和失败模式的推理就绪数据。
资源链接
- Open-H-Embodiment: HF Dataset
- GR00T-H: HF Model
- Cosmos-H-Surgical-Simulator: HF Model