About 200 results
Open links in new tab
  1. 端到端机器人具身大模型——Google Deepmind RT-2论文解读 - 知乎

    具有chain-of-thought推理的 RT-2 能够回答更复杂的命令,因为它首先用自然语言规划其动作的位置。 这是一个很有前景的方向,它提供了一些初步证据,表明使用 LLM 或 VLM 作为规划器可以与单个 VLA 模型中的低级策略相结合。

  2. 谷歌 RT-2:新模型将视觉和语言转化为行动 - 知乎

    Jul 30, 2023 · RT-2展示了超越其接触到的机器人数据范围之外的改进泛化能力以及语义和视觉理解能力。 这包括解释新命令并通过执行初级推理来响应用户命令,例如对物体类别或高层次描述进行推理。

  3. RT-2: 基于多模型大模型的端到端机器人控制模型 - 知乎

    Nov 26, 2023 · 机器人控制模型需要模型能够实时推理,RT-2参数量太大,无法实时推理; 后续工作的重点可以考虑模型量化和蒸馏,加快推理速度。

  4. Google的RT-2对于机器人来讲意味着什么? - 知乎

    前几天,Google的Deepmind发布了一个新的应用于机器人的模型叫做 RT-2,全称是 Robotic Transformer 2,是一种新颖的 视觉-语言-动作 (VLA,vision-language-action) 模型,可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。

  5. 谷歌最强具身智能Robotic Transformer2 (RT2),视觉-语言-动作模 …

    RT-2不仅是对现有视觉语言模型的简单有效改进,而且展示了构建一个通用的机器人的前景,这种机器人能够进行推理、解决问题,并进行高级规划和低级指令控制,以执行现实世界中多种多样的任务。

  6. [Robotics] RT-2: Vision-Language-Action Models - 知乎

    RT-2的主要贡献是展示了视觉语言模型(VLMs)可以被调整为高效且具有 泛化能力 的机器人策略,通过一种将动作表示为文本token的简单方法,将语义和视觉知识转移到控制中。

  7. RT-2论文翻译: Vision-Language-Action Models Transfer Web …

    我们将这类模型称为视觉语言动作(VLA)模型。 我们通过在RT-1提出的协议基础上构建VLA模型,使用类似的数据集,扩展模型以使用大型视觉语言骨干,因此我们将我们的模型称为RT-2(Robotics Transformer 2)。 我们在图1中提供了一个概述。

  8. RT-2:视觉-语言-行动模型将网络知识转移到机器人控制上 - 知乎

    我们将此类模型称为视觉-语言-行动模型(VLA),并实例化了这样一个模型,我们称其为RT-2。 我们的大量评估(6k评估试验)显示,我们的方法导致了高效的机器人策略,并使RT-2从互联网规模训练中获得了一系列新兴能力。

  9. 端到端大模型2.0 - VLA (Vision Language Action) 介绍 - 知乎

    2023年7月28日,谷歌DeepMind发布了全球首个控制机器人的视觉语言动作(VLA)模型 RT-2。 其后,这个模型概念快速扩散到智驾领域。

  10. 谷歌 DeepMind 利用大模型研发出机器人项目 RT-2,如何评价这 …

    据报道,谷傲天 DeepMind 的 Robotics Transformer 2(RT-2),基于 Transformer 架构,是一种全新的“视觉-语言-行动”(VLA)模型,可以用来训练机器人学习“知识”,用以完成创造性任 …

Refresh