-
作者: Quanting Xie, So Yeon Min, Pengliang Ji, Yue Yang, Tianyi Zhang, Kedi Xu, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, and Yonatan Bisk
-
单位:卡内基梅隆大学,Apochs, Inc
-
论文标题:Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation
-
论文链接:https://arxiv.org/pdf/2409.18313
-
项目主页:https://quanting-xie.github.io/Embodied-RAG-web/
主要贡献
-
论文将检索增强生成(RAG)技术扩展到具身设置中,通过引入非参数记忆系统,展示了如何在具身智能体中实现更高级别的语义记忆和检索能力。
-
提出了Embodied-Experiences Dataset,结合了语义导航和问答任务,提供了统一的范式来评估具身智能体在不同环境下的表现。
-
展示了一种解决具身经验表示和检索挑战的初步方法,在多种查询类型上超越了Naive-RAG、GraphRAG和LightRAG等基线方法。
-
Embodied-RAG展示了在任务、环境和平台无关的操作中的潜力,能够有效地在人类存在的任何环境中进行导航和通信。
研究背景
研究问题
论文主要解决的问题是如何将检索增强生成(RAG)技术应用于具身智能体,使其能够在复杂环境中进行有效的导航和语言生成。
研究难点
该问题的研究难点包括:
-
具身体验的多模态特性、数据高度相关性以及感知需要抽象化。
-
现有的RAG技术无法直接转移到具身领域,因为具身数据通常是时间、传感器观测和机器人位姿的多维元组,难以高效地查询和存储。
相关工作
检索和生成
-
检索增强生成(RAG)系统将大模型(LLMs)与外部文本语料库结合,以增强生成输出的事实基础和相关性。
-
传统RAG模型通过将用户查询和文档块嵌入共享向量空间来检索语义上最相似的文本片段,从而增强模型的上下文窗口。
-
为了克服Naive RAG系统的局限性,研究人员开发了GraphRAG和LightRAG等高级RAG模型。
-
这些模型通过提取实体及其关系并将它们组织成图结构来实现更完整和全局感知的检索。
语义记忆和检索方法
-
语义存储方法:
-
研究人员提出了多种方法来存储和查询空间环境中的语义记忆。
-
这些方法包括将体素与预定义的对象类别关联、将体素映射到图像嵌入等。
-
然而,这些方法通常受限于任务特定性和固定的词汇表。
-
-
挑战:
-
这些方法在语义抽象与空间分辨率的对齐方面面临挑战。
-
例如,Scene Graphs虽然不受密集内存问题的限制,但依赖于人工设计的模式,不适合新环境或户外环境。
-
语义导航和问答
-
语义导航和问答任务评估机器人根据对象类别、图像或语言描述导航到语义目标的能力。
-
这些任务包括ObjectNav、ImageNav和Visual Language Navigation等。
-
Embodied Question Answering(EQA)和Video Question Answering(VideoQA)扩展了导航任务,要求在可操作或视频环境中提供文本答案。
-
然而,这些任务通常局限于室内环境或缺乏主动导航能力。
方法:具身检索和生成
自下而上的记忆构建
拓扑图
-
节点属性:拓扑图由具有以下属性的节点组成:
-
位姿信息:节点包含机器人在地图上捕获图像时的位置(x, y, z坐标和偏航角θ)。
-
时间戳:记录图像捕获的时间。
-
图像:以第一人称视角拍摄的图像。
-
标题:由视觉语言模型(VLM,如GPT-4o)生成的图像的详细文本描述。
-
-
拓扑结构:
-
节点根据机器人的路径历史或阈值α连接起来,形成拓扑图。
-
这种结构消除了对特定控制参数的需求,提高了与不同驱动器的兼容性,并且比传统的度量地图更节省内存。
-
语义森林
语义森林通过两步迭代过程(聚类和总结)来捕捉更高层次的空间和语义信息。
- 聚类:使用完全链接层次聚类算法对节点进行聚类,形成叶节点。聚类过程中结合了空间和语义关系,计算节点间的相似性。
-
空间相似性:使用哈弗辛距离并指数衰减来计算。
-
语义相似性:计算节点文本描述之间的余弦相似性。
-
-
总结:在每个层次上生成语义摘要,使用LLM(如GPT-4)进行总结。摘要和节点之间的平均距离被保存为新节点,形成更高层次的节点。
自上而下的检索
-
语义引导的层次遍历:
-
第一阶段从语义相关性出发,对语义森林进行自顶向下的并行探索。
-
选择函数基于LLM来选择节点,确保计算效率和全面探索。
-
-
混合重排序:
-
在第二阶段,收集到的基节点由另一个LLM单独评分并按相关性降序排列。
-
如果提供位置信息,更新概率分布以考虑路径长度,并结合空间得分进行重排序。
-
生成
-
生成过程:检索到的节点作为上下文的一部分传递给生成LLM。LLM根据查询类型(如“find”或“explain”)生成响应。
-
Find查询:输出期望的路径点,并提供选择理由。
-
Explain查询:生成文本响应。
-
-
导航:使用Dijkstra算法计算当前位置与选定路径点之间的最短路径,并使用局部规划器进行导航。
实验
具身经验数据集
-
数据集结构:数据集以拓扑图的形式组织,包含节点的详细信息。节点包括机器人的位姿、传感器数据和时间戳。
-
环境多样性:数据集包括通过多种数据收集技术获取的多样化环境设置。具体包括:
-
现实世界环境:使用自主机器人探索的三个详细的室内图和一个混合的室外-室内图,捕捉真实的导航场景。
-
模拟环境:使用AirSim模拟器生成十四个物体为中心的拓扑图,以模拟各种复杂环境。
-
大规模城市空间:使用Google Street View图像创建一个综合的街景图,提供广泛的复杂空间数据。
-
-
模态划分:数据集根据模态分为E-image(仅图像数据)和E-multimodal(包含图像和其他传感器数据)设置。
Embodied-RAG任务
-
查询类型:实验包括两种查询类型:Find和Explain。
-
Find查询:分为显式查询(搜索特定对象实例)和隐式查询(需要更细致的理解)。
-
Explain查询:请求关于全局信息,如描述特定位置或提供环境的整体理解。
-
-
查询收集:查询由熟悉Embodied-Experience数据集的四个人类标注员创建,通过审查数据集的图像并利用他们对环境上下文的理解来创建查询。
评估方法
-
Find查询:评估系统的导航成功率和生成成功率。使用交叉投票技术在五个视觉语言模型(VLMs)之间确定找到查询对象的概率P(Q|A)。
-
路径长度加权:如果提供位置信息,通过路径长度对P(Q|A)进行加权,以反映导航路径的效率。
-
-
Explain查询:构建一个黄金数据集,由专家标注员为每个查询提供答案。系统生成的响应通过与黄金答案的语义相似性进行评估。
结果与分析
评估
Find Queries
-
导航成功与生成成功:评估系统作为全局规划器的能力,将导航成功与生成成功分开。系统输出图像路径,并计算找到查询对象的概率P(Q|A),使用交叉投票技术在多个视觉语言模型(VLMs)之间确定。
-
路径长度加权:对于提供位置信息的查询,通过路径长度对P(Q|A)进行加权,类似于Success Weighted by Path Length (SPL)指标,以确保评估不仅反映找到对象的成功率,还反映导航路径的效率。
Explain Queries
-
语义相似性:构建了一个黄金数据集,由专家标注员为每个查询提供答案。系统生成的响应通过与黄金答案的语义相似性进行评估,计算生成答案与对应黄金答案之间的语义相似性。
基线
- 比较实验:进行了与三种基线方法(Naive-RAG、GraphRAG和LightRAG)的比较实验,以评估Embodied-RAG方法的性能。
-
Naive-RAG:将数据集转换为纯文本文件,不利用任何结构化知识。
-
GraphRAG:将图结构引入Naive-RAG系统,利用LLM提取实体和关系,并构建全局关系的图结构。
-
LightRAG:一种高效的图形RAG方法,通过双层级键系统进行索引,以提高检索效率。
-
定量结果
-
显式查询:Embodied-RAG在显式查询类型的所有输入类型上均优于基线方法,特别是在P(Q|A,L)指标上表现出色。
-
隐式查询:Embodied-RAG在隐式查询类型上也优于基线方法,显示出其在处理复杂查询方面的优势。
-
全局查询:特别是当提供传感器数据时,Embodied-RAG的性能显著提高,强调了多模态信息整合的优势。
计算结果
-
Embodied-RAG的图构建过程比GraphRAG快7.38倍,比LightRAG快9.76倍。
-
这种效率归因于Embodied-RAG的语义森林设计,能够更有效地处理具身数据。
消融实验
-
通过修改基线方法直接从语义森林记忆中检索,比较检索性能。
-
结果表明,Embodied-RAG在P(Q|A,L)上表现出色,能够在语义和空间关系中有效构建更好的上下文。
总结
-
论文提出了Embodied-RAG框架,能够在大规模具身体验中自动构建分层空间记忆,并在不同抽象级别的查询上进行导航和解释。
-
Embodied-RAG在显式、隐式和全局查询上均优于现有基线方法,并且在图构建过程中表现出显著的效率优势。
-
该研究为将大型非参数具身记忆集成到基础模型中提供了新的思路,展示了其在导航和语言生成任务中的潜力。
-
未来的工作可以进一步扩展到动态环境和操作任务。