在线工具推荐:三维数字孪生场景工具 - GLTF/GLB在线编辑器 - Three.js AI自动纹理化开发 - YOLO 虚幻合成数据生成器 - 3D模型在线转换 - 3D模型预览图生成服务
移动设备上的智能助手具有非常先进的基于语言的交互,用于执行简单的日常任务,例如设置计时器或打开手电筒。尽管取得了进展,但这些助手在支持移动用户界面 (UI) 中的对话交互方面仍然面临限制,其中执行了许多用户任务。例如,他们无法回答用户关于屏幕上显示的特定信息的问题。代理需要对图形用户界面(GUI)来实现此类功能。
先前的研究已经调查了几个重要的技术构建块,以实现与移动UI的对话交互,包括汇总移动屏幕以便用户快速了解其用途,将语言指令映射到 UI 操作和图形用户界面建模以便它们更适合基于语言的交互。但是,其中每个都仅解决会话交互的有限方面,并且在策划大规模数据集和训练专用模型方面需要大量工作。此外,移动 UI 上可能发生广泛的对话交互。因此,必须开发一种轻量级和可推广的方法来实现对话交互。
在“使用大型语言模型启用与移动 UI 的对话交互”,在CHI 2023,