上海北海大学和梅塔大学共同释放没有GUI代理的

三种复杂场景本文的第一位作者是上海Joton计算机科学技术学院的第三年博士生Cheng Pegzhou。他们的研究说明包括推理多模式大型模型,AI代理,代理安全等等。相应的作者是张Zhuosheng教授和Liu Gongshen教授。 1。文档1.1研究历史的一般描述越来越多地研究了可以通过用户图形接口(GUI)执行复杂任务的构造代理,并且随着多模式领导者语言模型(MLLM)的快速发展。这些代理使用视觉感知和语言理解展示了移动应用程序,Web导航和桌面交互的巨大潜力。但是,大多数现有系统都使用“完全自动”的执行范例,当他们在现实世界情景中面临漫射指令,环境干扰或系统的例外时,错误的故障或任务失败。 Th是“过度透露”问题的类型,严重限制了GUI代理在实际应用中的安全性和可靠性。三个复杂的方案1.2研究问题本研究的重点是中心问题。如何使GUI代理人自我评估其行为信心的能力,并基于此,可以使自主和手动互动之间的动态变化,从而提高任务完成率以及在复杂环境中的交互效率。具体而言,当前代理无法确定当前步骤是否需要手动方向。如果模型在特定操作中做出不可靠的决策,则可以继续执行不正确的行为,这使得他们将使任务崩溃。该文档试图解决的是由于无法判断一个人的能力限制而造成的系统错误。自主代理倾向于“超级排放”,但是OS-KAIROS需要人类干预1.3 MAIM CONT在本文档中,我们提出了OS-Kairos,这是一种具有自适应互动功能的新GUI代理系统。它的主要贡献包括:(i)引入一种预测信任的机制,而GUI AEL GENT评估了操作的每个步骤中对绩效的信心,并基于此,决定是否调用人类或高级模型的干预措施,以实现真正的“可控自主权”。 (ii)自动设计联合调查框架(COPROPATION COPRO框架),并通过GPT-4O通过接口分析模型来描述每个交互步骤,以生成一组具有信任标签的Datahigh质量的操作监视。 (iii)我们提出了一种由信托(由信托基金会促进的互动)推广的交互策略,该策略将可靠性得分作为模型培训的一部分,并通过监控学习并通过阈值实现适应性调整来整合GUI代理中可信赖的判断能力。 (iv)OS-KAIROS iS比现有的模型要高得多,具有复杂的方案数据集和一个完整的移动参考点,具有有效性,多功能性和多功能性。可伸缩性和效率的好处。文档标题:OS-KAIROS:GUI代理的自适应互动文档链接与MLLM:https://arxiv.org/abs/2503.16465纸质代码:https://github.com/wuzheng02/os-kairos 2。通过陈述和呈现的复杂任务的复杂任务的现有代理人的陈述和呈现的现有性呈现,陈述了陈述和呈现的态度。整个系统框架由两种基本机制组成:联合检测框架和由信任提出的相互作用策略。 2.1协作检测框架协作检测框架此机制旨在为每个互动步骤生成高质量的信任标签。这是建立OS-Kairos培训和推理能力的基础。主要涉及三个阶段:1)复杂的任务说明的设备收集和扩展研究收集复杂的Inst公共数据集和人类专家设计(例如弥漫性描述,缺乏许可证,环境绑架)的典型的开割和使用GPT-4等生成模型来保证多种语言的叙事覆盖范围,多种多样和多种多种多种语言。 2)设计机制设计的核心机制是“评论家”,使用伪装范式:Probeo代理:执行用户指令。关键模型:基于结构分析GPT-4O和UI,为操作的每个步骤提供了置信得分(1-5分)。如果分数小于5,则法官将为正确的操作提出建议,并继续测试,直到完成任务为止。通过这种协作过程。系统可以自动生成GUI的完整数据,包括操作和评估对。高质量的轨迹,研究人员设计培训和结合信任分数的推理策略,GUI代理具有“需要人类INT的能力“这种训练方法可确保模型具有精确预测行为和自尊的双重能力。2)在实施阶段,通过建立置信度阈值γγ≥γ,系统可以自动执行置信度阈值γ。它将自动执行。在γ的情况下,它会导致模型的范围或高级支持该模型的范围。满足应用的需求,考虑到γ= 1,如果γ= 5,模型将逐步进行γ= 3至4。方案iOS,自我构造集和公共参考点,并比较了不同类型的现有GUI代理模型。 3.1.1数据集1)复杂场景测试集(自我构造):作者使用真实的Android设备,12个常见应用程序(亚马逊,微信,配置等)和12个不同的任务问题(购买,登录,登录,搜索,搜索等)。我做到了。弹出窗口,网络断开)c)异常状态(过期的登录,授权不足等)逐渐执行和描述每个任务指令,以通过信任注释生成GUI的完整数据。 2)发布EL参考数据集A)AITZ(动物园中的Android):包括复杂的链操作,突出推理和动作计划。 b)元gui:组合多模式控件和GUI控件,以支持任务的方向和执行精细的指令。数据集分为训练集(80%)和一组测试(20%),以训练和评估模型。 3.1.2 eva为了整合GUI代理的性能,作者采用了以下指标:动作类型(类型),通道级别的成功率(SR),任务完成率(TSR)的精确度,HUE机器的干预率(HSR)(HSR),干预精度(IP)等。比较模型涵盖了三个类别。 1)API接口模型A)GPT-4OB)GPT-4V-PLUSC)QWEN-VL-MAX2)多模式开源模型A)QWEN2-VL-7BB)OS-TELLAS-PRO-7BC)auto-ui3.1.4 auto-ui3.1.4型号和训练设置每个数据的模型和训练设置确保每个数据安全。 20%的培训和测试数据。在零拍摄时,该模型直接通过快速学习评估,而不必取决于其他精细调整。在精细的调整配置中,该模型在相应的数据集中接收8个训练回合,并具有1E-5学习率。在交互式模式下,OS-Kairos使用默认置信阈值γ= 4,并且系统要求手动干预对当前步骤的信任低于此阈值。在整个过程中,GPT-4O被用作评估行动的每个步骤的判断模型,以确保评估的一致性和可靠性。 3.2实验结果3.2.1主要实验结果表1:在零拍摄配置中的OS-KAIROS和基准的比较),OS-Kairos不需要更改模型的功能,因此提供了可靠变化的自适应交互机制。在引言中,它比多个参考模型要好得多。在三个数据集中非常出色,在复杂方案中达到了95.90%步骤的成功率,任务完成率为88.20%。相反,现有的API模型是通用的,但往往会耗尽过度,因为它们无法确定强调OS-Kairos可靠性的重要复杂步骤。表2:与配置的基线相比,OS-KAIROS结果通过识别重要的复杂步骤,例如位移,OS-Kairos可以实现更精确的优化,传统的精细调整方法可以引入操作偏见或面部优化的瓶颈颈部。干预精度分析基于DATA的三组3)OS-KAIROS信任评分机制可实现有效的人类计算机相互作用(HSR)。在复杂的方案和元基因中,关于自主执行程序的判断非常精确,AP指标分别达到96.44%和93.18%,在人类干预步骤中维持了干预精度(IP)的70%以上。这表明OS-Kairos可以有效区分他们何时请求帮助以及何时应独立实施,以避免不必要的干预措施。该研究还期望与高质量的采样相结合,进一步改善了诸如AITZ之类的数据集中系统的性能。 3.2.2实验分析s 3.2.2.1动态评估先前的动态评估之前的参考评估通常基于静态分析,这很难反映现实世界环境中GUI代理的计划和概括功能。为此,本文档为移动设备的实际任务(TSR)的终结提供了信息。结果表明,现有参考模型的TSR仅为4%和26%,而GPT-4O为36%,而OS-Kairos在涉及GPT-4O决策时达到了此限制。引入手动干预后,OS-Kairos TSR从32%增加到70%,这完全表明自适应相互作用机制在现实世界情景中具有重要的优势,并且是实现有效GAI代理的有效范式。速率有效表4还显示了实际环境中OS-KAIR操作系统执行的效率。根据50条说明的统计数据,最佳数量要手动执行的步骤约为429。在Manipulac步骤的最大通道限制下,发现复杂的步骤时,在参考模型中很常见。 OS-KAIROS接近人类的运营行为,相对效率(RE)分别达到86.42%和93.47%。这明显优于基线,并反映出有效且稳健的相互作用函数。 3.2.2.3信任集成范式评估表5相互作用模型与基于通知的比较。结果表明,OS-KAIROS相互作用机制显着高于通知驱动的范式,尤其是在干预措施(HSR)的成功率中。尽管GPT-4O和GLM-4V-Plus具有强烈的识别和定位能力,但API GUI剂仍然表现出不稳定,容易执行过度执行并影响一般的有效性。在开源模型中,性能QWEN2-VL-7B相对稳定,但是FuninstructionOS-UTLAS-PRO-7B的执行立即在模式下严重干扰。 OS-Kairos在模型3.2.2.4和7B数据分析模型中建立,可以有效迁移到具有置信度得分和数据蒸馏的2B-7B模型。 TSR分别在QWEN2-VL-2B,4B和7B中实现了85.09%,77.64%和76.40%,这表明在资源有限的环境中实施的精度和兼容性。 OS-KAIROS在各种数据量表中保持稳定的性能,TSR范围从76.19%到88.20%。即使使用了少量的检测数据,受信任的机制也可以有效地支持模型的培训,其成本比精细调整要低得多。 3.2.2.5 OS-KAIR相互作用敏感性分析通过调整γ的可靠性阈值来实现自适应相互作用。消融实验表明,γ的增加可以显着改善TSRAND SR,但是HSR和操作精度保持稳定,表明复合物STEP可以有效地识别和减少过度探讨。 γ= 2仅需19%的手动干预措施即可实现紧密调整的效果表现出极好的灵活性和实用性。 4。讨论和含义4.1主要发现的摘要。通过整体实验评估,这项研究得出了以下关键发现:1。OS-KAIROS明显优于参考和基于多个数据集中快速信息的精细调整模型,并且完全证明适应性相互作用的机制在提高GUI Agents任务完成的可靠性和鲁棒性方面起着重要作用。 2。由信任提起的相互作用是有效且稳定的:当我进行不进行时,OS-KAIRS可以以稳定的方式稳定,从而有效避免过度执行。 3。设备测试的真实性能:在移动设备上运行时,OS-Kairos TSR在70%(干预)时达到32%(无干预),远处超越了现有的商业和开源模型,还接近GPT-4O的上限。 4。模型大小和数据数据:置信机制可以移至2B-7B模型,但在资源限制方案中可以维持超过76%的TSR。您只能训练少量的检测数据,而成本远低于罚款总量的总量。 4.2启示录4.2.1启示录至专业人士1。系统的更好可靠性:由信任提升的自适应互动机制可以显着降低错误操作,并在现实世界的复杂场景中改善系统的稳定性和安全性。 2。计算机共同设计Supporthuman Asses:通过用户干预所需的动态决策,系统可以灵活地考虑自治和控制能力,使其足以适应高风险的任务,例如财务和医疗场景。 4.2.2对研究社区的影响2。提出可转移性框架设计:验证一致性数据蒸馏和置信机制对几个模型尺度的发展,从而促进了光,流行和交互方法的发展。 3.促进标准评估系统更新:指出静态测试的局限性,并倡导为真实环境引入新标准 +评估交互式特征。这有助于更全面地衡量GUI代理的实用性和可靠性。 4.3关键分析1。泛化的应用和范围:当前,系统主要是Mobilelesse,已在LE GUI环境中进行了验证。桌面和Web的末端尚未进行测试,并且必须在更复杂的多模式交互系统中验证其概括功能。 2。可靠性评分:可靠性得分由GPT-4O在关键参与者检测体系中给出,并且必须对其精度进行更多验证。 V.限制和未来工作5.1限制1。任务类型和应用程序方案的类型是有限的。该实验主要集中在单个移动任务中的GUI上,具有复杂的交互形式,例如书桌,多个窗口,Web和混合接口尚未验证。 2。大型模型的外部分数的配置:当前系统使用GPT-4O作为可靠的得分手来训练和评估以提高标签的质量,但必须更优化其精确度。 3。过度干预:OS-KAIROS评估是否需要通过信任评分进行干预人类,但过度干预会影响GUI代理的自动化。 5.2未来的工作1。在其模型中实现内部信任指标:当前可靠性取决于外部模型。将来,我们可以调查代理中可靠性指标的实施,以提高推理和部署的效率。 2.优化交互式决策 - 制定策略:避免过度发酵或频繁干预,动态阈值或增强学习策略c引入以实现更灵活,更有效的人类关节控制。 3.支持复杂的任务和跨平台的实现:促进模型在桌面和Web平台上的应用,从而提高了处理复杂任务和多模式语音输入的能力,从而提高了概括和实用性。

Related Posts

Comments are closed.