View a markdown version of this page

Web 浏览器 - Amazon Quick

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Web 浏览器

概述

浏览器操作为执行 Web 交互提供了一个全面的自动化工具包。浏览器会话是自动管理的,可以根据需要打开、维护和关闭。Quick Automate 通过人工智能驱动的自然语言描述和精确的 XPath 选择器支持灵活的元素识别。关键功能包括带有回退机制的智能元素定位、自动处理弹出窗口和重试失败操作的自我修复功能、包括结构化表格内容在内的数据提取,以及从基本点击和键入到高级人工智能驱动的多步骤任务的全套交互方法。

元素识别方法

  • 描述方法:使用 AI 使用自然语言描述(例如,“登录按钮”)来识别元素,从而使自动化对用户界面更改更具弹性。

  • XPath selector 方法:使用精确的 XPath 表达式进行精确的元素定位(例如//button[text()='Log in'])。

  • 组合方法:启用这两种方法后, XPath 先尝试使用描述方法,然后再回退到描述方法,将精度与适应性相结合。

自修复功能可用于键入和点击

  • HandlePopups:自动检测和处理意外对话框、Cookie 通知和叠加层,防止屏蔽元素中断工作流程。

  • ValidateAndRetry:通过屏幕截图比较和在需要时重试来验证操作是否成功,从而减少错误的失败。

浏览器会话管理

浏览器实例会自动创建,并在整个工作流程中进行维护,并在完成后正确清理。该restart_browser操作允许在登录超时或会话过期等场景需要时进行新的会话。

启动浏览器会话

打开新的浏览器会话。作用域内的操作会与该浏览器进行交互。完成后,浏览器会自动关闭。

特性:

  • 操作标题(纯文本):流程可视化中显示的操作标题(默认:浏览器)

注意
  1. 所有浏览器操作都必须置于浏览器会话范围内

  2. 每个浏览器作用域都是一个浏览器会话。作用域内的操作完成后,浏览器会自动关闭。

前往网页

导航到特定的网址。用于在当前浏览器选项卡中转到新网页。

特性:

  • 网址(必填):要导航到的网址(例如,“example.com”)注意:使用此网址时请提供完整的网址。

单击

点击网页元素。用于与按钮、链接或其他可点击元素进行交互。

特性:

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件的必填项):要点击的浏览器元素的自然语言描述(例如,“提交按钮”)。不要在元素中使用动作,只使用元素的描述

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//input [@id ='xyz']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

  • 鼠标按钮(下拉列表):要单击哪个鼠标按钮-向左、中间或向右(默认:左,可选)

  • 点击类型(下拉列表):单击或双击(默认:单击,可选)

  • 获取文件下载(单选按钮):如果点击下载文件,则启用(默认:关闭,可选)

  • 已下载的文件(输出,有条件地需要):存储已下载文件的变量名(默认:downloaded_file)

元素识别:

  • 必须至少启用一种元素识别方法

  • 启用这两种方法后,先尝试 XPath 选择器,然后再回退到描述

输入文本

在输入字段中键入文本。用于在网页上填写表单、搜索框或其他文本输入。

特性:

  • 要输入的文本(必填):您要在字段中键入的文本(例如,“Order #12345”)

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件必填):自然语言描述(例如,“订单号字段”)

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//input [@id ='xyz']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

  • 替换现有文本(复选框):在键入之前清除字段中所有已存在的文本(默认:开启)

元素识别:

  • 必须至少启用一种元素识别方法。建议仅在需要时才使用元素描述并移至元素选择器。

输入凭证

键入用户名或密码。用于使用保存的凭据安全地登录网站。

特性:

  • 凭据(下拉列表,必填):从自动化组中选择要使用的已保存凭据

  • 要输入的值(下拉列表,必填):选择是输入用户名还是密码(默认:用户名)

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件必填):自然语言描述(例如,“用户名字段”)

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//input [@id ='username']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

元素识别:

  • 必须至少启用一种元素识别方法

从下拉列表中选择

从下拉列表中选择一个值。用于在网页上的表单、筛选器或其他下拉菜单中进行选择。

特性:

  • 要选择的值(必填):您要从下拉字段中选择的选项(例如,“完成”)

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件的必填项):自然语言描述(例如,“订单状态下拉列表”)

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//select [@id ='xyz']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

元素识别:

  • 必须至少启用一种元素识别方法

提取文本

从网页读取一个值。用于捕获单个字段中的文本。

特性:

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件的必填项):自然语言描述(例如,“总金额字段”)

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//input [@id ='xyz']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

  • 提取的文本(输出):存储提取文本的变量名(默认值:extracted_textext)

元素识别:

  • 必须至少启用一种元素识别方法

提取表

从网页表中读取数据。用于捕获表格中的结构化信息。

使用自然语言定位或 XPath 选择器智能地从网页中提取结构化数据。功能包括 AI 增强型提取、多属性提取(文本、链接等)、属性的自动列生成以及用于编程操作的数据表输出。

特性:

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件的必填项):自然语言描述(例如,“订单详情表”)

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//table [@id ='xyz']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

  • 提取多个页面(单选按钮):继续从其他页面提取数据(如果存在)(默认:关闭,可选)

  • 下一页按钮选择器(有条件地显示):下一页按钮的 XPath 表达式(例如,“//* [@id ='nextButton']”,可选)

  • 智能数据提取(复选框):使用 AI 从复杂表中提取和结构化数据(默认值:开启)。请勿用于 100 行或以上的大型表格。此选项应用于复杂的表或类似表格的结构,在这种情况下,从 Web 浏览器中提取普通表会失败

  • 要提取的数据(多选下拉列表):选择要提取的内容-文本、链接 (Href) 或元素选择器 (Xpath)(默认:文本,可选)

  • 提取的表(输出):存储提取的数据表的变量名(默认值:extracted_table)

元素识别:

  • 必须至少启用一种元素识别方法

用法注意事项:

  • 其他数据类型保存在单独的列中(例如,链接的 columnName_HREF)

  • 对行数超过 100 行的表禁用智能提取以提高性能

截取屏幕截图

捕获网页的图像。屏幕截图将保存到一个文件中,以便稍后在流程中使用。

特性:

  • 文件名(可选):已保存图像文件的名称。如果为空则自动生成(例如,“屏幕截图图片”)

  • 文件类型(下拉列表):选择图像格式-PNG 或 JPEG(默认:PNG,可选)

  • 屏幕截图文件(输出):存储屏幕截图文件的变量名(默认:screenshot_file)

视觉问答

回答有关网页的问题。使用 AI 对页面进行可视化分析并 true/false 回答有关内容的问题。

特性:

  • 问题(必填):输入您对网页内容 true/false 的问题(例如,“商品有库存吗?”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

  • 答案(输出):存储 true/false 响应的变量名(默认值:is_true)

点击并上传文件

将文件上传到网页。用于通过单击文件上传按钮并选择要上传的文件来自动执行文件选择器。

特性:

  • 要上传的文件(必填):要上传的文件列表,通常存储在变量中(例如,[my_file1、my_file2])

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件必填):自然语言描述(例如,“上传按钮”)

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//input [@id ='xyz']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

  • 鼠标按钮(下拉列表):要单击哪个鼠标按钮-向左、中间或向右(默认:左,可选)

  • 点击类型(下拉列表):单击或双击(默认:单击,可选)

文件要求:

  • 必须是 media/file 对象数组

元素识别:

  • 必须至少启用一种元素识别方法

输入按键

发送键盘命令或快捷键。用于在网页上自动键入单个按键或按键组合。

特性:

  • 特殊键(下拉菜单,必填):选择 Ctrl、Alt、Shift 等修饰符或单数按键,例如 Enter、Tab、Pagedown

  • 命令键(可选):输入要与特殊键组合使用的按键(例如,“c” 表示 Ctrl+C)

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件必填):自然语言描述(例如,“搜索栏”)

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//input [@id ='xyz']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

元素识别:

  • 两个元素的切换都可以关闭-如果未定义任何元素,则按键会发送到当前活动字段

等待 Element

检查元素是否出现。用于等待网页上的更改或验证条件。如果在最长等待时间内找到该元素,则返回 true;如果没有,则返回 false。

特性:

  • 操作标题(纯文本):操作的显示名称

  • 元素选择器(必填):用于定义要检查的元素的 XPath 表达式(例如,“//input [@id ='xyz']”)

  • 最大等待时间(可选):等待元素出现的最长时间(以秒为单位)(默认值:30)

  • 找到元素(输出):存储是否找到元素的变量名(True/False)(默认值:is_found)

验证

  • 最大等待时间必须为整数或十进制

查找匹配的元素

获取与模式匹配的元素。用于获取网页上类似元素的列表,您可以逐个处理这些元素。

特性:

  • 元素选择器(必填):用于定义要获取的元素模式的 XPath 表达式(例如,“//div [@class ='abc']”)

  • 元素列表(输出):存储找到的元素列表的变量名(默认值:element_list)

用法注意事项:

  • 如果找不到匹配的元素,则列表为空

  • 用于处理多个相似的元素,例如搜索结果或超链接

等待新窗口

检查是否有新窗口可打开。在当前浏览器会话中单击打开新子窗口的链接或按钮后使用。

特性:

  • 最大等待时间(可选):等待新窗口出现的最长时间(以秒为单位)(默认值:30)

  • 窗口标识符(输出):存储新窗口标识符的变量名(默认:window_id)

用法注意事项:

  • 如果超过时间但未找到窗口,则会发生异常

  • 窗口标识符可用于切换焦点或关闭窗口

验证

  • 最大等待时间必须为整数或十进制

切换窗口

更改浏览器窗口。将焦点切换到指定窗口后,后续的浏览器操作将与该窗口进行交互。

特性:

  • 窗口标识符(可选):要切换到的窗口,通常存储在变量中(例如 window_id)。留空即可切换到主窗口

关闭窗口

关闭浏览器窗口。关闭后,自动化将返回到当前浏览器会话的主窗口。

特性:

  • 窗口标识符(必填):要关闭的窗口,通常存储在变量中(例如 window_id)

保存到剪贴板

将文本复制到剪贴板。用于保存稍后可以粘贴的文本。现有的剪贴板文本将被替换。

特性:

  • 要保存的文本(必填):要复制到剪贴板的文本(例如,“Order #12345”)

从剪贴板粘贴

从剪贴板插入文本。用于将复制的文本粘贴到网页字段中。

特性:

  • 使用描述查找元素(单选按钮):使用自然语言描述通过 AI 识别元素(默认值:开启)

    • 描述字段(有条件必填):自然语言描述(例如,“订单号字段”)

  • 使用选择器查找元素(单选按钮):使用 XPath 表达式标识元素(默认值:关闭)

    • XPath 字段(有条件的必填项): XPath 表达式(例如,“//input [@id ='xyz']”)

  • 自我修复(复选框):使用 AI 自动处理意外弹出窗口(默认:关闭,可选)

  • 替换现有文本(复选框):粘贴前清除字段中所有已存在的文本(默认:开启)

元素识别:

  • 必须至少启用一种元素识别方法

刷新网页

重新加载当前网页。有些页面可能会在刷新时重定向。

特性:

  • 操作标题(纯文本):操作的显示名称

重启浏览器

关闭并重新打开浏览器。新会话从空白页开始。

特性:

  • 全部重启(复选框):关闭并重新启动所有浏览器窗口,而不仅仅是当前窗口(默认:关闭,可选)

限制

元素识别不确定性:如果 AI 无法可靠地识别用户界面元素,则操作会失败并出现 LowConfidence “” 错误。在这些情况下,请使用更具体的 XPath 选择器或元素描述。浏览器兼容性:该系统仅适用于Chrome浏览器实例,并使用Playwright作为底层自动化框架,这意味着兼容性仅限于Chrome支持的网络技术,可能无法与其他供应商提供的浏览器特定功能一起使用。动态内容挑战:具有频繁布局更改的高动态页面、繁重的 JavaScript 框架或复杂的单页应用程序可能需要额外的等待时间、重试逻辑或专门的处理方法。性能开销:人工智能驱动的功能(例如自然语言元素定位和自我修复功能)比直接 XPath 定位需要更多的处理时间。