컴퓨터 사용 에이전트 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

컴퓨터 사용 에이전트

컴퓨터 사용 에이전트는 브라우저, 터미널, 파일 시스템 및 애플리케이션과 같은 디지털 환경을 시뮬레이션하거나 제어할 수 있습니다. 이러한 에이전트는 LLM 추론, 시각적 언어 모델(VLMs) 및 명령을 실행하거나 입력 이벤트를 시뮬레이션하는 도구 서버를 결합하여 사용자 의도를 해석하고, 시각적 및 텍스트 인터페이스와 상호 작용하고, 목표 지향적 작업을 수행합니다.

이 패턴은 에이전트가 어시스턴트뿐만 아니라 동일한 도구와 환경을 사용하여 인간처럼 작업을 수행하는 프록시 역할을 하는 실용적인 AI 자동화에 중요합니다.

Architecture

컴퓨터 사용 에이전트 패턴은 다음 다이어그램에 나와 있습니다.

컴퓨터 사용 에이전트.

설명

  1. 쿼리를 수신합니다.

    • 작업 또는 요청은 UI, API 또는 자연어 인터페이스를 통해 제공됩니다.

  2. 메모리에 액세스합니다.

    • 에이전트는 단기 및 장기 메모리를 검색하여 과거 명령, 목표 및 시스템 상태를 재현합니다.

  3. 시각적 컨텍스트 분석

    • VLM은 컴퓨터 화면, 시스템 상태 또는 UI 요소를 관찰하여 주어진 컨텍스트를 이해하고 실행 가능한 항목을 식별합니다.

  4. LLM을 통한 이유

    • LLM은 쿼리, 메모리 상태, 도구 및 서버 응답을 결합하여 다음 작업을 결정합니다.

  5. 도구 서버와 상호 작용

    • 에이전트는 서버에서 호스팅되는 도구를 호출하며, 여기에는 다음이 포함될 수 있습니다.

      • 브라우저(예: 헤드리스 Chrome) 및 쉘 환경

      • 텍스트 및 코드 편집기

      • 사용자 지정 스크립트 인터페이스

  6. 시각적 입력 업데이트

    • 시스템 UI가 변경되거나 추가 관찰이 필요한 경우 VLM은 화면 상태 또는 텍스트 버퍼를 다시 분석할 수 있습니다.

  7. 메모리 업데이트

    • 새로운 인사이트, 시스템 상태 또는 사용자 피드백은 단기 및 장기 메모리에 기록됩니다.

  8. 최종 결정 및 설명 공식화

    • LLM은 쿼리 및 도구 출력을 기반으로 결과를 합성하거나 작업을 권장합니다.

  9. 응답을 반환합니다.

    • 에이전트는 인터페이스에 결과(예: 완료된 작업, 확인 또는 생성된 콘텐츠)를 반환합니다.

기능

  • 시각적 입력과 텍스트 입력을 사용한 멀티모달 추론

  • 시뮬레이션된 입력 또는 API 기반 입력을 통한 애플리케이션 제어

  • 영구 상태에 대한 메모리 관리

  • 시퀀스 실행의 자율성(다단계 흐름)

일반 사용 사례

  • IDEs에서 코드를 작성하고 실행하는 AI 개발자

  • 반복적인 디지털 워크플로를 위한 컴퓨터 사용 에이전트

  • 소프트웨어 테스트 및 품질 보증을 위해 시뮬레이션된 사용자

  • 음성 또는 상위 수준 지침을 통해 UIs를 탐색하기 위한 접근성 에이전트

  • 추론을 통해 향상된 스마트 로봇 프로세스 자동화(RPA)

구현 지침

  • AWS 서비스다음을 사용하여이 패턴을 빌드할 수 있습니다.

  • LLM 기반 계획 및 추론을 위한 Amazon Bedrock

  • 시뮬레이션된 UI 환경으로 도구 서버를 실행하기 위한 Amazon Elastic Compute Cloud(Amazon EC2) AWS Lambda또는 Amazon SageMaker 노트북

  • 메모리 지속성을 위한 Amazon Simple Storage Service(Amazon S3) 또는 Amazon DynamoDB

  • 하이브리드 시나리오의 UI 이미지 분석을 위한 Amazon Rekognition(또는 사용자 지정 모델)

  • 관찰성 및 감사 추적을 AWS X-Ray 위한 Amazon CloudWatch Logs 또는

요약

컴퓨터 사용 에이전트는 자율 디지털 운영자 역할을 하여 인간-컴퓨터 상호 작용과 AI 기반 작업 간의 격차를 해소합니다. 이러한 에이전트는 메모리, 도구 오케스트레이션 및 VLMs 통합하여 인간을 위해 설계된 시스템과 적응형으로 상호 작용하고, 작업을 실행하고, 파일을 업데이트하고, 메뉴를 탐색하고, 응답을 생성할 수 있습니다.