컴퓨터 사용 에이전트

컴퓨터 사용 에이전트는 브라우저, 터미널, 파일 시스템 및 애플리케이션과 같은 디지털 환경을 시뮬레이션하거나 제어할 수 있습니다. 이러한 에이전트는 LLM 추론, 시각적 언어 모델(VLMs) 및 명령을 실행하거나 입력 이벤트를 시뮬레이션하는 도구 서버를 결합하여 사용자 의도를 해석하고, 시각적 및 텍스트 인터페이스와 상호 작용하고, 목표 지향적 작업을 수행합니다.

이 패턴은 에이전트가 어시스턴트뿐만 아니라 동일한 도구와 환경을 사용하여 인간처럼 작업을 수행하는 프록시 역할을 하는 실용적인 AI 자동화에 중요합니다.

아키텍처

컴퓨터 사용 에이전트 패턴은 다음 다이어그램에 나와 있습니다.

설명

쿼리를 수신합니다.
- 작업 또는 요청은 UI, API 또는 자연어 인터페이스를 통해 제공됩니다.
메모리에 액세스합니다.
- 에이전트는 단기 및 장기 메모리를 검색하여 과거 명령, 목표 및 시스템 상태를 재현합니다.
시각적 컨텍스트 분석
- VLM은 컴퓨터 화면, 시스템 상태 또는 UI 요소를 관찰하여 주어진 컨텍스트를 이해하고 실행 가능한 항목을 식별합니다.
LLM을 통한 이유
- LLM은 쿼리, 메모리 상태, 도구 및 서버 응답을 결합하여 다음 작업을 결정합니다.
도구 서버와 상호 작용
- 에이전트는 서버에서 호스팅되는 도구를 호출하며, 여기에는 다음이 포함될 수 있습니다.
  - 브라우저(예: 헤드리스 Chrome) 및 쉘 환경
  - 텍스트 및 코드 편집기
  - 사용자 지정 스크립트 인터페이스
시각적 입력 업데이트
- 시스템 UI가 변경되거나 추가 관찰이 필요한 경우 VLM은 화면 상태 또는 텍스트 버퍼를 다시 분석할 수 있습니다.
메모리 업데이트
- 새로운 인사이트, 시스템 상태 또는 사용자 피드백은 단기 및 장기 메모리에 기록됩니다.
최종 결정 및 설명 공식화
- LLM은 쿼리 및 도구 출력을 기반으로 결과를 합성하거나 작업을 권장합니다.
응답을 반환합니다.
- 에이전트는 인터페이스에 결과(예: 완료된 작업, 확인 또는 생성된 콘텐츠)를 반환합니다.

기능

시각적 입력과 텍스트 입력을 사용한 멀티모달 추론
시뮬레이션된 입력 또는 API 기반 입력을 통한 애플리케이션 제어
영구 상태에 대한 메모리 관리
시퀀스 실행의 자율성(다단계 흐름)

일반 사용 사례

IDEs에서 코드를 작성하고 실행하는 AI 개발자
반복적인 디지털 워크플로를 위한 컴퓨터 사용 에이전트
소프트웨어 테스트 및 품질 보증을 위해 시뮬레이션된 사용자
음성 또는 상위 수준 지침을 통해 UIs를 탐색하기 위한 접근성 에이전트
추론을 통해 향상된 스마트 로봇 프로세스 자동화(RPA)

구현 지침

AWS 서비스다음을 사용하여이 패턴을 빌드할 수 있습니다.
LLM 기반 계획 및 추론을 위한 Amazon Bedrock
시뮬레이션된 UI 환경으로 도구 서버를 실행하기 위한 Amazon Elastic Compute Cloud(Amazon EC2) AWS Lambda또는 Amazon SageMaker 노트북
메모리 지속성을 위한 Amazon Simple Storage Service(Amazon S3) 또는 Amazon DynamoDB
하이브리드 시나리오의 UI 이미지 분석을 위한 Amazon Rekognition(또는 사용자 지정 모델)
관찰성 및 감사 추적을 AWS X-Ray 위한 Amazon CloudWatch Logs 또는

요약

컴퓨터 사용 에이전트는 자율 디지털 운영자 역할을 하여 인간-컴퓨터 상호 작용과 AI 기반 작업 간의 격차를 해소합니다. 이러한 에이전트는 메모리, 도구 오케스트레이션 및 VLMs 통합하여 인간을 위해 설계된 시스템과 적응형으로 상호 작용하고, 작업을 실행하고, 파일을 업데이트하고, 메뉴를 탐색하고, 응답을 생성할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

서버용 도구 기반 에이전트

코딩 에이전트