기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
컴퓨터 사용 에이전트
컴퓨터 사용 에이전트는 브라우저, 터미널, 파일 시스템 및 애플리케이션과 같은 디지털 환경을 시뮬레이션하거나 제어할 수 있습니다. 이러한 에이전트는 LLM 추론, 시각적 언어 모델(VLMs) 및 명령을 실행하거나 입력 이벤트를 시뮬레이션하는 도구 서버를 결합하여 사용자 의도를 해석하고, 시각적 및 텍스트 인터페이스와 상호 작용하고, 목표 지향적 작업을 수행합니다.
이 패턴은 에이전트가 어시스턴트뿐만 아니라 동일한 도구와 환경을 사용하여 인간처럼 작업을 수행하는 프록시 역할을 하는 실용적인 AI 자동화에 중요합니다.
Architecture
컴퓨터 사용 에이전트 패턴은 다음 다이어그램에 나와 있습니다.
설명
-
쿼리를 수신합니다.
-
작업 또는 요청은 UI, API 또는 자연어 인터페이스를 통해 제공됩니다.
-
-
메모리에 액세스합니다.
-
에이전트는 단기 및 장기 메모리를 검색하여 과거 명령, 목표 및 시스템 상태를 재현합니다.
-
-
시각적 컨텍스트 분석
-
VLM은 컴퓨터 화면, 시스템 상태 또는 UI 요소를 관찰하여 주어진 컨텍스트를 이해하고 실행 가능한 항목을 식별합니다.
-
-
LLM을 통한 이유
-
LLM은 쿼리, 메모리 상태, 도구 및 서버 응답을 결합하여 다음 작업을 결정합니다.
-
-
도구 서버와 상호 작용
-
에이전트는 서버에서 호스팅되는 도구를 호출하며, 여기에는 다음이 포함될 수 있습니다.
-
브라우저(예: 헤드리스 Chrome) 및 쉘 환경
-
텍스트 및 코드 편집기
-
사용자 지정 스크립트 인터페이스
-
-
-
시각적 입력 업데이트
-
시스템 UI가 변경되거나 추가 관찰이 필요한 경우 VLM은 화면 상태 또는 텍스트 버퍼를 다시 분석할 수 있습니다.
-
-
메모리 업데이트
-
새로운 인사이트, 시스템 상태 또는 사용자 피드백은 단기 및 장기 메모리에 기록됩니다.
-
-
최종 결정 및 설명 공식화
-
LLM은 쿼리 및 도구 출력을 기반으로 결과를 합성하거나 작업을 권장합니다.
-
-
응답을 반환합니다.
-
에이전트는 인터페이스에 결과(예: 완료된 작업, 확인 또는 생성된 콘텐츠)를 반환합니다.
-
기능
-
시각적 입력과 텍스트 입력을 사용한 멀티모달 추론
-
시뮬레이션된 입력 또는 API 기반 입력을 통한 애플리케이션 제어
-
영구 상태에 대한 메모리 관리
-
시퀀스 실행의 자율성(다단계 흐름)
일반 사용 사례
-
IDEs에서 코드를 작성하고 실행하는 AI 개발자
-
반복적인 디지털 워크플로를 위한 컴퓨터 사용 에이전트
-
소프트웨어 테스트 및 품질 보증을 위해 시뮬레이션된 사용자
-
음성 또는 상위 수준 지침을 통해 UIs를 탐색하기 위한 접근성 에이전트
-
추론을 통해 향상된 스마트 로봇 프로세스 자동화(RPA)
구현 지침
-
AWS 서비스다음을 사용하여이 패턴을 빌드할 수 있습니다.
-
LLM 기반 계획 및 추론을 위한 Amazon Bedrock
-
시뮬레이션된 UI 환경으로 도구 서버를 실행하기 위한 Amazon Elastic Compute Cloud(Amazon EC2) AWS Lambda또는 Amazon SageMaker 노트북
-
메모리 지속성을 위한 Amazon Simple Storage Service(Amazon S3) 또는 Amazon DynamoDB
-
하이브리드 시나리오의 UI 이미지 분석을 위한 Amazon Rekognition(또는 사용자 지정 모델)
-
관찰성 및 감사 추적을 AWS X-Ray 위한 Amazon CloudWatch Logs 또는
요약
컴퓨터 사용 에이전트는 자율 디지털 운영자 역할을 하여 인간-컴퓨터 상호 작용과 AI 기반 작업 간의 격차를 해소합니다. 이러한 에이전트는 메모리, 도구 오케스트레이션 및 VLMs 통합하여 인간을 위해 설계된 시스템과 적응형으로 상호 작용하고, 작업을 실행하고, 파일을 업데이트하고, 메뉴를 탐색하고, 응답을 생성할 수 있습니다.