View a markdown version of this page

텍스트 사용 사례 - AWS의 생성형 AI 애플리케이션 빌더

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

텍스트 사용 사례

스트리밍 지원

채팅 애플리케이션에서 지연 시간은 응답형 사용자 경험을 활성화하는 데 중요한 지표입니다. LLM 추론에 몇 초에서 몇 분 정도 걸릴 가능성은 고객에게 콘텐츠를 가장 잘 제공하는 방법에 어려움을 줍니다. 이러한 이유로 여러 LLM 공급자가 응답을 호출자에게 다시 스트리밍할 수 있습니다. 응답을 반환하기 전에 전체 추론이 완료될 때까지 기다리는 대신 사용 가능한 경우 각 토큰을 반환할 수 있습니다.

이 기능의 사용을 지원하기 위해 텍스트 사용 사례는 WebSocket API를 사용하여 채팅 경험을 지원하도록 설계되었습니다. 이 WebSocket은 API Gateway를 통해 배포됩니다. WebSocket API를 사용하면 채팅 세션 시작 시 연결을 생성하고 해당 소켓을 통해 응답을 스트리밍할 수 있습니다. 이를 통해 프런트엔드 애플리케이션은 더 나은 사용자 경험을 제공할 수 있습니다.

참고

모델이 스트리밍 지원을 제공하더라도 솔루션이 WebSocket API를 통해 응답을 다시 스트리밍할 수 있다는 의미는 아닙니다. 솔루션이 각 모델 공급자에 대한 스트리밍을 지원하는 사용자 지정 로직을 활성화해야 합니다. 스트리밍을 사용할 수 있는 경우 관리자는 배포 시이 기능을 활성화/비활성화할 수 있습니다.