텍스트 사용 사례

스트리밍 지원

채팅 애플리케이션에서 지연 시간은 응답형 사용자 경험을 활성화하는 데 중요한 지표입니다. LLM 추론에 몇 초에서 몇 분 정도 걸릴 가능성은 고객에게 콘텐츠를 가장 잘 제공하는 방법에 어려움을 줍니다. 이러한 이유로 여러 LLM 공급자가 응답을 호출자에게 다시 스트리밍할 수 있습니다. 응답을 반환하기 전에 전체 추론이 완료될 때까지 기다리는 대신 사용 가능한 경우 각 토큰을 반환할 수 있습니다.

이 기능의 사용을 지원하기 위해 텍스트 사용 사례는 WebSocket API를 사용하여 채팅 경험을 지원하도록 설계되었습니다. 이 WebSocket은 API Gateway를 통해 배포됩니다. WebSocket API를 사용하면 채팅 세션 시작 시 연결을 생성하고 해당 소켓을 통해 응답을 스트리밍할 수 있습니다. 이를 통해 프런트엔드 애플리케이션은 더 나은 사용자 경험을 제공할 수 있습니다.

참고

모델이 스트리밍 지원을 제공하더라도 솔루션이 WebSocket API를 통해 응답을 다시 스트리밍할 수 있다는 의미는 아닙니다. 솔루션이 각 모델 공급자에 대한 스트리밍을 지원하는 사용자 지정 로직을 활성화해야 합니다. 스트리밍을 사용할 수 있는 경우 관리자는 배포 시이 기능을 활성화/비활성화할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

배포 대시보드

AWS의 생성형 AI Application Builder 솔루션 작동 방식