기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
텍스트 사용 사례
스트리밍 지원
채팅 애플리케이션에서 지연 시간은 응답형 사용자 경험을 활성화하는 데 중요한 지표입니다. LLM 추론에 몇 초에서 몇 분 정도 걸릴 가능성은 고객에게 콘텐츠를 가장 잘 제공하는 방법에 어려움을 줍니다. 이러한 이유로 여러 LLM 공급자가 응답을 호출자에게 다시 스트리밍할 수 있습니다. 응답을 반환하기 전에 전체 추론이 완료될 때까지 기다리는 대신 사용 가능한 경우 각 토큰을 반환할 수 있습니다.
이 기능의 사용을 지원하기 위해 텍스트 사용 사례는 WebSocket API를 사용하여 채팅 경험을 지원하도록 설계되었습니다. 이 WebSocket은 API Gateway를 통해 배포됩니다. WebSocket API를 사용하면 채팅 세션 시작 시 연결을 생성하고 해당 소켓을 통해 응답을 스트리밍할 수 있습니다. 이를 통해 프런트엔드 애플리케이션은 더 나은 사용자 경험을 제공할 수 있습니다.
참고
모델이 스트리밍 지원을 제공하더라도 솔루션이 WebSocket API를 통해 응답을 다시 스트리밍할 수 있다는 의미는 아닙니다. 솔루션이 각 모델 공급자에 대한 스트리밍을 지원하는 사용자 지정 로직을 활성화해야 합니다. 스트리밍을 사용할 수 있는 경우 관리자는 배포 시이 기능을 활성화/비활성화할 수 있습니다.