View a markdown version of this page

Connettori per origini dati personalizzati - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connettori per origini dati personalizzati

Utilizza un'origine dati personalizzata quando disponi di un repository che Amazon Kendra non fornisce ancora un connettore per l'origine dati per. Puoi utilizzarlo per visualizzare le stesse metriche della cronologia delle esecuzioni fornite dalle fonti di Amazon Kendra dati anche quando non puoi utilizzare le sorgenti dati Amazon Kendra di origine per sincronizzare i tuoi repository. Utilizzalo per creare un'esperienza di monitoraggio della sincronizzazione coerente tra le fonti di Amazon Kendra dati e quelle personalizzate. In particolare, utilizza un'origine dati personalizzata per visualizzare le metriche di sincronizzazione per un connettore di origine dati creato utilizzando le BatchDeleteDocumentAPI BatchPutDocumente.

Per la risoluzione dei problemi relativi al connettore di origine dati personalizzato Amazon Kendra, consulta. Risoluzione dei problemi relativi alle origini dati

Quando crei un'origine dati personalizzata, hai il controllo completo su come vengono selezionati i documenti da indicizzare. Amazon Kendra fornisce solo informazioni metriche che è possibile utilizzare per monitorare i processi di sincronizzazione delle sorgenti dati. È necessario creare ed eseguire il crawler che stabilisce quali sono i documenti indicizzati dall’origine dati.

È necessario specificare il titolo principale dei documenti utilizzando l'oggetto Document e _source_uri per DocumentTitle DocumentURI includerlo nella risposta del Query risultato. DocumentAttribute

È possibile creare un identificatore per l'origine dati personalizzata utilizzando la console o l'CreateDataSourceAPI. Per utilizzare la console, assegna un nome alla fonte di dati e, facoltativamente, una descrizione e dei tag delle risorse. Dopo la creazione dell’origine dati, viene visualizzato un ID della stessa. Copia questo ID per utilizzarlo durante la sincronizzazione dell’origine dati con l’indice.

Modulo per specificare i dettagli dell'origine dati, inclusi nome, descrizione e tag opzionali.

Puoi anche creare un'origine dati personalizzata utilizzando l'CreateDataSourceAPI. L'API restituisce un ID da utilizzare quando sincronizzi l'origine dati. Quando utilizzi l'CreateDataSourceAPI per creare un'origine dati personalizzata, non puoi impostare i Configuration Schedule parametri RoleArn o. Se imposti questi parametri, Amazon Kendra restituisce un'ValidationExceptioneccezione.

Per utilizzare un'origine dati personalizzata, create un'applicazione responsabile dell'aggiornamento dell' Amazon Kendra indice. L'applicazione dipende dal crawler creato dall'utente. Il crawler legge i documenti presenti nel repository e determina a quali devono essere inviati. Amazon Kendra L'applicazione deve eseguire le seguenti operazioni:

  1. Esegui il crawling del repository e crea un elenco dei documenti in esso contenuti che vengono aggiunti, aggiornati o eliminati.

  2. Chiama l'StartDataSourceSyncJobAPI per segnalare che è in corso un processo di sincronizzazione. Fornisci un ID di origine dati per identificare l'origine dati da sincronizzare. Amazon Kendra restituisce un ID di esecuzione per identificare un particolare processo di sincronizzazione.

  3. Chiama l'BatchDeleteDocumentAPI per rimuovere i documenti dall'indice. Viene fornito l’ID dell’origine dati e l’ID di esecuzione per identificare l’origine dati da sincronizzare e il processo a cui è associato questo aggiornamento.

  4. Chiama l'StopDataSourceSyncJobAPI per segnalare la fine del processo di sincronizzazione. Dopo aver chiamato l'StopDataSourceSyncJobAPI, l'ID di esecuzione associato non è più valido.

  5. Chiama l'ListDataSourceSyncJobsAPI con gli identificatori dell'indice e dell'origine dati per elencare i processi di sincronizzazione per l'origine dati e per visualizzare le metriche per i processi di sincronizzazione.

Dopo aver terminato un processo di sincronizzazione, puoi iniziare un nuovo processo di sincronizzazione. Può trascorrere un certo periodo di tempo prima che tutti i documenti inviati vengano aggiunti all’indice. Utilizza l'ListDataSourceSyncJobsAPI per visualizzare lo stato del processo di sincronizzazione. Se lo Status restituito per il processo di sincronizzazione è SYNCING_INDEXING, significa che alcuni documenti sono ancora in fase di indicizzazione. È possibile avviare un nuovo processo di sincronizzazione quando lo stato del processo precedente è FAILED o SUCCEEDED.

Dopo aver chiamato l'StopDataSourceSyncJobAPI, non puoi utilizzare un identificatore del processo di sincronizzazione in una chiamata alle BatchDeleteDocument API BatchPutDocument or. In tal caso, tutti i documenti inviati vengono restituiti nel messaggio di risposta FailedDocuments dall’API.

Attributi obbligatori

Quando invii un documento all' Amazon Kendra utilizzo dell'BatchPutDocumentAPI, ogni documento richiede due attributi per identificare l'origine dati e l'esecuzione di sincronizzazione a cui appartiene. È necessario fornire i seguenti due attributi per mappare correttamente i documenti dall'origine dati personalizzata a un Amazon Kendra indice:

  • _data_source_id—L'identificatore della fonte di dati. Viene restituito quando si crea l'origine dati con la console o l'CreateDataSourceAPI.

  • _data_source_sync_job_execution_id—L'identificatore dell'esecuzione di sincronizzazione. Viene restituito quando si avvia la sincronizzazione dell'indice con l'API. StartDataSourceSyncJob

Di seguito è riportato il codice JSON necessario per indicizzare un documento utilizzando un’origine dati personalizzata.

{ "Documents": [ { "Attributes": [ { "Key": "_data_source_id", "Value": { "StringValue": "data source identifier" } }, { "Key": "_data_source_sync_job_execution_id", "Value": { "StringValue": "sync job identifier" } } ], "Blob": "document content", "ContentType": "content type", "Id": "document identifier", "Title": "document title" } ], "IndexId": "index identifier", "RoleArn": "IAM role ARN" }

Quando rimuovi un documento dall'indice utilizzando l'BatchDeleteDocumentAPI, devi specificare i due campi seguenti nel DataSourceSyncJobMetricTarget parametro:

  • DataSourceId—L'identificatore della fonte di dati. Viene restituito quando si crea l'origine dati con la console o l'CreateDataSourceAPI.

  • DataSourceSyncJobId—L'identificatore dell'esecuzione di sincronizzazione. Viene restituito quando si avvia la sincronizzazione dell'indice con l'API. StartDataSourceSyncJob

Di seguito è riportato il codice JSON necessario per eliminare un documento dall'indice utilizzando l'BatchDeleteDocumentAPI.

{ "DataSourceSyncJobMetricTarget": { "DataSourceId": "data source identifier", "DataSourceSyncJobId": "sync job identifier" }, "DocumentIdList": [ "document identifier" ], "IndexId": "index identifier" }

Visualizzazione delle metriche

Al termine di un processo di sincronizzazione, puoi utilizzare l'DataSourceSyncJobMetricsAPI per ottenere le metriche associate al processo di sincronizzazione. Usalo per monitorare le sincronizzazioni delle sorgenti dati personalizzate.

Se invii lo stesso documento più volte, come parte dell'BatchPutDocumentAPI, dell'API o se il BatchDeleteDocument documento viene inviato sia per l'aggiunta che per l'eliminazione, il documento viene conteggiato una sola volta nelle metriche.

  • DocumentsAdded—Il numero di documenti inviati utilizzando l'BatchPutDocumentAPI associata a questo processo di sincronizzazione aggiunti all'indice per la prima volta. Se un documento viene inviato per l’aggiunta più di una volta in una sincronizzazione, viene conteggiato solo una volta nelle metriche.

  • DocumentsDeleted—Il numero di documenti inviati utilizzando l'BatchDeleteDocumentAPI associata a questo processo di sincronizzazione eliminati dall'indice. Se un documento viene inviato per l’eliminazione più di una volta in una sincronizzazione, viene conteggiato solo una volta nelle metriche.

  • DocumentsFailed—Il numero di documenti associati a questo processo di sincronizzazione la cui indicizzazione non è riuscita. Si tratta di documenti che sono stati accettati Amazon Kendra per l'indicizzazione ma che non è stato possibile indicizzare o eliminare. Se un documento non viene accettato da Amazon Kendra, l'identificatore del documento viene restituito nella proprietà di FailedDocuments risposta delle API and. BatchPutDocument BatchDeleteDocument

  • DocumentsModified—Il numero di documenti modificati inviati utilizzando l'BatchPutDocumentAPI associata a questo processo di sincronizzazione che sono stati modificati nell'indice. Amazon Kendra

Amazon Kendra emette Amazon CloudWatch metriche anche durante l'indicizzazione dei documenti. Per ulteriori informazioni, consulta Monitoraggio con. Amazon KendraAmazon CloudWatch

Amazon Kendra non restituisce la DocumentsScanned metrica per le fonti di dati personalizzate. Emette anche le CloudWatch metriche elencate nel documento Metriche per le fonti di dati. Amazon Kendra

Ulteriori informazioni

Per saperne di più sull'integrazione Amazon Kendra con la tua fonte di dati personalizzata, consulta: