Conector Microsoft OneDrive V2.0 - Amazon Kendra

Conector Microsoft OneDrive V2.0

O Microsoft OneDrive é um serviço de armazenamento baseado na nuvem que você pode usar para armazenar, compartilhar e hospedar o conteúdo. Você pode usar o Amazon Kendra para indexar sua fonte de dados do OneDrive.

Você pode conectar Amazon Kendra à sua fonte de dados do OneDrive usando o console do Amazon Kendra e a API OneDriveConfiguration.

nota

O suporte para o conector OneDrive V1.0/API OneDriveConfiguration está programado para terminar em junho de 2023. Recomendamos usar o conector V2.0/API TemplateConfiguration. A versão 2.0 fornece ACLs adicionais e funcionalidade de crawler de identidade.

Para solucionar problemas do conector da fonte de dados do OneDrive do Amazon Kendra, consulte Solucionar problemas de origens de dados.

Recursos compatíveis

o conector de fonte de dados do OneDrive e do Amazon Kendra oferece suporte aos seguintes recursos:

  • Mapeamentos de campos

  • Controle de acesso do usuário

  • Filtros de inclusão/exclusão

  • Sincronizações completas e incrementais de conteúdo

  • Nuvem privada virtual (VPC)

Pré-requisitos

Antes que você possa usar o Amazon Kendra para indexar a fonte de dados do Drupal, faça essas alterações no OneDrive nas contas da AWS.

No OneDrive, verifique se você:

  • Criou uma conta do OneDrive no Office 365.

  • Anotou o ID de inquilino do Microsoft 365. Encontre o ID de inquilino nas propriedades do portal do Azure Active Directory ou no aplicativo OAuth.

  • Criou uma aplicação do OAuth no portal do Azure e anotou o ID do cliente e o segredo do cliente ou as credenciais do cliente usadas para autenticação com um segredo do AWS Secrets Manager. Consulte mais informações no tutorial da Microsoft e no exemplo de registro de aplicação.

    nota

    Quando você cria ou registra uma aplicação no portal do Azure, o ID do segredo representa o valor real do segredo. Você deve anotar ou salvar o valor real do segredo imediatamente ao criar o segredo e a aplicação. É possível acessar o segredo selecionando o nome da aplicação no portal do Azure e acessando a opção de menu sobre certificados e segredos.

    É possível acessar o ID de cliente selecionando o nome da aplicação no portal do Azure e acessando a página de visão geral. O ID da aplicação (cliente) é o ID de cliente.

    nota

    É recomendável atualizar ou alternar regularmente suas credenciais e senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e senhas nas fontes de dados e nas versões 1.0 e 2.0 do conector (quando for aplicável).

  • Usou o ID da aplicação AD para registrar uma chave secreta para a aplicação no site do AD. A chave secreta deve conter o ID da aplicação e uma chave secreta.

  • Copiou o domínio AD da organização.

  • As seguintes permissões foram adicionadas ao seu aplicativo AD na opção Microsoft Graph:

    • Leia arquivos em todos os conjuntos de sites (File.Read.All)

    • Leia o perfil completo de todos os usuários (User.Read.All)

    • Leia todos os grupos (Group.Read.All)

    • Leia todas as notas (Notes.Read.All)

  • Copiou a lista de usuários cujos documentos devem ser indexados. Você pode optar por fornecer uma lista de nomes de usuário ou pode fornecer os nomes de usuário em um arquivo armazenado em um Amazon S3. Depois de criar a fonte de dados, você poderá:

    • Modifique a lista de usuários.

    • Mude de uma lista de usuários para uma lista armazenada em um bucket do Amazon S3.

    • Altere a localização do bucket do Amazon S3 de uma lista de usuários. Se você alterar a localização do bucket, também deverá atualizar a função da fonte de dados do IAM para que ela tenha acesso ao bucket.

      nota

      Se você armazenar a lista de nomes de usuário em um bucket do Amazon S3, a política da fonte de dados do IAM deverá fornecer acesso ao bucket e acesso à chave com a qual o bucket foi criptografado, se houver.

      O conector do OneDrive usa o E-mail das informações de contato presentes nas Propriedades do usuário do OneDrive. Certifique-se de que o usuário cujos dados você deseja rastrear tenha o campo de e-mail configurado na página Informações de contato, pois para novos usuários, isso pode estar em branco.

Na conta da AWS, verifique se você:

  • Criou um índice do Amazon Kendra e, se estiver usando a API, anotou o ID do índice.

  • Criou uma função do IAM para a fonte de dados e, se estiver usando a API, anotou o ARN da função do IAM.

  • Armazenou suas credenciais de autenticação do OneDrive em uma senha do AWS Secrets Manager e, se estiver usando a API, anotou o ARN da senha.

Se você não tiver uma função ou senha existente do IAM, poderá usar o console para criar uma nova função do IAM e um nova senha do Secrets Manager ao conectar a fonte de dados do OneDrive ao Amazon Kendra. Se você estiver usando a API, deverá fornecer o ARN de uma função da IAM e a senha Secrets Manager existentes e um ID de índice.

Instruções de conexão

Para conectar Amazon Kendra à sua fonte de dados do OneDrive, você deve fornecer detalhes das credenciais do OneDrive para que Amazon Kendra possa acessar seus dados. Se você ainda não configurou o OneDrive para o Amazon Kendra, consulte Pré-requisitos.

Console

Para conectar Amazon Kendra ao OneDrive

  1. Faça login no Console de gerenciamento da AWS e abra o console do Amazon Kendra.

  2. No painel de navegação esquerdo, escolha Índices e, em seguida, escolha o índice que deseja usar na lista de índices.

    nota

    Você pode escolher definir ou editar as configurações de Controle de acesso do usuário em Configurações do índice.

  3. Na página Introdução, escolha Adicionar fonte de dados.

  4. Na página Adicionar fonte de dados, escolha o Conector do OneDrive e selecione Adicionar conector. Se estiver usando a versão 2 (se aplicável), escolha o Conector do OneDrive com a tag “V2.0”.

  5. Na página Especar detalhes da fonte de dados, insira as seguintes informações:

    1. Em Nome e descrição, em Nome da fonte de dados: insira um nome para a fonte de dados. Você pode incluir hífens, mas não espaços.

    2. (Opcional) Descrição: insira uma descrição opcional para a fonte de dados.

    3. Em Idioma padrão: escolha um idioma para filtrar os documentos do índice. A menos que você especifique o contrário, o idioma padrão é o inglês. O idioma especificado nos metadados do documento substitui o idioma selecionado.

    4. Em Tags, em Adicionar nova tag: inclua tags opcionais para pesquisar e filtrar os recursos ou monitorar os custos da AWS.

    5. Escolha Próximo.

  6. Na página Definir seção e segurança, insira as informações a seguir:

    1. ID do inquilino do OneDrive: insira o ID do inquilino do OneDrive sem o protocolo.

    2. Autorização: ative ou desative as informações da lista de controle de acesso (ACL) para seus documentos, caso tenha uma ACL e queira usá-la para controle de acesso. A ACL especifica quais documentos usuários e grupos podem acessar. As informações da ACL são usadas para filtrar os resultados da pesquisa com base no acesso do usuário ou do grupo aos documentos. Para obter mais informações, consulte Filtrar o contexto do usuário.

    3. Em Autenticação: escolha entre Novo e Existente..

      1. Se você escolher Existente, selecione uma senha existente em Selecionar senha.

      2. Se você escolher Novo, insira as seguintes informações na seção Nova senha AWS Secrets Manager:

        1. Senha: um nome para sua senha. O prefixo “AmazonKendra-OneDrive-” é adicionado automaticamente à senha.

        2. Em ID do cliente e Segredo do cliente: insira o ID do cliente e o segredo do cliente.

    4. Nuvem privada virtual (VPC): você pode escolher usar uma VPC. Nesse caso, você deve adicionar sub-redes e grupos de segurança da VPC.

    5. Crawler de identidade: especifique se deseja ativar o crawler de identidade do Amazon Kendra. O crawler de identidade usa as informações da lista de controle de acesso (ACL) de seus documentos para filtrar os resultados da pesquisa com base no acesso do usuário ou do grupo aos documentos. Se tiver uma ACL para seus documentos e usá-la, você também poderá optar por ativar o crawler de identidade do Amazon Kendra para configurar a filtragem no contexto do usuário dos resultados da pesquisa. Caso contrário, se o crawler de identidade estiver desativado, todos os documentos poderão ser pesquisados publicamente. Se quiser usar o controle de acesso para seus documentos e o crawler de identidade estiver desativado, você poderá usar como alternativa a API PutPrincipalMapping para fazer upload de informações de acesso de usuários e grupos para filtragem no contexto do usuário.

    6. Função do IAM: escolha uma função do IAM existente ou crie uma nova função do IAM para acessar as credenciais do repositório e indexar o conteúdo.

      nota

      Funções do IAM usadas para índices não podem ser usados para fontes de dados. Se você não tiver certeza se uma função existente é usada para um índice ou perguntas frequentes, escolha Criar uma nova função para evitar erros.

    7. Escolha Próximo.

  7. Na página Configurar configurações de sincronização, insira as seguintes informações:

    1. Em Escopo de sincronização, escolha quais dados do OneDrive dos usuários serão indexados. Você pode adicionar no máximo 10 usuários manualmente.

    2. Para as Configurações adicionais, adicione padrões de expressão regular para incluir ou excluir determinados arquivos. Você pode adicionar até 100 padrões.

    3. Modo de sincronização: escolha como você deseja atualizar o índice quando o conteúdo da fonte de dados for alterado. Ao sincronizar a fonte de dados com o Amazon Kendra pela primeira vez, é feito crawling de e indexação de todo o conteúdo por padrão. Você deve executar uma sincronização completa dos seus dados se o processo inicial falhar, mesmo que não escolha essa opção de modo de sincronização.

      • Sincronização total: indexa novamente todo o conteúdo, substituindo o já existente sempre que a fonte de dado é sincronizada com o índice.

      • Sincronização nova e modificada: indexe somente o conteúdo novo e modificado sempre que a fonte de dados é sincronizada com o índice. O Amazon Kendra pode usar o mecanismo da fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

      • Sincronização nova, modificada e excluída: indexe somente o conteúdo novo, modificado e excluído sempre que a fonte de dados é sincronizada com o índice. O Amazon Kendra pode usar o mecanismo da fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

    4. Em Programação de execução de sincronização, em Frequência: escolha com que frequência sincronizar o conteúdo da fonte de dados e atualizar o índice.

    5. Escolha Próximo.

  8. Na página Definir mapeamentos de campo, insira as seguintes informações:

    1. Campos de fonte de dados padrão: selecione entre os campos da fonte de dados padrão gerados do Amazon Kendra que você deseja mapear para o índice.

    2. Escolha Próximo.

  9. Na página Revisar e criar, verifique se as informações inseridas estão corretas e selecione Adicionar fonte de dados. Você também pode optar por editar as informações a partir desta página. Sua fonte de dados aparecerá na página Fontes de dados depois que a fonte de dados for adicionada com sucesso.

API

Para conectar Amazon Kendra ao OneDrive

Especifique um JSON do esquema da fonte de dados usando a API TemplateConfiguration. Você deve fornecer as seguintes informações:

  • Fonte de dados: especifique o tipo de fonte de dados como ONEDRIVEV2 quando você usa o esquema JSON TemplateConfiguration. Também especifique a fonte de dados como TEMPLATE quando você chama a API CreateDataSource.

  • ID do inquilino: especifique o ID do inquilino do Microsoft 365. Encontre o ID de inquilino nas propriedades do portal do Azure Active Directory ou no aplicativo OAuth.

  • Modo de sincronização: especifique como o Amazon Kendra deve atualizar o índice quando o conteúdo da fonte de dados é alterado. Ao sincronizar a fonte de dados com o Amazon Kendra pela primeira vez, é feito crawling de e indexação de todo o conteúdo por padrão. Você deve executar uma sincronização completa dos seus dados se o processo inicial falhar, mesmo que não escolha essa opção de modo de sincronização. Escolha uma das seguintes opções:

    • FORCED_FULL_CRAWL para indexar novamente todo o conteúdo, substituindo o já existente sempre que a fonte de dado é sincronizada com o índice.

    • FULL_CRAWL para indexar somente o conteúdo novo, modificado e excluído sempre que a fonte de dados é sincronizada com o índice. O Amazon Kendra pode usar o mecanismo da fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

    • CHANGE_LOG para indexar somente o conteúdo novo e modificado sempre que a fonte de dados é sincronizada com o índice. O Amazon Kendra pode usar o mecanismo da fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

  • Nome do recurso da Amazon (ARN) de senha: forneça o nome do recurso da Amazon (ARN) de uma senha do Secrets Manager que contenha as credenciais de autenticação criadas na conta do OneDrive.

    Para usar a autenticação OAuth 2.0, a senha é armazenada em uma estrutura JSON com as seguintes chaves:

    { "clientId": "client ID", "clientSecret": "client secret" }
  • Função do IAM: especifique o RoleArn ao chamar o CreateDataSource para fornecer uma função do IAM com permissões para acessar a senha do Secrets Manager e chamar as APIs públicas necessárias para o conector do OneDrive e o Amazon Kendra. Para obter mais informações, consulte Funções do IAM para fontes de dados do OneDrive.

Você também pode adicionar os seguintes recursos opcionais:

  • Nuvem privada virtual (VPC): especifique a VpcConfiguration quando ao chamar CreateDataSource. Para obter mais informações, consulte Configurar a Amazon Kendra para usar o Amazon VPC.

  • Filtros de inclusão e exclusão: especifique se deseja incluir ou excluir determinadas arquivos, seções do OneNote e páginas do OneNote.

    nota

    A maioria das fontes de dados usa padrões de expressão regular, que são padrões de inclusão ou exclusão chamados de filtros. Se você especificar um filtro de inclusão, somente o conteúdo que corresponda ao filtro de inclusão será indexado. Qualquer documento que não corresponda ao filtro de inclusão não é indexado. Se especificar um filtro de inclusão e exclusão, os documentos que corresponderem ao filtro de exclusão não serão indexados, mesmo que correspondam ao filtro de inclusão.

  • Crawler de identidade: especifique se deseja ativar o crawler de identidade do Amazon Kendra. O crawler de identidade usa as informações da lista de controle de acesso (ACL) de seus documentos para filtrar os resultados da pesquisa com base no acesso do usuário ou do grupo aos documentos. Se tiver uma ACL para seus documentos e usá-la, você também poderá optar por ativar o crawler de identidade do Amazon Kendra para configurar a filtragem no contexto do usuário dos resultados da pesquisa. Caso contrário, se o crawler de identidade estiver desativado, todos os documentos poderão ser pesquisados publicamente. Se quiser usar o controle de acesso para seus documentos e o crawler de identidade estiver desativado, você poderá usar como alternativa a API PutPrincipalMapping para fazer upload de informações de acesso de usuários e grupos para filtragem no contexto do usuário.

  • Mapeamentos de campo: você só pode mapear campos de índice integrados ou comuns para o conector do OneDrive do Amazon Kendra. O mapeamento de campo personalizado não está disponível para o conector do OneDrive devido às limitações de API. Para obter mais informações, consulte Mapeamento de campos de fonte de dados.

Consulte uma lista de outras chaves JSON importantes a serem configuradas em Esquema do modelo do OneDrive.