Rastreo de páginas web para la base de conocimiento - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Rastreo de páginas web para la base de conocimiento

El rastreador web proporcionado por Amazon Bedrock se conecta con y rastrea las URL que ha seleccionado para usarlas en su base de conocimientos de Amazon Bedrock. Puede rastrear las páginas de sitios web de acuerdo con el alcance o los límites que ha establecido para las URL que ha seleccionado. Puede rastrear páginas de sitios web mediante la Consola de administración de AWS para Amazon Bedrock o la API CreateDataSource (consulte los SDK y la AWS CLI compatibles con Amazon Bedrock). Actualmente, solo el almacén vectorial de Amazon OpenSearch sin servidor se puede usar con este origen de datos.

nota

El conector del origen de datos del Rastreador web está en versión preliminar y sujeto a cambios.

Al seleccionar los sitios web que se van a rastrear, se debe respetar la Política de uso aceptable de Amazon y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el Rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para rastrear, y que debe respetar las configuraciones de robots-txt.

El rastreador web respeta robots.txt de acuerdo con RFC 9309

Hay límites en cuanto al número de elementos de contenido de una página web y a los MB por elemento de contenido que se pueden rastrear. Consulte Cuotas de las bases de conocimientos.

Características admitidas

El rastreador web se conecta a las páginas HTML y las rastrea a partir de la URL inicial, recorriendo todos los enlaces secundarios situados bajo el mismo dominio principal y la misma ruta. Si alguna de las páginas HTML hace referencia a documentos compatibles, el rastreador web obtendrá estos documentos, independientemente de si se encuentran dentro del mismo dominio primario superior. Puede modificar el comportamiento de rastreo cambiando la configuración del rastreo. Para ello, consulte Configuración de la conexión.

Se admite lo siguiente:

  • Seleccionar varias URL de origen para rastrearlas y establecer el alcance de las URL para que rastreen solo el host o también incluyan subdominios

  • Rastrear las páginas web estáticas que forman parte de las URL de origen

  • Especificar un sufijo de agente de usuario personalizado para establecer reglas para su propio rastreador

  • Incluir o excluir determinadas URL que coincidan con un patrón de filtro

  • Respete las directivas estándar de robots.txt como “Allow” y “Disallow”.

  • Limite el alcance de las URL al rastreo y, si lo desea, excluya las URL que coincidan con un patrón de filtro.

  • Limitar la velocidad de rastreo de las URL y el número máximo de páginas que se rastrean

  • Ver el estado de las URL rastreadas en Amazon CloudWatch

Requisitos previos

Para usar el rastreador web, asegúrese de:

  • Comprobar que tiene autorización para rastrear las URL de origen.

  • Comprobar que la ruta a robots.txt correspondiente a las URL de origen no impida el rastreo de las URL. El rastreador web sigue los estándares de robots.txt: disallow de forma predeterminada si no se encuentra robots.txt en el sitio web. El rastreador web respeta robots.txt de acuerdo con RFC 9309. También puede especificar un sufijo de agente de usuario personalizado para establecer reglas para su propio rastreador. Para obtener más información, consulte el acceso a la URL del Rastreador web en las instrucciones de Configuración de la conexión de esta página.

  • Activar la entrega de Registros de CloudWatch y seguir los ejemplos de registros del Rastreador web para ver el estado de su trabajo de ingesta de datos al ingerir contenido web y si no se pueden recuperar determinadas URL

nota

Al seleccionar los sitios web que se van a rastrear, se debe respetar la Política de uso aceptable de Amazon y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para indexar.

Configuración de la conexión

Para obtener más información sobre el alcance de la sincronización para el rastreo de URL, los filtros de inclusión y exclusión, el acceso a URL, la sincronización incremental y su funcionamiento, seleccione lo siguiente:

Puede limitar el alcance de las URL a rastrear en función de la relación específica de cada URL de página con las URL semilla. Para que los rastreos sean más rápidos, puede limitar las URL a las que tengan el mismo host y la misma ruta URL inicial que la URL semilla. Para rastreos más amplios, puede elegir rastrear las URL con el mismo host o dentro de cualquier subdominio de la URL semilla.

Puede elegir entre las siguientes opciones.

  • Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo host y con la misma ruta URL inicial. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, solo se rastreará esta ruta y las páginas web que se extiendan a partir de dicha ruta, como “https://aws.amazon.com/bedrock/agents/”. Por ejemplo, las URL hermanas, como “https://aws.amazon.com/ec2/”, no se rastrean.

  • Solo host: limita el rastreo a las páginas web que pertenecen al mismo host. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, también se rastrearán las páginas web “https://aws.amazon.com”, como “https://aws.amazon.com/ec2”.

  • Subdominios: incluyen el rastreo de cualquier página web que tenga el mismo dominio principal que la URL semilla. Por ejemplo, si la URL semilla es “https://aws.amazon.com/bedrock/”, se rastreará cualquier página web que contenga “amazon.com” (subdominio), como “https://www.amazon.com”.

nota

Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño puede llevar mucho tiempo.

Los tipos de archivos compatibles se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.

El Rastreador web admite sitios web estáticos.

También puede limitar la velocidad de rastreo de las URL para controlar la limitación de velocidad de rastreo. Puede definir el número de direcciones URL rastreadas por host por minuto. Además, también puede establecer el número máximo (hasta 25 000) de páginas web totales que se van a rastrear. Tenga en cuenta que si el número total de páginas web de las URL de origen supera el máximo establecido, el trabajo de sincronización o ingesta del origen de datos fallará.

Puede incluir o excluir determinadas URL de acuerdo con su alcance. Los tipos de archivos compatibles se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo. Si especifica un filtro de inclusión y exclusión, y ambos coinciden con una URL, el filtro de exclusión tiene prioridad y el documento no se rastrea.

importante

Se rechazan los filtros de patrones de expresiones regulares problemáticos que provocan retrocesos catastróficos y búsquedas anticipadas.

Se muestra un ejemplo de un patrón de filtro de expresiones regulares para excluir las direcciones URL que terminan en “.pdf” o los archivos adjuntos de páginas web en PDF: “.*\.pdf$”.

Puede utilizar el rastreador web para rastrear las páginas de los sitios web que está autorizado a rastrear.

Al seleccionar los sitios web que se van a rastrear, se debe respetar la Política de uso aceptable de Amazon y todas las demás condiciones de Amazon. Recuerde que solo debe utilizar el rastreador web para indexar sus propias páginas web o las páginas web que tenga autorización para indexar.

El rastreador web respeta robots.txt de acuerdo con RFC 9309

Puede especificar que algunos bots del agente de usuario “permitan” o “no permitan” que el agente de usuario rastree las URL de origen. Puede modificar el archivo robots.txt de su sitio web para controlar la forma en que el Rastreador web rastrea las URL de origen. El rastreador buscará primero las reglas bedrockbot-UUID y, después, las reglas bedrockbot genéricas en el archivo robots.txt.

También puede añadir un sufijo User-Agent para incluir su rastreador en una lista de rastreadores permitidos en los sistemas de protección contra bots. Tenga en cuenta que no es necesario añadir este sufijo al archivo robots.txt para garantizar que nadie pueda suplantar la cadena User Agent. Para permitir que el Rastreador web rastree todo el contenido del sitio web e impedir que otros robots lo rastreen, utilice la siguiente directiva:

User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Cada vez que se ejecuta el rastreador web, recupera el contenido de todas las URL a las que se puede acceder desde las URL de origen que coinciden con el alcance y los filtros. Para las sincronizaciones incrementales después de la primera sincronización de todo el contenido, Amazon Bedrock actualizará su base de conocimientos con contenido nuevo y modificado y eliminará el contenido antiguo que ya no esté presente. En ocasiones, es posible que el rastreador no pueda distinguir si el contenido se ha eliminado del sitio web y, en ese caso, conservará el contenido antiguo de su base de conocimientos.

Para sincronizar el origen de datos con la base de conocimientos, utilice la API de StartIngestionJob o seleccione su base de conocimientos en la consola y seleccione Sincronizar en la sección de información general del origen de datos.

importante

Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos bedrock:Retrieve para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte Permisos de la base de conocimientos.

Console
Conexión de un origen de datos del Rastreador web a la base de conocimiento
  1. Siga los pasos que se indican en Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock y elija Rastreador web como el origen de datos.

  2. Proporcione un nombre y una descripción opcional para el origen de datos.

  3. Escriba las URL de origen de las URL que desea rastrear. Puede añadir hasta nueve direcciones URL adicionales seleccionando Agregar URL de origen. Al proporcionar una URL de origen, confirma que tiene autorización para rastrear su dominio.

  4. En la sección Configuración avanzada, si lo desea, puede configurar lo siguiente:

    • Clave de KMS para el almacenamiento de datos transitorios: : puede cifrar los datos transitorios y, al mismo tiempo, convertirlos en incrustaciones con la Clave administrada de AWS predeterminada o con su propia clave de KMS. Para obtener más información, consulte Cifrado del almacenamiento de datos transitorios durante la ingesta de datos.

    • Política de eliminación de datos: puede eliminar las incrustaciones vectoriales de su origen de datos que están almacenadas en el almacén de vectores de forma predeterminada u optar por conservar los datos del almacén de vectores.

  5. (Opcional) Proporcione un sufijo de agente de usuario para bedrock-UUID- que identifique el rastreador o el bot cuando accede a un servidor web.

  6. Configure lo siguiente en la sección Alcance de sincronización:

    1. Seleccione un intervalo de dominios de sitios web para rastrear las URL de origen:

      • Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo host y con la misma ruta URL inicial. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, solo se rastreará esta ruta y las páginas web que se extiendan a partir de dicha ruta, como “https://aws.amazon.com/bedrock/agents/”. Por ejemplo, las URL hermanas, como “https://aws.amazon.com/ec2/”, no se rastrean.

      • Solo host: limita el rastreo a las páginas web que pertenecen al mismo host. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, también se rastrearán las páginas web “https://aws.amazon.com”, como “https://aws.amazon.com/ec2”.

      • Subdominios: incluyen el rastreo de cualquier página web que tenga el mismo dominio principal que la URL semilla. Por ejemplo, si la URL semilla es “https://aws.amazon.com/bedrock/”, se rastreará cualquier página web que contenga “amazon.com” (subdominio), como “https://www.amazon.com”.

      nota

      Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño puede llevar mucho tiempo.

      Los tipos de archivos compatibles se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.

    2. Introduzca la Limitación máxima de la velocidad de rastreo. Introduzca entre 1 y 300 URL por host y por minuto. Una velocidad de rastreo más alta aumenta la carga, pero lleva menos tiempo.

    3. Introduzca un valor en Cantidad máxima de páginas para la sincronización de orígenes de datos comprendido entre 1 y 25 000. Limite el número máximo de páginas web rastreadas desde las URL de origen. Si las páginas web superan este número, se producirá un error en la sincronización del origen de datos y no se ingerirá ninguna página web.

    4. Para los patrones de expresiones regulares de URL (opcional), puede añadir patrones de inclusión o de exclusión. Para ello, introduzca el patrón de expresión regular en el cuadro. Puede añadir hasta 25 patrones de filtro de inclusión y 25 de exclusión seleccionando Agregar nuevo patrón. Los patrones de inclusión y exclusión se rastrean de acuerdo con su alcance. Si hay un conflicto, prevalece el patrón de exclusión.

  7. (Opcional) En la sección Análisis y fragmentación del contenido, puede personalizar la forma de analizar y fragmentar los datos. Para obtener más información sobre estas personalizaciones, consulte los siguientes recursos:

  8. Continúe eligiendo un modelo de incrustación y un almacén de vectores. Para ver los pasos restantes, regrese a Creación de una base de conocimiento conectándola a un origen de datos de Bases de conocimiento de Amazon Bedrock y continúe desde allí después de conectar el origen de datos.

API

Para conectar una base de conocimiento a un origen de datos mediante WebCrawler, envíe una solicitud CreateDataSource con un punto de conexión en tiempo de compilación de Agentes para Amazon Bedrock, especifique WEB en el campo type de DataSourceConfiguration e incluya el campo webConfiguration. El siguiente ejemplo muestra la configuración del rastreador web para su base de conocimientos de Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50, "maxPages": 100 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ], "userAgent": "CustomUserAgent" } }, "type": "WEB" }

Para obtener información sobre las personalizaciones que puede aplicar a la ingesta mediante la inclusión del campo vectorIngestionConfiguration opcional, consulte Personalización de la ingesta de un origen de datos.