Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Rastreo de páginas web para la base de conocimiento
El rastreador web proporcionado por Amazon Bedrock se conecta con y rastrea las URL que ha seleccionado para usarlas en su base de conocimientos de Amazon Bedrock. Puede rastrear las páginas de sitios web de acuerdo con el alcance o los límites que ha establecido para las URL que ha seleccionado. Puede rastrear páginas de sitios web mediante la Consola de administración de AWS para Amazon Bedrock
nota
El conector del origen de datos del Rastreador web está en versión preliminar y sujeto a cambios.
Al seleccionar los sitios web que se van a rastrear, se debe respetar la Política de uso aceptable de Amazon
El rastreador web respeta robots.txt de acuerdo con RFC 9309
Hay límites en cuanto al número de elementos de contenido de una página web y a los MB por elemento de contenido que se pueden rastrear. Consulte Cuotas de las bases de conocimientos.
Características admitidas
El rastreador web se conecta a las páginas HTML y las rastrea a partir de la URL inicial, recorriendo todos los enlaces secundarios situados bajo el mismo dominio principal y la misma ruta. Si alguna de las páginas HTML hace referencia a documentos compatibles, el rastreador web obtendrá estos documentos, independientemente de si se encuentran dentro del mismo dominio primario superior. Puede modificar el comportamiento de rastreo cambiando la configuración del rastreo. Para ello, consulte Configuración de la conexión.
Se admite lo siguiente:
-
Seleccionar varias URL de origen para rastrearlas y establecer el alcance de las URL para que rastreen solo el host o también incluyan subdominios
-
Rastrear las páginas web estáticas que forman parte de las URL de origen
-
Especificar un sufijo de agente de usuario personalizado para establecer reglas para su propio rastreador
-
Incluir o excluir determinadas URL que coincidan con un patrón de filtro
-
Respete las directivas estándar de robots.txt como “Allow” y “Disallow”.
-
Limite el alcance de las URL al rastreo y, si lo desea, excluya las URL que coincidan con un patrón de filtro.
-
Limitar la velocidad de rastreo de las URL y el número máximo de páginas que se rastrean
-
Ver el estado de las URL rastreadas en Amazon CloudWatch
Requisitos previos
Para usar el rastreador web, asegúrese de:
-
Comprobar que tiene autorización para rastrear las URL de origen.
-
Comprobar que la ruta a robots.txt correspondiente a las URL de origen no impida el rastreo de las URL. El rastreador web sigue los estándares de robots.txt:
disallowde forma predeterminada si no se encuentra robots.txt en el sitio web. El rastreador web respeta robots.txt de acuerdo con RFC 9309. También puede especificar un sufijo de agente de usuario personalizado para establecer reglas para su propio rastreador. Para obtener más información, consulte el acceso a la URL del Rastreador web en las instrucciones de Configuración de la conexión de esta página. -
Activar la entrega de Registros de CloudWatch y seguir los ejemplos de registros del Rastreador web para ver el estado de su trabajo de ingesta de datos al ingerir contenido web y si no se pueden recuperar determinadas URL
nota
Al seleccionar los sitios web que se van a rastrear, se debe respetar la Política de uso aceptable de Amazon
Configuración de la conexión
Para obtener más información sobre el alcance de la sincronización para el rastreo de URL, los filtros de inclusión y exclusión, el acceso a URL, la sincronización incremental y su funcionamiento, seleccione lo siguiente:
Puede limitar el alcance de las URL a rastrear en función de la relación específica de cada URL de página con las URL semilla. Para que los rastreos sean más rápidos, puede limitar las URL a las que tengan el mismo host y la misma ruta URL inicial que la URL semilla. Para rastreos más amplios, puede elegir rastrear las URL con el mismo host o dentro de cualquier subdominio de la URL semilla.
Puede elegir entre las siguientes opciones.
-
Predeterminado: limita el rastreo a las páginas web que pertenecen al mismo host y con la misma ruta URL inicial. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, solo se rastreará esta ruta y las páginas web que se extiendan a partir de dicha ruta, como “https://aws.amazon.com/bedrock/agents/”. Por ejemplo, las URL hermanas, como “https://aws.amazon.com/ec2/”, no se rastrean.
-
Solo host: limita el rastreo a las páginas web que pertenecen al mismo host. Por ejemplo, con una URL semilla “https://aws.amazon.com/bedrock/”, también se rastrearán las páginas web “https://aws.amazon.com”, como “https://aws.amazon.com/ec2”.
-
Subdominios: incluyen el rastreo de cualquier página web que tenga el mismo dominio principal que la URL semilla. Por ejemplo, si la URL semilla es “https://aws.amazon.com/bedrock/”, se rastreará cualquier página web que contenga “amazon.com” (subdominio), como “https://www.amazon.com”.
nota
Asegúrese de no rastrear páginas web potencialmente excesivas. No se recomienda rastrear sitios web grandes, como wikipedia.org, sin filtros ni límites de alcance. Rastrear sitios web de gran tamaño puede llevar mucho tiempo.
Los tipos de archivos compatibles se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo.
El Rastreador web admite sitios web estáticos.
También puede limitar la velocidad de rastreo de las URL para controlar la limitación de velocidad de rastreo. Puede definir el número de direcciones URL rastreadas por host por minuto. Además, también puede establecer el número máximo (hasta 25 000) de páginas web totales que se van a rastrear. Tenga en cuenta que si el número total de páginas web de las URL de origen supera el máximo establecido, el trabajo de sincronización o ingesta del origen de datos fallará.
Puede incluir o excluir determinadas URL de acuerdo con su alcance. Los tipos de archivos compatibles se rastrean independientemente del alcance y si no existe un patrón de exclusión para el tipo de archivo. Si especifica un filtro de inclusión y exclusión, y ambos coinciden con una URL, el filtro de exclusión tiene prioridad y el documento no se rastrea.
importante
Se rechazan los filtros de patrones de expresiones regulares problemáticos que provocan retrocesos catastróficos y búsquedas anticipadas.
Se muestra un ejemplo de un patrón de filtro de expresiones regulares para excluir las direcciones URL que terminan en “.pdf” o los archivos adjuntos de páginas web en PDF: “.*\.pdf$”.
Puede utilizar el rastreador web para rastrear las páginas de los sitios web que está autorizado a rastrear.
Al seleccionar los sitios web que se van a rastrear, se debe respetar la Política de uso aceptable de Amazon
El rastreador web respeta robots.txt de acuerdo con RFC 9309
Puede especificar que algunos bots del agente de usuario “permitan” o “no permitan” que el agente de usuario rastree las URL de origen. Puede modificar el archivo robots.txt de su sitio web para controlar la forma en que el Rastreador web rastrea las URL de origen. El rastreador buscará primero las reglas bedrockbot-UUID y, después, las reglas bedrockbot genéricas en el archivo robots.txt.
También puede añadir un sufijo User-Agent para incluir su rastreador en una lista de rastreadores permitidos en los sistemas de protección contra bots. Tenga en cuenta que no es necesario añadir este sufijo al archivo robots.txt para garantizar que nadie pueda suplantar la cadena User Agent. Para permitir que el Rastreador web rastree todo el contenido del sitio web e impedir que otros robots lo rastreen, utilice la siguiente directiva:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Cada vez que se ejecuta el rastreador web, recupera el contenido de todas las URL a las que se puede acceder desde las URL de origen que coinciden con el alcance y los filtros. Para las sincronizaciones incrementales después de la primera sincronización de todo el contenido, Amazon Bedrock actualizará su base de conocimientos con contenido nuevo y modificado y eliminará el contenido antiguo que ya no esté presente. En ocasiones, es posible que el rastreador no pueda distinguir si el contenido se ha eliminado del sitio web y, en ese caso, conservará el contenido antiguo de su base de conocimientos.
Para sincronizar el origen de datos con la base de conocimientos, utilice la API de StartIngestionJob o seleccione su base de conocimientos en la consola y seleccione Sincronizar en la sección de información general del origen de datos.
importante
Todos los datos que sincronice desde el origen de datos estarán disponibles para cualquier persona que tenga permisos bedrock:Retrieve para obtenerlos. Esto también puede incluir los datos con permisos de orígenes de datos controlados. Para obtener más información, consulte Permisos de la base de conocimientos.