Práticas recomendadas para rastreadores da web éticos - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Práticas recomendadas para rastreadores da web éticos

Esta seção discute as melhores práticas e as principais considerações éticas para criar um aplicativo de rastreamento da web que coleta dados ambientais, sociais e de governança (ESG). Ao aderir a essas melhores práticas, você pode proteger seu projeto e sua organização e contribuir para um ecossistema web mais responsável e sustentável. Essa abordagem ajuda você a acessar dados valiosos e usá-los para pesquisa, negócios e inovação de uma forma que respeite todas as partes interessadas.

Conformidade com Robots.txt

O arquivo robots.txt é usado em sites para se comunicar com rastreadores e bots da Web sobre quais partes do site devem ou não ser acessadas ou rastreadas. Quando um rastreador da Web encontra um arquivo robots.txt em um site, ele analisa as instruções e ajusta seu comportamento de rastreamento adequadamente. Isso evita que o rastreador viole as instruções do proprietário do site e mantém um relacionamento cooperativo entre o site e o rastreador. Portanto, o arquivo robots.txt ajuda no controle de acesso, na proteção de conteúdo confidencial, no gerenciamento de carga e na conformidade legal.

Convém seguir estas práticas recomendadas:

  • Sempre verifique e respeite as regras no arquivo robots.txt.

  • Antes de rastrear qualquer URL, verifique as regras para agentes de usuário de desktop e dispositivos móveis.

  • Se o site permitir somente agentes de usuários móveis, use um cabeçalho de agente diferente, como um cabeçalho de agente móvel, para sua solicitação.

A ausência de um arquivo robots.txt não significa necessariamente que você não pode ou não deve rastrear um site. O rastreamento deve sempre ser feito com responsabilidade, respeitando os recursos do site e os direitos implícitos do proprietário. Veja a seguir as melhores práticas recomendadas quando um robots.txt não está presente:

  • Suponha que o rastreamento seja permitido, mas proceda com cuidado.

  • Implemente práticas educadas de rastreamento.

  • Considere entrar em contato com o proprietário do site para obter permissão se você planeja realizar um rastreamento extensivo.

Limitação da taxa de rastreamento

Use uma taxa de rastreamento razoável para evitar sobrecarregar o servidor. Implemente atrasos entre as solicitações, conforme especificado pelo arquivo robots.txt ou usando um atraso aleatório. Para sites pequenos ou médios, uma solicitação a cada 10 a 15 segundos pode ser apropriada. Para sites maiores ou com permissões explícitas de rastreamento, 1 a 2 solicitações por segundo podem ser adequadas.

Transparência entre usuário e agente

Identifique seu rastreador no cabeçalho do agente de usuário. Essas informações do cabeçalho HTTP têm como objetivo identificar o dispositivo que está solicitando o conteúdo. Normalmente, a palavra bot é incluída no nome do agente. Às vezes, rastreadores e outros bots usam um campo importante no cabeçalho para incluir informações de contato.

Rastreamento eficiente

Use o mapa do site, desenvolvido pelo proprietário do site, para se concentrar nas páginas importantes.

Abordagem adaptativa

Programe o rastreador para mudar para um agente de usuário móvel se a versão para desktop não for bem-sucedida. Isso pode fornecer acesso ao rastreador e reduzir a pressão sobre o servidor do site.

Gerenciamento de erros

Certifique-se de que o rastreador manipule vários códigos de status HTTP adequadamente. Por exemplo, o rastreador deve pausar se encontrar um código de status 429 (“Muitas solicitações”). Se o rastreador receber continuamente 403 códigos de status (“Proibido”), considere interromper o rastreamento.

Rastreamento em lotes

Recomendamos fazer o seguinte:

  • Em vez de rastrear tudo de uma URLs vez, divida a tarefa em lotes menores. Isso pode ajudar a distribuir a carga e reduzir o risco de problemas, como tempos limite ou restrições de recursos.

  • Se se espera que a tarefa geral de rastreamento seja de longa duração, considere dividi-la em várias tarefas menores e mais gerenciáveis. Isso pode tornar o processo mais escalável e resiliente.

  • Se o número URLs de rastreamentos for relativamente pequeno, considere usar uma solução sem servidor, como. AWS Lambda As funções Lambda podem ser uma boa opção para tarefas de curta duração e orientadas por eventos, pois elas escalam e gerenciam automaticamente o gerenciamento de recursos.

Segurança

Para tarefas de computação de rastreamento na web, recomendamos que você configure o ambiente para permitir somente tráfego de saída. Isso ajuda a aumentar a segurança, minimizando a superfície de ataque e reduzindo o risco de acesso não autorizado de entrada. Permitir somente conexões de saída permite que o processo de rastreamento se comunique com os sites de destino e recupere os dados necessários, além de restringir qualquer tráfego de entrada que possa comprometer o sistema.

Outras considerações

Analise as seguintes considerações adicionais e as melhores práticas:

  • Verifique as diretrizes de rastreamento nos termos de serviço ou na política de privacidade do site.

  • Procure meta tags no HTML que possam fornecer diretivas de rastreamento.

  • Esteja ciente das restrições legais em sua jurisdição em relação à coleta e uso de dados.

  • Esteja preparado para parar de rastrear se solicitado pelo proprietário do site.