Cosa succede se un file robots.txt non è disponibile?Cosa succede se un file sitemaps.xml non è disponibile?Posso usare una soluzione serverless anziché Amazon EC2 o Amazon ECS?Perché il crawler riceve un codice di stato 403?

Domande frequenti

Cosa succede se un file robots.txt non è disponibile?

L'assenza di un file robots.txt non significa necessariamente che non si possa o non si debba eseguire la scansione di un sito Web. La scansione deve essere sempre eseguita in modo responsabile, rispettando le risorse del sito Web e i diritti impliciti del proprietario del sito Web.

Cosa succede se un file sitemaps.xml non è disponibile?

A seconda del requisito, è possibile effettuare una delle seguenti operazioni:

Cerca mappe del sito HTML: cerca una pagina di mappa del sito HTML che elenchi le pagine importanti del sito Web. Queste sono spesso collegate nel piè di pagina.
Esplora dalla home page: inizia a scansionare dalla home page e segui i link interni per scoprire altre pagine.
Analizza gli schemi degli URL: analizza la struttura degli URL del sito Web per identificare i modelli e generare potenziale in modo programmatico. URLs
Esamina il file robots.txt: controlla che nel file robots.txt non siano presenti pagine o directory non consentite. Questi possono fornire indizi sulla struttura del sito.
Rivedi gli endpoint delle API: alcuni siti Web offrono endpoint API che possono essere utilizzati per recuperare contenuti e strutturare informazioni.
Controlla i risultati dei motori di ricerca: utilizza i motori di ricerca per trovare pagine indicizzate del sito Web utilizzando il sito: operatore di ricerca, ad esempio. site:example.com
Analizza i backlink: analizza i backlink al sito Web per scoprire pagine importanti a cui si collegano altri siti.
Rivedi gli archivi web: controlla gli archivi Internet, come Wayback Machine, per le versioni precedenti del sito che potrebbero avere mappe del sito o strutture diverse.
Cerca gli schemi del sistema di gestione dei contenuti (CMS): se riesci a identificare il CMS, utilizza i modelli di URL comuni associati a quel sistema.
Conferma il JavaScript rendering: se il sito fa molto affidamento sull'utilizzo del sito JavaScript, assicurati che il crawler sia in grado di eseguire il rendering JavaScript per scoprire contenuti caricati dinamicamente. Per alcuni siti Web, il file sitemap.xml viene caricato dopo aver JavaScript abilitato il rendering.

Posso usare una soluzione serverless anziché Amazon EC2 o Amazon ECS?

Sì. AWS Lambdale funzioni per la scansione del Web possono essere un'opzione valida, in particolare per attività di scansione su scala ridotta o più modulari. Tuttavia, per le operazioni di scansione su larga scala e di lunga durata, potrebbe essere più adatto un approccio più tradizionale che utilizza istanze Amazon Elastic Compute Cloud (Amazon EC2) o Amazon Elastic Container Service (Amazon ECS). È importante valutare attentamente i requisiti e i compromessi specifici quando si sceglie il servizio di elaborazione giusto per le proprie esigenze di scansione web.

Perché il crawler riceve un codice di stato 403?

HTTP 403 è un codice di stato HTTP che significa che l'accesso alla risorsa richiesta è vietato. Se la richiesta è corretta, il server ha compreso la richiesta e non la soddisferà. Per evitare un codice di stato 403, puoi fare quanto segue:

Limita la frequenza di scansione.
Controlla se la mappa del sito o il file robots.txt consentono al crawler di accedere all'URL.
Prova con un agente utente mobile anziché un agente utente desktop.

Se nessuna delle opzioni precedenti funziona, dovresti rispettare la decisione dei proprietari del sito web e non eseguire la scansione della pagina.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Best practice

Risorse e passaggi successivi