robots.txt ファイルが使用できない場合はどうなりますか?sitemaps.xml ファイルが使用できない場合はどうなりますか?Amazon EC2 または Amazon ECS の代わりにサーバーレスソリューションを使用できますか?クローラが 403 ステータスコードを取得するのはなぜですか?

よくある質問

robots.txt ファイルが使用できない場合はどうなりますか?

robots.txt ファイルがないからといって、ウェブサイトをクロールできない、またはクロールすべきではないとは限りません。クロールは、ウェブサイトのリソースとウェブサイト所有者の暗黙的な権利を尊重し、常に責任を持って行う必要があります。

sitemaps.xml ファイルが使用できない場合はどうなりますか?

要件に応じて、次のいずれかを実行できます。

HTML サイトマップの検索 – ウェブサイトの重要なページを一覧表示する HTML サイトマップページを探します。これらはフッターにリンクされることがよくあります。
ホームページからのクロール – ホームページからのクロールを開始し、内部リンクに従って他のページを検出します。
URL パターンの分析 – ウェブサイトの URL 構造を分析してパターンを特定し、潜在的な URLs。
robots.txt ファイルを確認する – robots.txt ファイルで、許可されていないページやディレクトリがないかどうかを確認します。これらは、サイト構造に関する手がかりを提供することができます。
API エンドポイントの確認 – 一部のウェブサイトでは、コンテンツと構造情報の取得に使用できる API エンドポイントを提供しています。
検索エンジンの結果を確認する – 検索エンジンを使用して、サイト: などの検索演算子を使用してウェブサイトのインデックス付きページを検索しますsite:example.com。
バックリンクを分析する – ウェブサイトへのバックリンクを分析して、他のサイトがリンクしている重要なページを見つけます。
ウェブアーカイブの確認 – Wayback Machine などのインターネットアーカイブで、サイトマップや異なる構造を持つ可能性のある古いバージョンのサイトを確認します。
コンテンツ管理システム (CMS) パターンを探す – CMS を特定できる場合は、そのシステムに関連付けられた一般的な URL パターンを使用します。
JavaScript レンダリングの確認 – サイトが JavaScript に大きく依存している場合は、クローラーが JavaScript をレンダリングして動的にロードされたコンテンツを検出できることを確認してください。一部のウェブサイトでは、JavaScript レンダリングが有効になった後に sitemap.xml ファイルがロードされます。

Amazon EC2 または Amazon ECS の代わりにサーバーレスソリューションを使用できますか?

はい。ウェブクロールの AWS Lambda関数は、特に小規模またはよりモジュール式のクロールタスクの場合、実行可能なオプションです。ただし、大規模で長時間実行されるクローリングオペレーションでは、Amazon Elastic Compute Cloud (Amazon EC2) インスタンスまたは Amazon Elastic Container Service (Amazon ECS) を使用する従来のアプローチの方が適している場合があります。ウェブクロールのニーズに適したコンピューティングサービスを選択するときは、特定の要件とトレードオフを慎重に評価することが重要です。

クローラが 403 ステータスコードを取得するのはなぜですか?

HTTP 403 は、リクエストされたリソースへのアクセスが禁止される HTTP ステータスコードです。リクエストが正しい場合、サーバーはリクエストを理解し、それを達成しません。403 ステータスコードを防ぐには、次の操作を行います。

クロールレートを制限します。
sitemap または robots.txt ファイルで、クローラが URL にアクセスできるかどうかを確認します。
デスクトップユーザーエージェントではなくモバイルユーザーエージェントで試してください。

上記のいずれも機能しない場合は、ウェブサイト所有者の決定を尊重し、ページをクロールしないでください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ベストプラクティス

次のステップとリソース