よくある質問 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

よくある質問

robots.txt ファイルが使用できない場合はどうなりますか?

robots.txt ファイルがないからといって、ウェブサイトをクロールできない、またはクロールすべきではないとは限りません。クロールは、ウェブサイトのリソースとウェブサイト所有者の暗黙的な権利を尊重し、常に責任を持って行う必要があります。

sitemaps.xml ファイルが使用できない場合はどうなりますか?

要件に応じて、次のいずれかを実行できます。

  • HTML サイトマップの検索 – ウェブサイトの重要なページを一覧表示する HTML サイトマップページを探します。これらはフッターにリンクされることがよくあります。

  • ホームページからのクロール – ホームページからのクロールを開始し、内部リンクに従って他のページを検出します。

  • URL パターンの分析 – ウェブサイトの URL 構造を分析してパターンを特定し、潜在的な URLs。

  • robots.txt ファイルを確認する – robots.txt ファイルで、許可されていないページやディレクトリがないかどうかを確認します。これらは、サイト構造に関する手がかりを提供することができます。

  • API エンドポイントの確認 – 一部のウェブサイトでは、コンテンツと構造情報の取得に使用できる API エンドポイントを提供しています。

  • 検索エンジンの結果を確認する – 検索エンジンを使用して、サイト: などの検索演算子を使用してウェブサイトのインデックス付きページを検索しますsite:example.com

  • バックリンクを分析する – ウェブサイトへのバックリンクを分析して、他のサイトがリンクしている重要なページを見つけます。

  • ウェブアーカイブの確認Wayback Machine などのインターネットアーカイブで、サイトマップや異なる構造を持つ可能性のある古いバージョンのサイトを確認します。

  • コンテンツ管理システム (CMS) パターンを探す – CMS を特定できる場合は、そのシステムに関連付けられた一般的な URL パターンを使用します。

  • JavaScript レンダリングの確認 – サイトが JavaScript に大きく依存している場合は、クローラーが JavaScript をレンダリングして動的にロードされたコンテンツを検出できることを確認してください。一部のウェブサイトでは、JavaScript レンダリングが有効になった後に sitemap.xml ファイルがロードされます。

Amazon EC2 または Amazon ECS の代わりにサーバーレスソリューションを使用できますか?

はい。ウェブクロールの AWS Lambda関数は、特に小規模またはよりモジュール式のクロールタスクの場合、実行可能なオプションです。ただし、大規模で長時間実行されるクローリングオペレーションでは、Amazon Elastic Compute Cloud (Amazon EC2) インスタンスまたは Amazon Elastic Container Service (Amazon ECS) を使用する従来のアプローチの方が適している場合があります。ウェブクロールのニーズに適したコンピューティングサービスを選択するときは、特定の要件とトレードオフを慎重に評価することが重要です。

クローラが 403 ステータスコードを取得するのはなぜですか?

HTTP 403 は、リクエストされたリソースへのアクセスが禁止される HTTP ステータスコードです。リクエストが正しい場合、サーバーはリクエストを理解し、それを達成しません。403 ステータスコードを防ぐには、次の操作を行います。

  • クロールレートを制限します。

  • sitemap または robots.txt ファイルで、クローラが URL にアクセスできるかどうかを確認します。

  • デスクトップユーザーエージェントではなくモバイルユーザーエージェントで試してください。

上記のいずれも機能しない場合は、ウェブサイト所有者の決定を尊重し、ページをクロールしないでください。