翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
よくある質問
robots.txt ファイルが使用できない場合はどうなりますか?
robots.txt ファイルがないからといって、ウェブサイトをクロールできない、またはクロールすべきではないとは限りません。クロールは、ウェブサイトのリソースとウェブサイト所有者の暗黙的な権利を尊重し、常に責任を持って行う必要があります。
sitemaps.xml ファイルが使用できない場合はどうなりますか?
要件に応じて、次のいずれかを実行できます。
-
HTML サイトマップの検索 – ウェブサイトの重要なページを一覧表示する HTML サイトマップページを探します。これらはフッターにリンクされることがよくあります。
-
ホームページからのクロール – ホームページからのクロールを開始し、内部リンクに従って他のページを検出します。
-
URL パターンの分析 – ウェブサイトの URL 構造を分析してパターンを特定し、潜在的な URLs。
-
robots.txt ファイルを確認する – robots.txt ファイルで、許可されていないページやディレクトリがないかどうかを確認します。これらは、サイト構造に関する手がかりを提供することができます。
-
API エンドポイントの確認 – 一部のウェブサイトでは、コンテンツと構造情報の取得に使用できる API エンドポイントを提供しています。
-
検索エンジンの結果を確認する – 検索エンジンを使用して、サイト: などの検索演算子
を使用してウェブサイトのインデックス付きページを検索します site:example.com。 -
バックリンクを分析する – ウェブサイトへのバックリンクを分析して、他のサイトがリンクしている重要なページを見つけます。
-
ウェブアーカイブの確認 – Wayback Machine
などのインターネットアーカイブで、サイトマップや異なる構造を持つ可能性のある古いバージョンのサイトを確認します。 -
コンテンツ管理システム (CMS) パターンを探す – CMS を特定できる場合は、そのシステムに関連付けられた一般的な URL パターンを使用します。
-
JavaScript レンダリングの確認 – サイトが JavaScript に大きく依存している場合は、クローラーが JavaScript をレンダリングして動的にロードされたコンテンツを検出できることを確認してください。一部のウェブサイトでは、JavaScript レンダリングが有効になった後に sitemap.xml ファイルがロードされます。
Amazon EC2 または Amazon ECS の代わりにサーバーレスソリューションを使用できますか?
はい。ウェブクロールの AWS Lambda関数は、特に小規模またはよりモジュール式のクロールタスクの場合、実行可能なオプションです。ただし、大規模で長時間実行されるクローリングオペレーションでは、Amazon Elastic Compute Cloud (Amazon EC2) インスタンスまたは Amazon Elastic Container Service (Amazon ECS) を使用する従来のアプローチの方が適している場合があります。ウェブクロールのニーズに適したコンピューティングサービスを選択するときは、特定の要件とトレードオフを慎重に評価することが重要です。
クローラが 403 ステータスコードを取得するのはなぜですか?
HTTP 403 は、リクエストされたリソースへのアクセスが禁止される HTTP ステータスコードです。リクエストが正しい場合、サーバーはリクエストを理解し、それを達成しません。403 ステータスコードを防ぐには、次の操作を行います。
-
クロールレートを制限します。
-
sitemap または robots.txt ファイルで、クローラが URL にアクセスできるかどうかを確認します。
-
デスクトップユーザーエージェントではなくモバイルユーザーエージェントで試してください。
上記のいずれも機能しない場合は、ウェブサイト所有者の決定を尊重し、ページをクロールしないでください。