

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# よくある質問
<a name="faq"></a>

## robots.txt ファイルが使用できない場合はどうなりますか?
<a name="faq1"></a>

robots.txt ファイルがないからといって、ウェブサイトをクロールできない、またはクロールすべきではないとは限りません。クロールは、ウェブサイトのリソースとウェブサイト所有者の暗黙的な権利を尊重し、常に責任を持って行う必要があります。

## sitemaps.xml ファイルが使用できない場合はどうなりますか?
<a name="faq2"></a>

要件に応じて、次のいずれかを実行できます。
+ **HTML サイトマップの検索** – ウェブサイトの重要なページを一覧表示する HTML サイトマップページを探します。これらはフッターにリンクされることがよくあります。
+ **ホームページからのクロール** – ホームページからのクロールを開始し、内部リンクに従って他のページを検出します。
+ **URL パターンの分析** – ウェブサイトの URL 構造を分析してパターンを特定し、潜在的な URLs。
+ **robots.txt ファイルを確認する** – robots.txt ファイルで、許可されていないページやディレクトリがないかどうかを確認します。これらは、サイト構造に関する手がかりを提供することができます。
+ **API エンドポイント**の確認 – 一部のウェブサイトでは、コンテンツと構造情報の取得に使用できる API エンドポイントを提供しています。
+ **検索エンジンの結果を確認する** – 検索エンジンを使用して、サイト: などの[検索演算子](https://developers.google.com/search/docs/monitor-debug/search-operators/all-search-site)を使用してウェブサイトのインデックス付きページを検索します`site:example.com`。
+ **バックリンクを分析する** – ウェブサイトへのバックリンクを分析して、他のサイトがリンクしている重要なページを見つけます。
+ **ウェブアーカイブの確認** – [Wayback Machine ](http://web.archive.org/)などのインターネットアーカイブで、サイトマップや異なる構造を持つ可能性のある古いバージョンのサイトを確認します。
+ **コンテンツ管理システム (CMS) パターンを探す** – CMS を特定できる場合は、そのシステムに関連付けられた一般的な URL パターンを使用します。
+ **JavaScript レンダリングの確認** – サイトが JavaScript に大きく依存している場合は、クローラーが JavaScript をレンダリングして動的にロードされたコンテンツを検出できることを確認してください。一部のウェブサイトでは、JavaScript レンダリングが有効になった後に sitemap.xml ファイルがロードされます。

## Amazon EC2 または Amazon ECS の代わりにサーバーレスソリューションを使用できますか?
<a name="faq3"></a>

はい。ウェブクロールの [AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html)関数は、特に小規模またはよりモジュール式のクロールタスクの場合、実行可能なオプションです。ただし、大規模で長時間実行されるクローリングオペレーションでは、Amazon Elastic Compute Cloud (Amazon EC2) インスタンスまたは Amazon Elastic Container Service (Amazon ECS) を使用する従来のアプローチの方が適している場合があります。ウェブクロールのニーズに適したコンピューティングサービスを選択するときは、特定の要件とトレードオフを慎重に評価することが重要です。

## クローラが 403 ステータスコードを取得するのはなぜですか?
<a name="faq4"></a>

HTTP 403 は、リクエストされたリソースへのアクセスが禁止される HTTP ステータスコードです。リクエストが正しい場合、サーバーはリクエストを理解し、それを達成しません。403 ステータスコードを防ぐには、次の操作を行います。
+ クロールレートを制限します。
+ sitemap または robots.txt ファイルで、クローラが URL にアクセスできるかどうかを確認します。
+ デスクトップユーザーエージェントではなくモバイルユーザーエージェントで試してください。

上記のいずれも機能しない場合は、ウェブサイト所有者の決定を尊重し、ページをクロールしないでください。