

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# FAQ
<a name="faq"></a>

## robots.txt 파일을 사용할 수 없는 경우 어떻게 해야 합니까?
<a name="faq1"></a>

robots.txt 파일이 없다고 해서 반드시 웹 사이트를 크롤링할 수 없거나 크롤링해서는 안 된다는 의미는 아닙니다. 웹 사이트의 리소스와 웹 사이트 소유자의 암시적 권리를 고려하여 항상 책임감 있게 크롤링해야 합니다.

## sitemaps.xml 파일을 사용할 수 없는 경우 어떻게 해야 합니까?
<a name="faq2"></a>

요구 사항에 따라 다음 중 하나를 수행할 수 있습니다.
+ **HTML 사이트맵 검색** - 웹 사이트의 중요 페이지를 나열하는 HTML 사이트맵 페이지를 찾습니다. 이는 종종 바닥글에 연결됩니다.
+ **홈페이지에서 크롤링 **- 홈페이지에서 크롤링을 시작하고 내부 링크를 따라 다른 페이지를 검색합니다.
+ **URL 패턴 분석** - 웹 사이트의 URL 구조를 분석하여 패턴을 식별하고 프로그래밍 방식으로 잠재적 URLs 생성합니다.
+ **robots.txt 파일 검토** - robots.txt 파일에 허용되지 않는 페이지 또는 디렉터리가 있는지 확인합니다. 이는 사이트 구조에 대한 단서를 제공할 수 있습니다.
+ **API 엔드포인트 검토** - 일부 웹 사이트는 콘텐츠 및 구조 정보를 검색하는 데 사용할 수 있는 API 엔드포인트를 제공합니다.
+ **검색 엔진 결과 확인** - 검색 엔진을 사용하여와 같은 [검색 연산자 사이트를](https://developers.google.com/search/docs/monitor-debug/search-operators/all-search-site) 사용하여 웹 사이트의 인덱싱된 페이지를 찾습니다`site:example.com`.
+ **백링크 분석** - 웹 사이트에 대한 백링크를 분석하여 다른 사이트가 연결하는 중요한 페이지를 검색합니다.
+ **웹 아카이브 검토** - [웨이백 머신](http://web.archive.org/)과 같은 인터넷 아카이브에서 사이트맵 또는 다른 구조가 있을 수 있는 사이트의 이전 버전을 확인합니다.
+ **콘텐츠 관리 시스템(CMS) 패턴 찾기** - CMS를 식별할 수 있는 경우 해당 시스템과 연결된 일반적인 URL 패턴을 사용합니다.
+ **JavaScript 렌더링 확인** - 사이트가 JavaScript를 많이 사용하는 경우 크롤러가 동적으로 로드된 콘텐츠를 검색하도록 JavaScript를 렌더링할 수 있는지 확인합니다. 일부 웹 사이트의 경우 JavaScript 렌더링이 활성화된 후 sitemap.xml 파일이 로드됩니다.

## Amazon EC2 또는 Amazon ECS 대신 서버리스 솔루션을 사용할 수 있나요?
<a name="faq3"></a>

예. 웹 크롤링 [AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html) 함수는 특히 소규모 또는 모듈식 크롤링 작업의 경우 실행 가능한 옵션일 수 있습니다. 그러나 대규모 장기 실행 크롤링 작업의 경우 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스 또는 Amazon Elastic Container Service(Amazon ECS)를 사용하는 보다 전통적인 접근 방식이 더 적합할 수 있습니다. 웹 크롤링 요구 사항에 적합한 컴퓨팅 서비스를 선택할 때는 특정 요구 사항과 장단점을 신중하게 평가하는 것이 중요합니다.

## 크롤러가 403 상태 코드를 가져오는 이유는 무엇입니까?
<a name="faq4"></a>

HTTP 403은 요청된 리소스에 대한 액세스가 금지되었음을 의미하는 HTTP 상태 코드입니다. 요청이 올바른 경우 서버는 요청을 이해했으며 요청을 이행하지 않습니다. 403 상태 코드를 방지하려면 다음을 수행할 수 있습니다.
+ 크롤링 속도를 제한합니다.
+ sitemap 또는 robots.txt 파일이 크롤러가 URL에 액세스하도록 허용하는지 확인합니다.
+ 데스크톱 사용자 에이전트 대신 모바일 사용자 에이전트를 사용해 보세요.

위 항목 중 어느 것도 작동하지 않는 경우 웹 사이트 소유자의 결정을 준수해야 하며 페이지를 크롤링해서는 안 됩니다.