robots.txt 파일을 사용할 수 없는 경우 어떻게 해야 합니까?sitemaps.xml 파일을 사용할 수 없는 경우 어떻게 해야 합니까?Amazon EC2 또는 Amazon ECS 대신 서버리스 솔루션을 사용할 수 있나요?크롤러가 403 상태 코드를 가져오는 이유는 무엇입니까?

FAQ

robots.txt 파일을 사용할 수 없는 경우 어떻게 해야 합니까?

robots.txt 파일이 없다고 해서 반드시 웹 사이트를 크롤링할 수 없거나 크롤링해서는 안 된다는 의미는 아닙니다. 웹 사이트의 리소스와 웹 사이트 소유자의 암시적 권리를 고려하여 항상 책임감 있게 크롤링해야 합니다.

sitemaps.xml 파일을 사용할 수 없는 경우 어떻게 해야 합니까?

요구 사항에 따라 다음 중 하나를 수행할 수 있습니다.

HTML 사이트맵 검색 - 웹 사이트의 중요 페이지를 나열하는 HTML 사이트맵 페이지를 찾습니다. 이는 종종 바닥글에 연결됩니다.
홈페이지에서 크롤링 - 홈페이지에서 크롤링을 시작하고 내부 링크를 따라 다른 페이지를 검색합니다.
URL 패턴 분석 - 웹 사이트의 URL 구조를 분석하여 패턴을 식별하고 프로그래밍 방식으로 잠재적 URLs 생성합니다.
robots.txt 파일 검토 - robots.txt 파일에 허용되지 않는 페이지 또는 디렉터리가 있는지 확인합니다. 이는 사이트 구조에 대한 단서를 제공할 수 있습니다.
API 엔드포인트 검토 - 일부 웹 사이트는 콘텐츠 및 구조 정보를 검색하는 데 사용할 수 있는 API 엔드포인트를 제공합니다.
검색 엔진 결과 확인 - 검색 엔진을 사용하여와 같은 검색 연산자 사이트를 사용하여 웹 사이트의 인덱싱된 페이지를 찾습니다site:example.com.
백링크 분석 - 웹 사이트에 대한 백링크를 분석하여 다른 사이트가 연결하는 중요한 페이지를 검색합니다.
웹 아카이브 검토 - 웨이백 머신과 같은 인터넷 아카이브에서 사이트맵 또는 다른 구조가 있을 수 있는 사이트의 이전 버전을 확인합니다.
콘텐츠 관리 시스템(CMS) 패턴 찾기 - CMS를 식별할 수 있는 경우 해당 시스템과 연결된 일반적인 URL 패턴을 사용합니다.
JavaScript 렌더링 확인 - 사이트가 JavaScript를 많이 사용하는 경우 크롤러가 동적으로 로드된 콘텐츠를 검색하도록 JavaScript를 렌더링할 수 있는지 확인합니다. 일부 웹 사이트의 경우 JavaScript 렌더링이 활성화된 후 sitemap.xml 파일이 로드됩니다.

Amazon EC2 또는 Amazon ECS 대신 서버리스 솔루션을 사용할 수 있나요?

예. 웹 크롤링 AWS Lambda 함수는 특히 소규모 또는 모듈식 크롤링 작업의 경우 실행 가능한 옵션일 수 있습니다. 그러나 대규모 장기 실행 크롤링 작업의 경우 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스 또는 Amazon Elastic Container Service(Amazon ECS)를 사용하는 보다 전통적인 접근 방식이 더 적합할 수 있습니다. 웹 크롤링 요구 사항에 적합한 컴퓨팅 서비스를 선택할 때는 특정 요구 사항과 장단점을 신중하게 평가하는 것이 중요합니다.

크롤러가 403 상태 코드를 가져오는 이유는 무엇입니까?

HTTP 403은 요청된 리소스에 대한 액세스가 금지되었음을 의미하는 HTTP 상태 코드입니다. 요청이 올바른 경우 서버는 요청을 이해했으며 요청을 이행하지 않습니다. 403 상태 코드를 방지하려면 다음을 수행할 수 있습니다.

크롤링 속도를 제한합니다.
sitemap 또는 robots.txt 파일이 크롤러가 URL에 액세스하도록 허용하는지 확인합니다.
데스크톱 사용자 에이전트 대신 모바일 사용자 에이전트를 사용해 보세요.

위 항목 중 어느 것도 작동하지 않는 경우 웹 사이트 소유자의 결정을 준수해야 하며 페이지를 크롤링해서는 안 됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모범 사례

다음 단계 및 리소스