

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 데이터 세트 준비
<a name="building-prepare"></a>

아직 그렇게 하지 않았다면 정보를 수집하려는 웹 사이트의 세부 데이터 세트를 준비합니다. 이 데이터 세트에는 웹 사이트 URL 도메인 이름과 관련 하위 도메인 이름이 포함되어야 합니다. 이 섹션에서는이 데이터 세트를 빌드하기 위한 step-by-step 프로세스를 제공합니다.

**데이터 세트를 준비하려면**

1. **범위 정의** - 집중하고 있는 산업 또는 부문을 결정합니다. 포함할 회사 수를 결정합니다. 그리고 직원 수, 위치 또는 수익과 같이 이러한 회사에 대해 수집하려는 기준을 정의합니다.

1. **데이터 소스 식별** - 이러한 회사에 대한 정보를 수집하는 데 사용할 수 있는 정보 소스를 식별합니다. 예를 들어 비즈니스 디렉터리(예: [Crunchbase](https://www.crunchbase.com/), [Inventory](https://www.bloomberg.com/) 또는 [Forbes](https://www.forbes.com/)), 주식 거래소(예: NYSE 및 NASDAQ), 산업별 연결 또는 간행물, 정부 데이터베이스(예: SEC 제출) 등이 있습니다.

1. **테이블 생성 **- Microsoft Excel, Google Sheets 또는 데이터베이스 관리 시스템과 같은 기본 도구에서 각 회사에 대한 기준을 수집하기 위한 테이블을 생성합니다. 각 기준에 대한 열을 포함합니다. 최소한 회사 이름, 기본 도메인, 하위 도메인, 산업, 크기 및 위치에 대한 열을 포함합니다.

1. **초기 회사 정보 수집** - 각 회사에 대한 다음 정보를 수집하여 생성한 테이블에 입력합니다.
   + 회사 이름
   + 산업 또는 섹터
   + 회사 규모(직원 수)
   + 수익
   + 회사 본사 위치

1. **도메인 정보 수집** - 각 회사에 대해와 같은 기본 웹 사이트 URL에서 기본 도메인 이름을 추출합니다`example.com`. WHOIS 도메인 조회 도구를 사용하여 도메인 정보를 확인할 수 있습니다.

1. **하위 도메인 정보 수집** - 각 회사에 대해와 같이 등록된 하위 도메인을 조사합니다`blog.example.com`. [Sublist3r](https://github.com/aboul3la/Sublist3r), [OWASP Amass](https://github.com/owasp-amass/amass) 또는 [Subfinder](https://github.com/projectdiscovery/subfinder)와 같은 하위 도메인 열거 도구를 사용할 수 있습니다. Google 도킹( 검색)을 수행하거나`site:example.com`, `dig` 명령 또는 DNS 조회 도구를 사용하여 DNS 레코드를 확인하거나, SSL 또는 TLS 인증서를 분석할 수 있습니다.

1. **데이터 검증 및 정리** "" - 수집한 데이터를 검토, 확인 및 표준화합니다. 예를 들어 중복 항목을 제거하고, 도메인 및 하위 도메인에서 불필요한 URL 정보를 제거하고, 모든 도메인 및 하위 도메인이 활성 상태인지 확인합니다.

1. **(선택 사항) 하위 도메인 분류** - 하위 도메인을 유형으로 분류할 수 있습니다. 다음은 발생할 수 있는 범주의 몇 가지 예입니다.
   + 와 같은 블로그 `blog.example.com`
   + 또는와 같은 지원 `support.example.com` 또는 도움말 `help.example.com`
   + `shop.example.com` 또는와 같은 전자 상거래 `store.example.com`
   + `dev.example.com` 또는와 같은 개발자 리소스 `api.example.com`
   + `us.example.com` 또는와 같은 리전 또는 위치 `uk.example.com`

1. **(선택 사항) 관련 메타데이터 추가** - 데이터 세트에 관련 메타데이터를 기록할 수 있습니다. 예를 들어 마지막으로 업데이트된 날짜, 정보 소스 또는 하위 도메인 정확도에 대한 신뢰도 점수를 추가할 수 있습니다.

1. **버전 관리 구현** - Git과 같은 버전 관리 시스템을 사용하여 시간 경과에 따른 테이블 변경 사항을 추적합니다. 데이터 세트를 정기적으로 백업합니다.

1. **테이블 유지 관리** - 테이블 업데이트 일정을 분기별로 설정합니다. 새 회사를 추가하거나 더 이상 필요하지 않은 회사를 제거하는 프로세스를 표준화하고 구현합니다. 가능하면 하위 도메인 검색을 자동화합니다.