

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 准备数据集
<a name="building-prepare"></a>

如果您尚未这样做，请准备要从中收集信息的网站的详细数据集。此数据集应包括网站网址域名和相关的子域名。本节提供了构建此数据集的 step-by-step过程。

**准备数据集**

1. **定义范围** — 确定你关注的一个或多个行业。决定要包括多少家公司。并定义您要收集的有关这些公司的任何标准，例如员工人数、地点或收入。

1. **识别数据源**-确定您可以使用哪些信息来源来收集有关这些公司的信息。示例包括企业名录（例如 [Crunchbase](https://www.crunchbase.com/)、[彭博社](https://www.bloomberg.com/)或[福布斯](https://www.forbes.com/)）、证券交易所（例如纽约证券交易所和纳斯达克）、特定行业的协会或出版物或政府数据库（例如美国证券交易委员会的文件）。

1. **创建表格**-在你首选的工具（例如 Microsoft Excel、Google 表格或数据库管理系统）中，创建一个用于收集有关每家公司的标准的表。为每个标准包括一列。至少要包括公司名称、主域名、子域名、行业、规模和位置等列。

1. **收集公司初始信息**-收集有关每家公司的以下信息，并将其输入到您创建的表格中：
   + 公司名称
   + 行业或行业
   + 公司规模（员工人数）
   + Revenue (收入)
   + 公司总部所在地

1. **收集域名信息**-对于每家公司，从主网站 URL 中提取主域名，例如`example.com`。您可以使用 WHOIS 域名查询工具验证域名信息。

1. **收集子域信息**-对于每家公司，研究注册的子域名，例如。`blog.example.com`[你可以使用子域枚举工具，例如 sub [List3R、[O](https://github.com/owasp-amass/amass) WASP Amass 或 Sub](https://github.com/aboul3la/Sublist3r) finder。](https://github.com/projectdiscovery/subfinder)您可以执行 Google dorking（通过搜索`site:example.com`），使用`dig`命令或 DNS 查询工具检查 DNS 记录，也可以分析 SSL 或 TLS 证书。

1. **验证和清理数据**-查看、验证和标准化您收集的数据。例如，删除所有重复的条目，从域名和子域中删除不必要的 URL 信息，并确认所有域名和子域名都处于活动状态。

1. **（可选）对子域进行分类-您可以将子域名**按类型进行分类。以下是您可能遇到的一些类别示例：
   + 博客，例如 `blog.example.com`
   + Support 或帮助，例如`support.example.com`或 `help.example.com`
   + 电子商务，例如`shop.example.com`或 `store.example.com`
   + 开发者资源，例如`dev.example.com`或 `api.example.com`
   + 地区或地点，例如`us.example.com`或 `uk.example.com`

1. **（可选）添加相关元数据**-您可以在数据集中记录任何相关的元数据。例如，您可以添加上次更新日期、信息来源或置信度分数，以提高子域的准确性。

1. **实现版本控制**-使用版本控制系统（例如 Git）来跟踪表格随时间推移而发生的变化。定期备份数据集。

1. **维护表格**-设置更新表格的时间表，例如每季度。标准化并实施添加新公司或删除不再需要的公司的流程。如果可能，自动发现子域名。