

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 準備資料集
<a name="building-prepare"></a>

如果您尚未這麼做，請準備要從中收集資訊之網站的詳細資料集。此資料集應包含網站 URL 網域名稱和相關的子網域名稱。本節提供建置此資料集的step-by-step程序。

**準備資料集**

1. **定義範圍** – 確定您關注的產業或產業。決定要包含的公司數量。並定義您希望收集有關這些公司的任何條件，例如員工人數、位置或收入。

1. **識別資料來源** – 識別您可以用來收集這些公司相關資訊的資訊來源。範例包括商業目錄 （例如 [Crunchbase](https://www.crunchbase.com/)、[Bloomberg](https://www.bloomberg.com/) 或 [Forbes](https://www.forbes.com/))、股票交換 （例如 TZ 和 NASDAQ)、產業特定的關聯或出版物，或政府資料庫 （例如 SEC 備案）。

1. **建立資料表** – 在您偏好的工具中，例如 Microsoft Excel、Google Sheets 或資料庫管理系統中，建立用於收集每個公司準則的資料表。包含每個條件的資料欄。至少包含公司名稱、主要網域、子網域、產業、大小和位置的資料欄。

1. **收集初始公司資訊** – 收集每個公司的下列資訊，並將其輸入您建立的資料表中：
   + 公司名稱
   + 產業或產業
   + 公司規模 （員工人數）
   + 營收
   + 公司總部的位置

1. **收集網域資訊** – 針對每個公司，從主要網站 URL 擷取主要網域名稱，例如 `example.com`。您可以使用 WHOIS 網域查詢工具來驗證網域資訊。

1. **收集子網域資訊** – 針對每個公司，研究已註冊的子網域，例如 `blog.example.com`。您可以使用子網域列舉工具，例如 [Sublist3r](https://github.com/aboul3la/Sublist3r)、[OWASP Amass](https://github.com/owasp-amass/amass) 或 [Subfinder](https://github.com/projectdiscovery/subfinder)。您可以執行 Google 偏離 （透過搜尋 `site:example.com`)、使用`dig`命令或 DNS 查詢工具檢查 DNS 記錄，也可以分析 SSL 或 TLS 憑證。

1. **驗證和清除資料** – 檢閱、驗證和標準化您收集的資料。例如，移除任何重複的項目、從網域和子網域移除不必要的 URL 資訊，並確認所有網域和子網域都處於作用中狀態。

1. **（選用） 將子網域分類** – 您可以將子網域分類為 類型。以下是您可能會遇到的類別的一些範例：
   + 部落格，例如 `blog.example.com`
   + 支援或協助，例如 `support.example.com`或 `help.example.com`
   + 電子商務，例如 `shop.example.com`或 `store.example.com`
   + 開發人員資源，例如 `dev.example.com`或 `api.example.com`
   + 區域或位置，例如 `us.example.com`或 `uk.example.com`

1. **（選用） 新增相關中繼資料** – 您可以在資料集中記錄任何相關中繼資料。例如，您可以新增上次更新的日期、資訊來源或子網域準確性的可信度分數。

1. **實作版本控制** – 使用 Git 等版本控制系統來追蹤資料表隨時間的變化。定期備份資料集。

1. **維護資料表** – 設定排程，例如每季更新資料表。標準化並實作新增公司或移除不再需要的公司的程序。可能的話，自動探索子網域。