

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 步驟 4：將資料載入 HDFS
<a name="EMRforDynamoDB.Tutorial.LoadDataIntoHDFS"></a>

在此步驟中，您要將資料檔案複製到 Hadoop 分散式檔案系統 (HDFS)，然後建立會映射到資料檔案的外部 Hive 資料表。

**下載範例資料**

1. 下載範例資料封存 (`features.zip`)：

   ```
   wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip
   ```

1. 從封存擷取 `features.txt` 檔案：

   ```
   unzip features.zip
   ```

1. 檢視 `features.txt` 檔案的前幾列：

   ```
   head features.txt
   ```

   結果看起來會與下列類似：

   ```
   1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794
   875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7
   1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10
   26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681
   1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605
   1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558
   1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024
   533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0
   829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671
   541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98
   ```

   `features.txt` 檔案包含來自美國地名委員會 ([http://geonames.usgs.gov/domestic/download\$1data.htm](http://geonames.usgs.gov/domestic/download_data.htm)) 的資料子集。每一列中的欄位代表下列項目：
   + 功能 ID (唯一識別碼)
   + 名稱
   + 類別 (湖泊、森林、溪流等)
   + State
   + 緯度 (度數)
   + 經度 (度數)
   + 高度 (英尺)

1. 在命令提示中，輸入以下命令：

   ```
   hive
   ```

   命令提示會變更為此項目：`hive>`

1. 輸入下列 HiveQL 陳述式來建立原生 Hive 資料表：

   ```
   CREATE TABLE hive_features
       (feature_id             BIGINT,
       feature_name            STRING ,
       feature_class           STRING ,
       state_alpha             STRING,
       prim_lat_dec            DOUBLE ,
       prim_long_dec           DOUBLE ,
       elev_in_ft              BIGINT)
       ROW FORMAT DELIMITED
       FIELDS TERMINATED BY '|'
       LINES TERMINATED BY '\n';
   ```

1. 輸入下列 HiveQL 陳述式來載入包含資料的資料表：

   ```
   LOAD DATA
   LOCAL
   INPATH './features.txt'
   OVERWRITE
   INTO TABLE hive_features;
   ```

1. 您現在有一個原生 Hive 資料表已填入來自 `features.txt` 檔案的資料。若要進行驗證，請輸入下列 HiveQL 陳述式：

   ```
   SELECT state_alpha, COUNT(*)
   FROM hive_features
   GROUP BY state_alpha;
   ```

   輸出應顯示州清單以及每個州的地理特徵數量。

**下一步驟**  
[步驟 5：將資料複製到 DynamoDB](EMRforDynamoDB.Tutorial.CopyDataToDDB.md)