本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
資料流程
資料流程焦點區域包含下列三個區域:
-
資料擷取
-
資料保留
-
資料遷移方法
資料擷取
資料擷取著重於如何將資料擷取到您的 Amazon OpenSearch Service 網域。為 OpenSearch 選擇正確的擷取架構時,徹底了解資料來源和格式至關重要。
有許多不同的方法來建立或現代化您的擷取設計。有許多開放原始碼工具可用來建置自我管理的擷取管道。OpenSearch Service 支援與 Fluentd
若要降低營運開銷,您可以使用其中一個支援與 Amazon OpenSearch Service 整合的 AWS 受管服務。例如,Amazon OpenSearch Ingestion 是全受管、無伺服器資料收集器,可將即時日誌、指標和追蹤資料交付至 Amazon OpenSearch Service 網域。使用 OpenSearch Ingestion,您不再需要使用 Logstash 或 Jaeger
另一個選項是 Amazon Data Firehose,這是一種全受管服務,可協助建置無伺服器擷取管道。Firehose 提供安全的方式,將串流資料擷取、轉換和交付至 Amazon OpenSearch Service 網域。它可以自動擴展以符合資料的輸送量,而且不需要持續管理。Firehose 也可以在將資料載入 OpenSearch Service 網域之前 AWS Lambda,使用、壓縮和批次處理資料來轉換傳入的記錄。
透過 受管服務,您可以淘汰現有的資料擷取管道,也可以擴增目前的設定,以減少營運開銷。
遷移規劃是評估您目前的擷取管道是否符合目前和未來使用案例需求的好時機。如果您要從自我管理的 Elasticsearch 或 OpenSearch 叢集遷移,您的擷取管道應支援以最少的用戶端程式庫更新,將端點從目前叢集交換至 Amazon OpenSearch Service 網域。
資料保留
規劃資料擷取和儲存時,請務必規劃和同意資料保留。對於日誌分析使用案例,請務必在網域中建立正確的政策,以淘汰歷史資料。當您從現有的現場部署和以雲端 VM 為基礎的架構移動時,您可能會為所有資料節點使用特定類型的執行個體。資料節點具有相同的 CPU、記憶體和儲存設定檔。大多數客戶都會設定高輸送量儲存,以滿足他們的高速索引需求。此單一儲存描述檔架構稱為僅熱節點架構,或僅熱儲存描述檔架構。純熱架構會將儲存與運算結合,這表示如果您的儲存需求增加,您需要新增運算節點。
為了從運算分離儲存體,Amazon OpenSearch Service 提供 UltraWarm 儲存層。UltraWarm 透過提供可以容納比傳統資料節點更大資料量的節點,提供在 Amazon OpenSearch Service 上存放唯讀資料的成本效益方法。
在規劃期間,決定資料保留和處理需求。若要降低現有解決方案的成本,請利用 UltraWarm 層。識別資料的保留需求。然後建立索引狀態管理政策,將資料從熱移至暖,或在不需要時自動從網域刪除資料。這也有助於確保您的網域不會耗盡儲存空間。
資料遷移方法
在規劃階段,您必須決定特定的資料遷移方法。您的資料遷移方法會決定如何將目前資料存放區中的資料移至目標存放區,而不會有任何差距。這些方法的程序詳細資訊涵蓋於階段 4 – 資料遷移區段,也就是您實作方法時。
本節涵蓋您可以用來將 Elasticsearch 或 OpenSearch 叢集遷移至 Amazon OpenSearch Service 的不同方式和模式。選擇模式時,請考慮下列因素清單 (非詳盡):
-
無論您是要從現有的自我管理叢集複製資料,還是要從原始資料來源 (日誌檔案、產品目錄資料庫) 重建
-
來源 Elasticsearch 或 OpenSearch 叢集和目標 Amazon OpenSearch Service 網域的版本相容性
-
相依於 Elasticsearch 或 OpenSearch 叢集的應用程式和服務
-
遷移的可用時段
-
您現有環境中的索引資料量
從快照建置
快照是從自我管理的 Elasticsearch 叢集遷移至 Amazon OpenSearch Service 的最熱門方式。快照提供一種方法,可讓您使用 Amazon S3 等耐用儲存服務來備份 OpenSearch 或 Elasticsearch 資料。使用此方法,您可以擷取目前 Elasticsearch 或 OpenSearch 環境的快照,並將其還原到目標 Amazon OpenSearch Service 環境中。還原快照後,您可以將應用程式指向新的環境。在下列情況中,這是一個更快的解決方案:
-
您的來源和目標相容。
-
現有叢集包含大量索引資料,重新索引可能很耗時。
-
您的來源資料無法重新編製索引。
如需其他考量,請參閱階段 4 – 資料遷移區段中的快照考量。
從來源建置
此方法表示您不會從目前的 Elasticsearch 或 OpenSearch 叢集移動資料。相反地,您可以將資料直接從日誌或產品目錄來源重新載入目標 Amazon OpenSearch Service 網域。這通常透過對現有資料擷取管道的細微變更來完成。在日誌分析使用案例中,從來源建置也可能需要將歷史日誌從來源重新載入新的 OpenSearch Service 環境。對於搜尋使用案例,您可能需要將完整產品目錄和內容重新載入新的 Amazon OpenSearch Service 網域。此方法在下列案例中運作良好:
-
您的來源和目標環境版本與快照還原不相容。
-
您希望在遷移過程中變更目標環境中的資料模型。
-
您想要跳到最新版本的 Amazon OpenSearch Service,以避免滾動升級,而且您想要一次解決重大變更。如果您正在自我管理相對較舊的 Elasticsearch 版本 (5.x 或更早版本),這可能是個好主意。
-
您可能想要變更索引策略。例如,您可以每月在新環境中輪換,而不是每天輪換。
如需從來源建置 選項的相關資訊,請參閱 2。從階段 4 – 資料遷移區段中的來源建置。
從現有的 Elasticsearch 或 OpenSearch 環境從遠端重新編製索引
此方法使用來自 Amazon OpenSearch Service 的遠端重新索引 API。使用遠端重新索引,您可以將資料直接從現有的內部部署或雲端型 Elasticsearch 或 OpenSearch 叢集複製到 Amazon OpenSearch Service 網域。您可以建置自動化,讓資料在兩個環境位置之間保持同步,直到您切換到目標環境為止。
使用開放原始碼資料遷移工具
有多種開放原始碼工具可用來將資料從現有的 Elasticsearch 環境遷移到目標 Amazon OpenSearch 環境。其中一個範例是 Logstash 公用程式。您可以使用 Logstash 公用程式從 Elasticsearch 或 OpenSearch 叢集擷取資料,並將其複製到 Amazon OpenSearch Service 網域。
我們建議您評估所有選項,並選擇您最習慣的選項。為了確保您選取的方法是防傻的,請在 PoC 階段測試所有工具和自動化。如需如何實作這些方法的詳細資訊和step-by-step指引,請參閱階段 4 – 資料遷移一節。