建立類似樣貌的客群

注意

您只能提供訓練資料集，以便在具有存放在 Amazon S3 中資料的 Clean Rooms ML 外觀模型中使用。不過，您可以使用 SQL 來提供類似模型的種子資料，該 SQL 會跨存放在任何支援資料來源中的資料執行。

類似區段是訓練資料的子集，最接近種子資料。

在中建立外觀相似的客群 AWS Clean Rooms

登入 AWS 管理主控台並使用開啟 AWS Clean Rooms 主控台 AWS 帳戶（如果您尚未這麼做）。
在左側導覽窗格中，選擇協同合作。
在具有作用中成員資格索引標籤上，選擇協同合作。
在 ML 模型索引標籤上，選擇建立外觀客群。
在建立外觀區段頁面上，針對關聯的已設定外觀模型，選擇要用於此外觀區段的已設定外觀模型。
對於 Lookalike 區段詳細資訊，輸入名稱和選用的描述。

對於種子設定檔，選擇選項，然後採取建議的動作，以選擇您的種子方法。

選項	建議的動作
Amazon S3 路徑	選取 Amazon S3 位置。（選用）選擇在輸出中包含種子設定檔。
SQL 查詢	撰寫 SQL 查詢並使用其結果做為種子資料。
分析範本	從下拉式清單中選擇分析範本，並使用分析範本建立的結果。

選擇建立此資料來源時要使用的工作者類型。預設工作者類型為 CR.1X。指定要使用的工作者數量。預設為工作者編號 16。若要指定 Spark 屬性：

展開 Spark 屬性。
選擇新增 Spark 屬性。
在 Spark 屬性對話方塊中，從下拉式清單中選擇屬性名稱，然後輸入值。

下表提供每個屬性的定義。

如需 Spark 屬性的詳細資訊，請參閱 Apache Spark 文件中的 Spark 屬性。

注意

您最多可以設定 50 個 Spark 屬性。每個屬性值最多可達 500 個字元。

屬性名稱	Description	預設值
spark.task.maxFailures	控制任務在任務失敗之前可以失敗的連續次數。需要大於或等於 1 的值。允許重試的次數等於此值減去 1。如果任何嘗試成功，故障計數會重設。不同任務的故障不會累積到此限制。	4
spark.sql.files.maxPartitionBytes	設定從 Parquet、JSON 和 ORC 等檔案型來源讀取時，要封裝至單一分割區的最大位元組數。	128MB
spark.hadoop.fs.s3.maxRetries	設定 Amazon S3 檔案操作的重試嘗試次數上限。	(無)
spark.network.timeout	設定所有網路互動的預設逾時。如果未設定，則覆寫下列逾時設定： spark.storage.blockManagerHeartbeatTimeoutMs spark.shuffle.io.connectionTimeout spark.rpc.askTimeout spark.rpc.lookupTimeout	120 秒
spark.rdd.compress	指定是否使用 spark.io.compression.codec 壓縮序列化 RDD 分割區。適用於 Java 和 Scala 中的 StorageLevel.MEMORY_ONLY_SER，或 Python 中的 StorageLevel.MEMORY_ONLY。減少儲存空間，但需要額外的 CPU 處理時間。	false
spark.shuffle.spill.compress	指定是否使用 spark.io.compression.codec 壓縮隨機溢出資料。	true
spark.shuffle.compress	指定是否壓縮映射輸出檔案。壓縮使用 spark.io.compression.codec。	true
spark.shuffle.service.index.cache.size	除非另有指定，否則設定快取大小限制，以位元組為單位。	100 公尺
spark.shuffle.io.maxRetries	設定因 IO 相關例外狀況而失敗之擷取的重試次數上限。	3
spark.shuffle.io.retryWait	設定重試擷取之間的等待時間。根據預設，重試造成的延遲上限為 15 秒，計算方式為 maxRetries * retryWait。	5 秒
spark.shuffle.io.connectionTimeout	將隨機播放伺服器與用戶端之間已建立連線的逾時設定為閒置，如果仍有未完成的擷取請求，但頻道上沒有流量，則會關閉。	(spark.network.timeout 的值）
spark.driver.maxResultSize	設定每個 Spark 動作所有分割區的序列化結果總大小限制，以位元組為單位。應至少為 1M，或無限制為 0。	1g
spark.memory.fraction	設定用於執行和儲存的部分（堆積空間 - 300MB)。此值越低，溢出和快取資料移出發生的頻率就越高。建議將此保留為預設值。	0.6
spark.scheduler.mode	設定提交至相同 SparkContext 的任務之間的排程模式。可以設定為 FAIR 以使用公平共用，而不是依序將任務排入佇列。支援的值：FAIR、FIFO。	FIFO
spark.sql.adaptive.advisoryPartitionSizeInBytes	在 spark.sql.adaptive.enabled 為 true 的適應性最佳化期間，設定隨機播放分割區的目標大小，以位元組為單位。合併小型分割區或分割扭曲分割區時，控制分割區大小。	( spark.sql.adaptive.shuffle.targetPostShuffleInputSize 的值）
spark.sql.adaptive.autoBroadcastJoinThreshold	設定在聯結期間廣播至工作者節點的資料表大小上限，以位元組為單位。僅適用於自適應架構。使用與 spark.sql.autoBroadcastJoinThreshold 相同的預設值。設定為 -1 以停用廣播。	(無)
spark.sql.adaptive.coalescePartitions.enabled	指定是否要根據 spark.sql.adaptive.advisoryPartitionSizeInBytes 來合併連續隨機播放分割區，以最佳化任務大小。需要 spark.sql.adaptive.enabled 才能成立。	true
spark.sql.adaptive.coalescePartitions.initialPartitionNum	在合併之前定義隨機播放分割區的初始數量。同時需要 spark.sql.adaptive.enabled 和 spark.sql.adaptive.coalescePartitions.enabled 為 true。預設為 spark.sql.shuffle.partitions 的值。	(無)
spark.sql.adaptive.coalescePartitions.minPartitionSize	設定合併隨機播放分割區的大小下限，以防止分割區在適應性最佳化期間變得太小。	1 MB
spark.sql.adaptive.coalescePartitions.parallelismFirst	指定是否要在分割區合併期間根據叢集平行處理而非 spark.sql.adaptive.advisoryPartitionSizeInBytes 計算分割區大小。產生的分割區大小小於設定的目標大小，以最大化平行處理。我們建議在忙碌叢集上將此設定為 false，以透過防止過多的小型任務來改善資源使用率。	true
spark.sql.adaptive.enabled	指定是否啟用自適應查詢執行，以在查詢執行期間根據準確的執行時間統計資料重新最佳化查詢計劃。	true
spark.sql.adaptive.forceOptimizeSkewedJoin	指定是否強制啟用 OptimizeSkewedJoin，即使它引入額外的隨機播放。	false
spark.sql.adaptive.localShuffleReader.enabled	指定在不需要隨機分割時使用本機隨機讀取器，例如從排序合併聯結轉換為廣播雜湊聯結之後。需要 spark.sql.adaptive.enabled 才能成立。	true
spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold	設定用於建置本機雜湊映射的分割區大小上限，以位元組為單位。在下列情況下，優先考慮排序合併聯結的隨機雜湊聯結：此值等於或超過 spark.sql.adaptive.advisoryPartitionSizeInBytes 所有分割區大小都在此限制內覆寫 spark.sql.join.preferSortMergeJoin 設定。	0 個位元組
spark.sql.adaptive.optimizeSkewsInRebalancePartitions.enabled	指定是否根據 spark.sql.adaptive.advisoryPartitionSizeInBytes 將扭曲隨機播放分割區分割為較小的分割區，以最佳化扭曲隨機播放分割區。需要 spark.sql.adaptive.enabled 才能成立。	true
spark.sql.adaptive.rebalancePartitionsSmallPartitionFactor	定義分割期間合併分割區的大小閾值因素。小於此因素的分割區乘以 spark.sql.adaptive.advisoryPartitionSizeInBytes 會合併。	0.2
spark.sql.adaptive.skewJoin.enabled	指定是否透過分割和選擇性複寫扭曲的分割區來處理隨機聯結中的資料扭曲。適用於排序合併和隨機雜湊聯結。需要 spark.sql.adaptive.enabled 才能成立。	true
spark.sql.adaptive.skewJoin.skewedPartitionFactor	決定決定分割區扭曲的大小因素。當分割區的大小超過以下兩者時，就會扭曲：此係數乘以中位數分割區大小 spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes 的值	5
spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes	設定識別扭曲分割區的大小閾值，以位元組為單位。當分割區的大小超過以下兩者時，就會扭曲：此閾值中位數分割區大小乘以 spark.sql.adaptive.skewJoin.skewedPartitionFactor 我們建議您設定大於 spark.sql.adaptive.advisoryPartitionSizeInBytes 的值。	256MB
spark.sql.broadcastTimeout	控制廣播聯結期間廣播操作的逾時期間，以秒為單位。	300 秒
spark.sql.cbo.enabled	指定是否要為計劃統計資料估算啟用成本型最佳化 (CBO)。	false
spark.sql.cbo.joinReorder.dp.star.filter	指定是否要在成本型聯結列舉期間套用星狀聯結篩選條件啟發式。	false
spark.sql.cbo.joinReorder.dp.threshold	設定動態程式設計演算法中允許的聯結節點數目上限。	12
spark.sql.cbo.joinReorder.enabled	指定是否要在成本型最佳化 (CBO) 中啟用聯結重新排序。	false
spark.sql.cbo.planStats.enabled	指定是否要在邏輯計畫產生期間從目錄擷取資料列計數和資料欄統計資料。	false
spark.sql.cbo.starSchemaDetection	指定是否根據星狀結構描述偵測啟用聯結重新排序。	false
spark.sql.files.maxPartitionNum	設定檔案型來源 (Parquet、JSON 和 ORC) 的目標分割檔案分割區數量上限。當初始計數超過此值時，重新擴展分割區。這是建議的目標，而不是保證的限制。	(無)
spark.sql.files.maxRecordsPerFile	設定寫入單一檔案的記錄數目上限。設定為零或負值時不會套用任何限制。	0
spark.sql.files.minPartitionNum	設定檔案型來源 (Parquet、JSON 和 ORC) 的目標分割檔案分割區數量下限。預設為 spark.sql.leafNodeDefaultParallelism。這是建議的目標，而不是保證的限制。	(無)
spark.sql.inMemoryColumnarStorage.batchSize	控制單欄式快取的批次大小。增加大小可改善記憶體使用率和壓縮，但會增加out-of-memory錯誤的風險。	10000
spark.sql.inMemoryColumnarStorage.compressed	指定是否根據資料統計資料自動選取資料欄的壓縮轉碼器。	true
spark.sql.inMemoryColumnarStorage.enableVectorizedReader	指定是否要為單欄式快取啟用向量化讀取。	true
spark.sql.legacy.allowHashOnMapType	指定是否允許對映射類型資料結構執行雜湊操作。此舊版設定可維持與舊版 Spark 版本的映射類型處理的相容性。	(無)
spark.sql.legacy.allowNegativeScaleOfDecimal	指定是否在小數類型定義中允許負縮放值。此舊版設定可維持與支援負小數位數擴展之較舊 Spark 版本的相容性。	(無)
spark.sql.legacy.castComplexTypesToString.enabled	指定是否啟用將複雜類型轉換為字串的舊版行為。維持與舊版 Spark 版本類型轉換規則的相容性。	(無)
spark.sql.legacy.charVarcharAsString	指定是否將 CHAR 和 VARCHAR 類型視為 STRING 類型。此舊版設定提供與較舊 Spark 版本的字串類型處理相容性。	(無)
spark.sql.legacy.createEmptyCollectionUsingStringType	指定是否使用字串類型元素建立空集合。此舊版設定可維持與較舊 Spark 版本的集合初始化行為的相容性。	(無)
spark.sql.legacy.exponentLiteralAsDecimal.enabled	指定是否要將指數常值解譯為十進位類型。此舊版設定可維持與舊版 Spark 版本數值常值處理的相容性。	(無)
spark.sql.legacy.json.allowEmptyString.enabled	指定是否要在 JSON 處理中允許空字串。此舊版設定可維持與舊版 Spark 版本的 JSON 剖析行為的相容性。	(無)
spark.sql.legacy.parquet.int96RebaseModelRead	指定是否在讀取 Parquet 檔案時使用舊版 INT96 時間戳記重新基礎模式。此舊版設定可維持與較舊 Spark 版本時間戳記處理的相容性。	(無)
spark.sql.legacy.timeParserPolicy	控制時間剖析行為以實現回溯相容性。此舊版設定會決定如何從字串剖析時間戳記和日期。	(無)
spark.sql.legacy.typeCoercion.datetimeToString.enabled	指定是否要在將日期時間值轉換為字串時啟用舊版類型的強制行為。維持與較舊 Spark 版本日期時間轉換規則的相容性。	(無)
spark.sql.maxSinglePartitionBytes	設定以位元組為單位的分割區大小上限。規劃器為較大的分割區引進隨機播放操作，以改善平行處理。	128 公尺
spark.sql.metadataCacheTTLSeconds	控制中繼資料快取的time-to-live (TTL)。適用於分割區檔案中繼資料和工作階段目錄快取。需要：大於零的正值 spark.sql.catalogImplementation 設定為 hive spark.sql.hive.filesourcePartitionFileCacheSize 大於零 spark.sql.hive.manageFilesourcePartitions 設定為 true	-1000ms
spark.sql.optimizer.collapseProjectAlwaysInline	指定是否要摺疊相鄰投影和內嵌表達式，即使會導致重複。	false
spark.sql.optimizer.dynamicPartitionPruning.enabled	指定是否要為用作聯結索引鍵的分割區資料欄產生述詞。	true
spark.sql.optimizer.enableCsvExpressionOptimization	指定是否在 SQL 最佳化工具中透過從 csv 操作刪除不必要的資料欄來最佳化 CSV 表達式。	true
spark.sql.optimizer.enableJsonExpressionOptimization	指定是否要透過下列方式最佳化 SQL 最佳化工具中的 JSON 表達式：從_json 操作刪除不必要的資料欄簡化從_json 和到_json 的組合最佳化 named_struct 操作	true
spark.sql.optimizer.excludedRules	定義要停用的最佳化工具規則，以逗號分隔的規則名稱識別。某些規則無法停用，因為正確性需要它們。最佳化工具會記錄哪些規則已成功停用。	(無)
spark.sql.optimizer.runtime.bloomFilter.applicationSideScanSizeThreshold	設定在應用程式端插入 Bloom 篩選條件所需的最小彙總掃描大小，以位元組為單位。	10GB
spark.sql.optimizer.runtime.bloomFilter.creationSideThreshold	定義在建立端注入 Bloom 篩選條件的大小閾值上限。	10MB
spark.sql.optimizer.runtime.bloomFilter.enabled	指定是否要插入 Bloom 篩選條件，以便在隨機聯結的一側具有選擇性述詞時減少隨機播放資料。	true
spark.sql.optimizer.runtime.bloomFilter.expectedNumItems	定義執行時間 Bloom 篩選條件中預期項目的預設數量。	1000000
spark.sql.optimizer.runtime.bloomFilter.maxNumBits	設定執行時間 Bloom 篩選條件中允許的位元數上限。	67108864
spark.sql.optimizer.runtime.bloomFilter.maxNumItems	設定執行時間 Bloom 篩選條件中允許的預期項目數量上限。	4000000
spark.sql.optimizer.runtime.bloomFilter.numBits	定義執行時間 Bloom 篩選條件中使用的預設位元數。	8388608
spark.sql.optimizer.runtime.rowlevelOperationGroupFilter.enabled	指定是否啟用資料列層級操作的執行時間群組篩選。允許資料來源：使用資料來源篩選條件刪除整個資料群組（例如檔案或分割區）執行執行時間查詢以識別相符的記錄捨棄不必要的群組，以避免昂貴的重寫限制: 並非所有表達式都可以轉換為資料來源篩選條件有些表達式需要 Spark 評估（例如子查詢）	true
spark.sql.optimizer.runtimeFilter.number.threshold	設定注入執行時間篩選條件（非 DPP) 的總數。這是為了防止 Bloom 篩選條件太多的驅動程式 OOMs。	10
spark.sql.optimizer.runtimeFilter.semiJoinReduction.enabled	指定是否要插入半聯結，以便在隨機聯結的一側具有選擇性述詞時減少隨機資料。	false
spark.sql.parquet.aggregatePushdown	指定是否將彙總下推至 Parquet 以進行最佳化。支援：布林值、整數、浮點數和日期類型的 MIN 和 MAX 所有資料類型的 COUNT 如果任何 Parquet 檔案頁尾缺少統計資料，則擲回例外狀況。	false
spark.sql.parquet.columnarReaderBatchSize	控制每個 Parquet 向量化讀取器批次中的資料列數。選擇平衡效能額外負荷和記憶體用量的值，以防止out-of-memory錯誤。	4096
spark.sql.parquet.enableVectorizedReader	指定是否啟用向量化 Parquet 解碼。	true
spark.sql.shuffle.partitions	設定聯結或彙總期間資料隨機播放的預設分割區數量。結構式串流查詢從相同檢查點位置重新啟動之間無法修改。	200
spark.sql.shuffledHashJoinFactor	定義用於判斷隨機雜湊聯結資格的乘數係數。當小端資料大小乘以此因素時，會選取隨機雜湊聯結，小於大端資料大小。	3
spark.sql.sources.parallelPartitionDiscovery.threshold	使用檔案型來源 (Parquet、JSON 和 ORC) 設定驅動程式端檔案清單的路徑數目上限。在分割區探索期間超過時，會使用個別的 Spark 分散式任務列出檔案。	32
spark.sql.statistics.histogram.enabled	指定是否要在資料欄統計資料計算期間產生等高長長條圖，以改善估算準確度。需要額外的資料表掃描，超過基本資料欄統計資料所需的掃描。	false
spark.dynamicAllocation.executorIdleTimeout	設定在啟用動態配置時移除執行器之前，執行器必須閒置的持續時間。	60 年代
spark.dynamicAllocation.schedulerBacklogTimeout	設定在啟用動態配置時，請求新的執行器之前，必須待處理任務的持續時間。	1 秒
spark.dynamicAllocation.sustainedSchedulerBacklogTimeout	與 spark.dynamicAllocation.schedulerBacklogTimeout,但僅用於後續執行器請求。	(spark.dynamicAllocation.schedulerBacklogTimeout)
spark.scheduler.minRegisteredResourcesRatio	設定排程開始之前等待的已註冊資源（已註冊資源/總預期資源）的最小比率。指定為介於 0.0 和 1.0 之間的兩倍。無論是否已達到資源的最小比率，排程開始之前等待的時間上限都由 spark.scheduler.maxRegisteredResourcesWaitingTime 控制。	0.8
spark.scheduler.maxRegisteredResourcesWaitingTime	設定排程開始之前等待資源註冊的時間上限。	30 秒
spark.sql.hive.metastorePartitionPruningFallbackOnException	指定從中繼存放區遇到 MetaException 時，是否返回從 Hive 中繼存放區取得所有分割區，並在 Spark 用戶端執行分割區剔除。	false

屬性名稱	Description	預設值
spark.sql.autoBroadcastJoinThreshold	設定在聯結期間廣播至工作者節點的資料表大小上限，以位元組為單位。設定為 -1 以停用廣播。	10MB (CR.4X 為 -1，含 32 個工作者）
spark.dynamicAllocation.enabled	指定是否使用動態資源配置，這會根據工作負載擴展和縮減向此應用程式註冊的執行器數量。	true
spark.io.compression.codec	設定用於壓縮內部資料的轉碼器，例如 RDD 分割區、事件日誌、廣播變數和隨機輸出。支援的值：lz4、Snappy、zstd、gzip。	snappy
spark.sql.session.timeZone	定義工作階段時區，以處理字串常值和 Java 物件轉換中的時間戳記。接受：區域/城市格式的區域型 IDs（例如 America/Los_Angeles) 區域位移，以 (+/-)HH、(+/-)HH：mm 或 (+/-)HH：mm：ss 格式顯示（例如 -08 或 +01：00) +00：00 的 UTC 或 Z 別名	UTC

針對服務存取，選擇將用於存取此資料表的現有服務角色名稱。
如果您想要為訓練資料集啟用標籤，請選擇新增標籤，然後輸入金鑰和值對。
選擇建立外觀客群。

如需對應的 API 動作，請參閱 StartAudienceGenerationJob。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

種子資料提供者的 ML 建模

匯出類似樣貌的客群

建立類似樣貌的客群

注意

在 中建立外觀相似的客群 AWS Clean Rooms

注意

在中建立外觀相似的客群 AWS Clean Rooms