数据来源模板架构 - Amazon Kendra

数据来源模板架构

以下是支持模板的数据来源的模板架构。

Adobe Experience Manager 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。在连接配置或存储库端点详细信息中,您需要提供 Adobe Experience Manager 主机 URL、身份验证类型,以及您是使用 Adobe Experience Manager(AEM)即云服务还是 AEM On-Premise。此外,请将数据来源的类型指定为 AEM、身份验证凭证的密钥以及其他必要的配置。然后,当您 CreateDataSource 时,您可以将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。有关更多信息,请参阅Adobe Experience Manager JSON 架构

下表描述 AEM JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
aemUrl Adobe Experience Manager 主机 URL。例如,如果您使用 AEM On-Premise,则需要包含主机名和端口:https://hostname:port。或者,如果您使用 AEM 即云服务,则可以使用作者 URL:https://author-xxxxxx-xxxxxxx.adobeaemcloud.com
authType 您使用的身份验证类型,可以是 BasicOAuth2
deploymentType 您使用的 Adobe Experience Manager 的类型,可以是 CLOUDON_PREMISE
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • asset

将 Adobe Experience Manager 页面和资产的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。
timeZoneId

如果您使用 AEM On-Premise,并且服务器的时区与 Amazon Kendra AEM 连接器或索引的时区不同,则可以指定与 AEM 连接器或索引相符的服务器时区。

AEM On-Premise 的默认时区是 Amazon Kendra AEM 连接器或索引的时区。AEM 即云服务的默认时区是格林威治标准时间。

  • pageRootPaths

  • assetRootPaths

页面和资产的根路径列表。例如,页面的根路径可以是 /content/sub,而资源的根路径可以是 /content/sub/asset1
crawlAssets true 则爬取资产。
crawlPages true 则爬取页面。
  • pagePathInclusionPatterns

  • pageNameInclusionPatterns

  • assetPathInclusionPatterns

  • assetTypeInclusionPatterns

  • assetNameInclusionPatterns

用于在 Adobe Experience Manager 数据来源中包含某些特定页面和资源的正则表达式模式的列表。与模式匹配的页面和资产将包含在索引中。与模式不匹配的页面和资产将从索引中排除。如果页面或资产同时匹配包含和排除模式,则排除模式优先,也就是说,内容不会包含在索引中。
  • pagePathExclusionPatterns

  • pageNameExclusionPatterns

  • assetPathExclusionPatterns

  • assetTypeInclusionPatterns

  • assetNameInclusionPatterns

用于在 Adobe Experience Manager 数据来源中排除某些特定页面和资源的正则表达式模式的列表。与模式匹配的页面和资产将从索引中排除。与模式不匹配的页面和资产将包含在索引中。如果页面或资产同时匹配包含和排除模式,则排除模式优先,也就是说,内容不会包含在索引中。
pageComponents 您想要编入索引的特定页面组件的名称的列表。
contentFragmentVariations 您想要编入索引的 Adobe Experience Manager 内容片段的特定已保存变体的名称列表。
type 数据来源的类型。指定 AEM 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Adobe Experience Manager 所需的键-值对。有关这些键值对的信息,请参阅 Connection instructions for Adobe Experience Manager
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "aemUrl": { "type": "string", "pattern": "https:.*" }, "authType": { "type": "string", "enum": ["Basic", "OAuth2"] }, "deploymentType": { "type": "string", "enum": ["CLOUD","ON_PREMISE"] } }, "required": [ "aemUrl", "authType", "deploymentType" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "page": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "asset": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "timeZoneId": { "type": "string", "enum": [ "Africa/Abidjan", "Africa/Accra", "Africa/Addis_Ababa", "Africa/Algiers", "Africa/Asmara", "Africa/Asmera", "Africa/Bamako", "Africa/Bangui", "Africa/Banjul", "Africa/Bissau", "Africa/Blantyre", "Africa/Brazzaville", "Africa/Bujumbura", "Africa/Cairo", "Africa/Casablanca", "Africa/Ceuta", "Africa/Conakry", "Africa/Dakar", "Africa/Dar_es_Salaam", "Africa/Djibouti", "Africa/Douala", "Africa/El_Aaiun", "Africa/Freetown", "Africa/Gaborone", "Africa/Harare", "Africa/Johannesburg", "Africa/Juba", "Africa/Kampala", "Africa/Khartoum", "Africa/Kigali", "Africa/Kinshasa", "Africa/Lagos", "Africa/Libreville", "Africa/Lome", "Africa/Luanda", "Africa/Lubumbashi", "Africa/Lusaka", "Africa/Malabo", "Africa/Maputo", "Africa/Maseru", "Africa/Mbabane", "Africa/Mogadishu", "Africa/Monrovia", "Africa/Nairobi", "Africa/Ndjamena", "Africa/Niamey", "Africa/Nouakchott", "Africa/Ouagadougou", "Africa/Porto-Novo", "Africa/Sao_Tome", "Africa/Timbuktu", "Africa/Tripoli", "Africa/Tunis", "Africa/Windhoek", "America/Adak", "America/Anchorage", "America/Anguilla", "America/Antigua", "America/Araguaina", "America/Argentina/Buenos_Aires", "America/Argentina/Catamarca", "America/Argentina/ComodRivadavia", "America/Argentina/Cordoba", "America/Argentina/Jujuy", "America/Argentina/La_Rioja", "America/Argentina/Mendoza", "America/Argentina/Rio_Gallegos", "America/Argentina/Salta", "America/Argentina/San_Juan", "America/Argentina/San_Luis", "America/Argentina/Tucuman", "America/Argentina/Ushuaia", "America/Aruba", "America/Asuncion", "America/Atikokan", "America/Atka", "America/Bahia", "America/Bahia_Banderas", "America/Barbados", "America/Belem", "America/Belize", "America/Blanc-Sablon", "America/Boa_Vista", "America/Bogota", "America/Boise", "America/Buenos_Aires", "America/Cambridge_Bay", "America/Campo_Grande", "America/Cancun", "America/Caracas", "America/Catamarca", "America/Cayenne", "America/Cayman", "America/Chicago", "America/Chihuahua", "America/Ciudad_Juarez", "America/Coral_Harbour", "America/Cordoba", "America/Costa_Rica", "America/Creston", "America/Cuiaba", "America/Curacao", "America/Danmarkshavn", "America/Dawson", "America/Dawson_Creek", "America/Denver", "America/Detroit", "America/Dominica", "America/Edmonton", "America/Eirunepe", "America/El_Salvador", "America/Ensenada", "America/Fort_Nelson", "America/Fort_Wayne", "America/Fortaleza", "America/Glace_Bay", "America/Godthab", "America/Goose_Bay", "America/Grand_Turk", "America/Grenada", "America/Guadeloupe", "America/Guatemala", "America/Guayaquil", "America/Guyana", "America/Halifax", "America/Havana", "America/Hermosillo", "America/Indiana/Indianapolis", "America/Indiana/Knox", "America/Indiana/Marengo", "America/Indiana/Petersburg", "America/Indiana/Tell_City", "America/Indiana/Vevay", "America/Indiana/Vincennes", "America/Indiana/Winamac", "America/Indianapolis", "America/Inuvik", "America/Iqaluit", "America/Jamaica", "America/Jujuy", "America/Juneau", "America/Kentucky/Louisville", "America/Kentucky/Monticello", "America/Knox_IN", "America/Kralendijk", "America/La_Paz", "America/Lima", "America/Los_Angeles", "America/Louisville", "America/Lower_Princes", "America/Maceio", "America/Managua", "America/Manaus", "America/Marigot", "America/Martinique", "America/Matamoros", "America/Mazatlan", "America/Mendoza", "America/Menominee", "America/Merida", "America/Metlakatla", "America/Mexico_City", "America/Miquelon", "America/Moncton", "America/Monterrey", "America/Montevideo", "America/Montreal", "America/Montserrat", "America/Nassau", "America/New_York", "America/Nipigon", "America/Nome", "America/Noronha", "America/North_Dakota/Beulah", "America/North_Dakota/Center", "America/North_Dakota/New_Salem", "America/Nuuk", "America/Ojinaga", "America/Panama", "America/Pangnirtung", "America/Paramaribo", "America/Phoenix", "America/Port-au-Prince", "America/Port_of_Spain", "America/Porto_Acre", "America/Porto_Velho", "America/Puerto_Rico", "America/Punta_Arenas", "America/Rainy_River", "America/Rankin_Inlet", "America/Recife", "America/Regina", "America/Resolute", "America/Rio_Branco", "America/Rosario", "America/Santa_Isabel", "America/Santarem", "America/Santiago", "America/Santo_Domingo", "America/Sao_Paulo", "America/Scoresbysund", "America/Shiprock", "America/Sitka", "America/St_Barthelemy", "America/St_Johns", "America/St_Kitts", "America/St_Lucia", "America/St_Thomas", "America/St_Vincent", "America/Swift_Current", "America/Tegucigalpa", "America/Thule", "America/Thunder_Bay", "America/Tijuana", "America/Toronto", "America/Tortola", "America/Vancouver", "America/Virgin", "America/Whitehorse", "America/Winnipeg", "America/Yakutat", "America/Yellowknife", "Antarctica/Casey", "Antarctica/Davis", "Antarctica/DumontDUrville", "Antarctica/Macquarie", "Antarctica/Mawson", "Antarctica/McMurdo", "Antarctica/Palmer", "Antarctica/Rothera", "Antarctica/South_Pole", "Antarctica/Syowa", "Antarctica/Troll", "Antarctica/Vostok", "Arctic/Longyearbyen", "Asia/Aden", "Asia/Almaty", "Asia/Amman", "Asia/Anadyr", "Asia/Aqtau", "Asia/Aqtobe", "Asia/Ashgabat", "Asia/Ashkhabad", "Asia/Atyrau", "Asia/Baghdad", "Asia/Bahrain", "Asia/Baku", "Asia/Bangkok", "Asia/Barnaul", "Asia/Beirut", "Asia/Bishkek", "Asia/Brunei", "Asia/Calcutta", "Asia/Chita", "Asia/Choibalsan", "Asia/Chongqing", "Asia/Chungking", "Asia/Colombo", "Asia/Dacca", "Asia/Damascus", "Asia/Dhaka", "Asia/Dili", "Asia/Dubai", "Asia/Dushanbe", "Asia/Famagusta", "Asia/Gaza", "Asia/Harbin", "Asia/Hebron", "Asia/Ho_Chi_Minh", "Asia/Hong_Kong", "Asia/Hovd", "Asia/Irkutsk", "Asia/Istanbul", "Asia/Jakarta", "Asia/Jayapura", "Asia/Jerusalem", "Asia/Kabul", "Asia/Kamchatka", "Asia/Karachi", "Asia/Kashgar", "Asia/Kathmandu", "Asia/Katmandu", "Asia/Khandyga", "Asia/Kolkata", "Asia/Krasnoyarsk", "Asia/Kuala_Lumpur", "Asia/Kuching", "Asia/Kuwait", "Asia/Macao", "Asia/Macau", "Asia/Magadan", "Asia/Makassar", "Asia/Manila", "Asia/Muscat", "Asia/Nicosia", "Asia/Novokuznetsk", "Asia/Novosibirsk", "Asia/Omsk", "Asia/Oral", "Asia/Phnom_Penh", "Asia/Pontianak", "Asia/Pyongyang", "Asia/Qatar", "Asia/Qostanay", "Asia/Qyzylorda", "Asia/Rangoon", "Asia/Riyadh", "Asia/Saigon", "Asia/Sakhalin", "Asia/Samarkand", "Asia/Seoul", "Asia/Shanghai", "Asia/Singapore", "Asia/Srednekolymsk", "Asia/Taipei", "Asia/Tashkent", "Asia/Tbilisi", "Asia/Tehran", "Asia/Tel_Aviv", "Asia/Thimbu", "Asia/Thimphu", "Asia/Tokyo", "Asia/Tomsk", "Asia/Ujung_Pandang", "Asia/Ulaanbaatar", "Asia/Ulan_Bator", "Asia/Urumqi", "Asia/Ust-Nera", "Asia/Vientiane", "Asia/Vladivostok", "Asia/Yakutsk", "Asia/Yangon", "Asia/Yekaterinburg", "Asia/Yerevan", "Atlantic/Azores", "Atlantic/Bermuda", "Atlantic/Canary", "Atlantic/Cape_Verde", "Atlantic/Faeroe", "Atlantic/Faroe", "Atlantic/Jan_Mayen", "Atlantic/Madeira", "Atlantic/Reykjavik", "Atlantic/South_Georgia", "Atlantic/St_Helena", "Atlantic/Stanley", "Australia/ACT", "Australia/Adelaide", "Australia/Brisbane", "Australia/Broken_Hill", "Australia/Canberra", "Australia/Currie", "Australia/Darwin", "Australia/Eucla", "Australia/Hobart", "Australia/LHI", "Australia/Lindeman", "Australia/Lord_Howe", "Australia/Melbourne", "Australia/NSW", "Australia/North", "Australia/Perth", "Australia/Queensland", "Australia/South", "Australia/Sydney", "Australia/Tasmania", "Australia/Victoria", "Australia/West", "Australia/Yancowinna", "Brazil/Acre", "Brazil/DeNoronha", "Brazil/East", "Brazil/West", "CET", "CST6CDT", "Canada/Atlantic", "Canada/Central", "Canada/Eastern", "Canada/Mountain", "Canada/Newfoundland", "Canada/Pacific", "Canada/Saskatchewan", "Canada/Yukon", "Chile/Continental", "Chile/EasterIsland", "Cuba", "EET", "EST5EDT", "Egypt", "Eire", "Etc/GMT", "Etc/GMT+0", "Etc/GMT+1", "Etc/GMT+10", "Etc/GMT+11", "Etc/GMT+12", "Etc/GMT+2", "Etc/GMT+3", "Etc/GMT+4", "Etc/GMT+5", "Etc/GMT+6", "Etc/GMT+7", "Etc/GMT+8", "Etc/GMT+9", "Etc/GMT-0", "Etc/GMT-1", "Etc/GMT-10", "Etc/GMT-11", "Etc/GMT-12", "Etc/GMT-13", "Etc/GMT-14", "Etc/GMT-2", "Etc/GMT-3", "Etc/GMT-4", "Etc/GMT-5", "Etc/GMT-6", "Etc/GMT-7", "Etc/GMT-8", "Etc/GMT-9", "Etc/GMT0", "Etc/Greenwich", "Etc/UCT", "Etc/UTC", "Etc/Universal", "Etc/Zulu", "Europe/Amsterdam", "Europe/Andorra", "Europe/Astrakhan", "Europe/Athens", "Europe/Belfast", "Europe/Belgrade", "Europe/Berlin", "Europe/Bratislava", "Europe/Brussels", "Europe/Bucharest", "Europe/Budapest", "Europe/Busingen", "Europe/Chisinau", "Europe/Copenhagen", "Europe/Dublin", "Europe/Gibraltar", "Europe/Guernsey", "Europe/Helsinki", "Europe/Isle_of_Man", "Europe/Istanbul", "Europe/Jersey", "Europe/Kaliningrad", "Europe/Kiev", "Europe/Kirov", "Europe/Kyiv", "Europe/Lisbon", "Europe/Ljubljana", "Europe/London", "Europe/Luxembourg", "Europe/Madrid", "Europe/Malta", "Europe/Mariehamn", "Europe/Minsk", "Europe/Monaco", "Europe/Moscow", "Europe/Nicosia", "Europe/Oslo", "Europe/Paris", "Europe/Podgorica", "Europe/Prague", "Europe/Riga", "Europe/Rome", "Europe/Samara", "Europe/San_Marino", "Europe/Sarajevo", "Europe/Saratov", "Europe/Simferopol", "Europe/Skopje", "Europe/Sofia", "Europe/Stockholm", "Europe/Tallinn", "Europe/Tirane", "Europe/Tiraspol", "Europe/Ulyanovsk", "Europe/Uzhgorod", "Europe/Vaduz", "Europe/Vatican", "Europe/Vienna", "Europe/Vilnius", "Europe/Volgograd", "Europe/Warsaw", "Europe/Zagreb", "Europe/Zaporozhye", "Europe/Zurich", "GB", "GB-Eire", "GMT", "GMT0", "Greenwich", "Hongkong", "Iceland", "Indian/Antananarivo", "Indian/Chagos", "Indian/Christmas", "Indian/Cocos", "Indian/Comoro", "Indian/Kerguelen", "Indian/Mahe", "Indian/Maldives", "Indian/Mauritius", "Indian/Mayotte", "Indian/Reunion", "Iran", "Israel", "Jamaica", "Japan", "Kwajalein", "Libya", "MET", "MST7MDT", "Mexico/BajaNorte", "Mexico/BajaSur", "Mexico/General", "NZ", "NZ-CHAT", "Navajo", "PRC", "PST8PDT", "Pacific/Apia", "Pacific/Auckland", "Pacific/Bougainville", "Pacific/Chatham", "Pacific/Chuuk", "Pacific/Easter", "Pacific/Efate", "Pacific/Enderbury", "Pacific/Fakaofo", "Pacific/Fiji", "Pacific/Funafuti", "Pacific/Galapagos", "Pacific/Gambier", "Pacific/Guadalcanal", "Pacific/Guam", "Pacific/Honolulu", "Pacific/Johnston", "Pacific/Kanton", "Pacific/Kiritimati", "Pacific/Kosrae", "Pacific/Kwajalein", "Pacific/Majuro", "Pacific/Marquesas", "Pacific/Midway", "Pacific/Nauru", "Pacific/Niue", "Pacific/Norfolk", "Pacific/Noumea", "Pacific/Pago_Pago", "Pacific/Palau", "Pacific/Pitcairn", "Pacific/Pohnpei", "Pacific/Ponape", "Pacific/Port_Moresby", "Pacific/Rarotonga", "Pacific/Saipan", "Pacific/Samoa", "Pacific/Tahiti", "Pacific/Tarawa", "Pacific/Tongatapu", "Pacific/Truk", "Pacific/Wake", "Pacific/Wallis", "Pacific/Yap", "Poland", "Portugal", "ROK", "Singapore", "SystemV/AST4", "SystemV/AST4ADT", "SystemV/CST6", "SystemV/CST6CDT", "SystemV/EST5", "SystemV/EST5EDT", "SystemV/HST10", "SystemV/MST7", "SystemV/MST7MDT", "SystemV/PST8", "SystemV/PST8PDT", "SystemV/YST9", "SystemV/YST9YDT", "Turkey", "UCT", "US/Alaska", "US/Aleutian", "US/Arizona", "US/Central", "US/East-Indiana", "US/Eastern", "US/Hawaii", "US/Indiana-Starke", "US/Michigan", "US/Mountain", "US/Pacific", "US/Samoa", "UTC", "Universal", "W-SU", "WET", "Zulu", "EST", "HST", "MST", "ACT", "AET", "AGT", "ART", "AST", "BET", "BST", "CAT", "CNT", "CST", "CTT", "EAT", "ECT", "IET", "IST", "JST", "MIT", "NET", "NST", "PLT", "PNT", "PRT", "PST", "SST", "VST" ] }, "pageRootPaths": { "type": "array", "items": { "type": "string" } }, "assetRootPaths": { "type": "array", "items": { "type": "string" } }, "crawlAssets": { "type": "boolean" }, "crawlPages": { "type": "boolean" }, "pagePathInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "pagePathExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "pageNameInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "pageNameExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "assetPathInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "assetPathExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "assetTypeInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "assetTypeExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "assetNameInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "assetNameExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "pageComponents": { "type": "array", "items": { "type": "object" } }, "contentFragmentVariations": { "type": "array", "items": { "type": "object" } }, "cugExemptedPrincipals": { "type": "array", "items": { "type": "string" } } }, "required": [] }, "type": { "type": "string", "pattern": "AEM" }, "enableIdentityCrawler": { "type": "boolean" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Amazon FSx(Windows)模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以将文件系统 ID 作为连接配置或存储库端点详细信息的一部分提供。另外,您必须将数据来源的类型指定为 FSX,指定用作身份验证凭证的密钥以及其他必要的配置。然后,当您 CreateDataSource 时,您可以将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Amazon FSx(Windows)JSON 架构

下表描述 Amazon FSx (Windows) JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
fileSystemId Amazon FSx 文件系统的标识符。您可以在 Amazon FSx 控制台的文件系统控制面板上找到文件系统 ID。
fileSystemType Amazon FSx 文件系统类型。要使用 Windows File Server 作为您的文件系统类型,请指定 WINDOWS
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
全部 将 Amazon FSx 数据来源中文件的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。
isCrawlAcl true,如果您有访问控制列表(ACL)并想将其用于访问控制,则爬取文档的 ACL 信息。ACL 指定了用户和群组可以访问哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选
inclusionPatterns 用于在 Amazon FSx 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
exclusionPatterns 用于在 Amazon FSx 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

type 数据来源的类型。对于 Windows 文件系统数据来源,请指定 FSX
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "fileSystemId": { "type": "string", "pattern": "fs-.*" }, "fileSystemType": { "type": "string", "pattern": "WINDOWS" } }, "required": ["fileSystemId", "fileSystemType"] } } }, "repositoryConfigurations": { "type": "object", "properties": { "All": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": ["fieldMappings"] } }, "required": ["All"] }, "additionalProperties": { "type": "object", "properties": { "isCrawlAcl": { "type": "boolean" }, "exclusionPatterns": { "type": "array", "items": { "type": "string" } }, "inclusionPatterns": { "type": "array", "items": { "type": "string" } } }, "required": [] }, "enableIdentityCrawler": { "type": "boolean" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL" ] }, "type" : { "type" : "string", "pattern": "FSX" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "enableIdentityCrawler", "additionalProperties", "type" ] }

Amazon FSx(NetApp ONTAP)模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以将文件系统 ID 和存储虚拟机(SVM)作为连接配置或存储库端点详细信息的一部分提供。另外,您必须将数据来源的类型指定为 FSXONTAP,指定用作身份验证凭证的密钥以及其他必要的配置。然后,当您 CreateDataSource 时,您可以将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Amazon FSx(NetApp ONTAP)JSON 架构

下表描述了 Amazon FSx(NetApp ONTAP)JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
fileSystemId Amazon FSx 文件系统的标识符。您可以在 Amazon FSx 控制台的文件系统控制面板上找到文件系统 ID。有关如何在 Amazon FSx 控制台中为 NetApp ONTAP 创建文件系统的信息,请参阅《FSx for ONTAP 用户指南》中的 Getting Started Guide for NetApp ONTAP
fileSystemType Amazon FSx 文件系统类型。要使用 NetApp ONTAP 作为您的文件系统类型,请指定 ONTAP
svmId 用于您的适用于 NetApp ONTAP 的 Amazon FSx 文件系统的存储虚拟机(SVM)ID。要找到 SVM ID,请转到 Amazon FSx 控制台中的“文件系统”控制面板,选择您的文件系统 ID,然后选择存储虚拟机。有关如何在 Amazon FSx 控制台中为 NetApp ONTAP 创建文件系统的信息,请参阅《FSx for ONTAP 用户指南》中的 Getting Started Guide for NetApp ONTAP
protocolType 无论您选择适用于 Windows 的通用互联网文件系统(CIFS)协议,还是选择适用于 Linux 的网络文件系统(NFS)协议。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
文件 将 Amazon FSx 数据来源中文件的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段。您的文件自定义元数据中必须有数据来源字段名称。
additionalProperties 数据来源中内容的其他配置选项。
crawlAcl true,如果您有访问控制列表(ACL)并想将其用于访问控制,则爬取文档的 ACL 信息。ACL 指定了用户和群组可以访问哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选
inclusionPatterns 用于在 Amazon FSx 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
exclusionPatterns 用于在 Amazon FSx 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
type 数据来源的类型。对于 NetApp ONTAP 文件系统数据来源,请指定 FSXONTAP
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn

AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Amazon FSx 文件系统所需的键-值对。密钥必须包含具有以下键的 JSON 结构:

{ "username": "user@corp.example.com", "password": "password" }

如果您对您的 Amazon FSx 文件系统使用 NFS 协议,密钥将以 JSON 格式存储,其中包含以下密钥:

{ "leftId": "left ID", "rightId": "right ID", "preSharedKey": "pre-shared key" }
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "fileSystemId": { "type": "string", "pattern": "^(fs-[0-9a-f]{8,21})$" }, "fileSystemType": { "type": "string", "enum": ["ONTAP"] }, "svmId": { "type": "string", "pattern": "^(svm-[0-9a-f]{17,21})$" }, "protocolType": { "type": "string", "enum": [ "CIFS", "NFS" ] } }, "required": [ "fileSystemId", "fileSystemType" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "file": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string", "pattern": "^([a-zA-Z_]{1,20})$" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string", "pattern": "^([a-zA-Z_]{1,20})$" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ], "maxItems": 50 } }, "required": [ "fieldMappings" ] } }, "required": [ "file" ] }, "additionalProperties": { "type": "object", "properties": { "crawlAcl": { "type": "boolean" }, "inclusionPatterns": { "type": "array", "items": { "type": "string", "maxLength": 30 }, "maxItems": 100 }, "exclusionPatterns": { "type": "array", "items": { "type": "string", "maxLength": 30 }, "maxItems": 100 } } }, "type": { "type": "string", "pattern": "FSXONTAP" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL" ] }, "secretArn": { "type": "string", "pattern": "arn:aws:secretsmanager:.*" } }, "required": [ "connectionConfiguration", "repositoryConfigurations", "additionalProperties", "secretArn", "type" ] }

Alfresco 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您需要提供 Alfresco 站点 ID、存储库 URL、用户界面 URL、身份验证类型,您是使用云还是本地部署,以及要爬取的内容类型。您可以将其作为连接配置或存储库端点详细信息的一部分提供。还要将数据来源的类型指定为 ALFRESCO、身份验证凭证的密钥以及其他必要的配置。然后,当您 CreateDataSource 时,您可以将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Alfresco JSON 架构

下表描述 Alfresco JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
siteId Alfresco 站点的标识符。
repoUrl 您的 Alfresco 存储库的 URL。您可以向 Alfresco 管理员获取存储库 URL。例如,如果您使用 Alfresco Cloud(PaaS),则存储库 URL 可能是 https://company.alfrescocloud.com。或者,如果您使用 Alfresco On-Premises,则存储库 URL 可能是 https://company-alfresco-instance.company-domain.suffix:port
webAppUrl 您的 Alfresco 用户界面的 URL。您可以向 Alfresco 管理员获取 Alfresco 用户界面 URL。例如,用户界面 URL 可能是 https://example.com
repositoryAdditionalProperties 用于连接存储库/数据来源端点的其他属性。
authType 您使用的身份验证类型,可以是 OAuth2Basic
type (deployment) 您使用的 Alfresco 的类型,可以是 PAASON-PREM
crawlType 您要爬取的内容类型,可以是 ASPECT(Alfresco 中标有“方面”的内容)、SITE_ID(特定 Alfresco 网站内的内容)或 ALL_SITES(所有 Alfresco 网站上的内容)。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • 文档

  • comment

将 Alfresco 文档和评论的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。
aspectName

要编制索引的特定“方面”的名称。

aspectProperties

要编制索引的特定“方面”内容属性的列表。

enableFineGrainedControl

如果为 true,要爬取“方面”。

isCrawlComment

如果为 true,要爬取评论。

  • inclusionFileNamePatterns

  • inclusionFileTypePatterns

  • inclusionFilePathPatterns

用于在 Alfresco 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
  • exclusionFileNamePatterns

  • exclusionFileTypePatterns

  • exclusionFilePathPatterns

用于在 Alfresco 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
type 数据来源的类型。指定 ALFRESCO 作为数据来源类型。
secretArn

AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Alfresco 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:

如果使用基本身份验证:

{ "username": "user name", "password": "password" }

如果使用 OAuth 2.0 身份验证:

{ "clientId": "client ID", "clientSecret": "client secret", "tokenUrl": "token URL" }
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "siteId": { "type": "string" }, "repoUrl": { "type": "string" }, "webAppUrl": { "type": "string" }, "repositoryAdditionalProperties": { "type": "object", "properties": { "authType": { "type": "string", "enum": [ "OAuth2", "Basic" ] }, "type": { "type": "string", "enum": [ "PAAS", "ON_PREM" ] }, "crawlType": { "type": "string", "enum": [ "ASPECT", "SITE_ID", "ALL_SITES" ] } } } } } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "STRING_LIST", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "comment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "STRING_LIST", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "aspectName": { "type": "string" }, "aspectProperties": { "type": "array" }, "enableFineGrainedControl": { "type": "boolean" }, "isCrawlComment": { "type": "boolean" }, "inclusionFileNamePatterns": { "type": "array" }, "exclusionFileNamePatterns": { "type": "array" }, "inclusionFileTypePatterns": { "type": "array" }, "exclusionFileTypePatterns": { "type": "array" }, "inclusionFilePathPatterns": { "type": "array" }, "exclusionFilePathPatterns": { "type": "array" } } }, "type": { "type": "string", "pattern": "ALFRESCO" }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL" ] }, "enableIdentityCrawler": { "type": "boolean" }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] } }, "required": [ "connectionConfiguration", "repositoryConfigurations", "additionalProperties", "type", "secretArn" ] }

Aurora(MySQL)模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCmysql 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Aurora(MySQL)JSON 架构

下表描述 Aurora(MySQL)JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Aurora(PostgreSQL)模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCpostgresql 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Aurora(PostgreSQL)JSON 架构

下表描述 Aurora(PostgreSQL)JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Amazon RDS(Microsoft SQL Server)模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCsqlserver 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Amazon RDS(Microsoft SQL Server)JSON 架构

下表描述 Amazon RDS(Microsoft SQL Server)JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Amazon RDS(MySQL)模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCmysql 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Amazon RDS(MySQL)JSON 架构

下表描述 Amazon RDS(MySQL)JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Amazon RDS(Oracle)模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCoracle 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Amazon RDS(Oracle)JSON 架构

下表描述 Amazon RDS(Oracle)JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Amazon RDS(PostgreSQL)模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCpostgresql 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Amazon RDS(PostgreSQL)JSON 架构

下表描述 Amazon RDS(PostgreSQL)JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Amazon S3 模板架构

您可以将包含数据来源架构的 JSON 作为模板配对的一部分。您可以将其作为连接配置或存储库端点详细信息的一部分提供 S3 存储桶的名称。还要将数据来源的类型指定为 S3,以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅S3 JSON 架构

下表描述 Amazon S3 JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
BucketName Amazon S3 存储桶的名称。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
additionalProperties 数据来源中内容的其他配置选项
  • inclusionPatterns

  • exclusionPatterns

  • inclusionPrefixes

  • exclusionPrefixes

用于在 Amazon S3 数据来源中包含或排除特定文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
aclConfigurationFilePath 控制对 Amazon Kendra 索引中文档的访问权限的文件路径。
metadataFilesPrefix 存储桶中存放元数据文件的位置。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

type 数据来源的类型。指定 S3 作为数据来源类型。
version 支持的模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "BucketName": { "type": "string" } }, "required": [ "BucketName" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING" ] }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ "document" ] }, "additionalProperties": { "type": "object", "properties": { "inclusionPatterns": { "type": "array" }, "exclusionPatterns": { "type": "array" }, "inclusionPrefixes": { "type": "array" }, "exclusionPrefixes": { "type": "array" }, "aclConfigurationFilePath": { "type": "string" }, "metadataFilesPrefix": { "type": "string" } } }, "syncMode": { "type": "string", "enum": [ "FULL_CRAWL", "FORCED_FULL_CRAWL" ] }, "type": { "type": "string", "pattern": "S3" }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] } }, "required": [ "connectionConfiguration", "type", "syncMode", "repositoryConfigurations" ] }

Amazon Kendra 网络爬网程序模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。

您可以将其作为连接配置或存储库端点详细信息的一部分提供种子或起点 URL,也可以提供站点地图 URL。不要手动列出所有 URL,您可以提供存储种子 URL 列表的文本文件的 Amazon S3 存储桶路径,或提供站点地图的 XML 文件,从而在 S3 中将这些文件组合成一个 ZIP 文件。

此外,您还要将数据来源的类型指定为 WEBCRAWLERV2,指定网站身份验证凭证和身份验证类型(如果您的网站需要身份验证)以及其他必要的配置。

然后,当您 CreateDataSource 时,您可以将 TEMPLATE 指定为 Type

重要

CloudFormation 不支持创建 Web 爬网程序 v2.0 连接器。如果需要 CloudFormation 支持创建此类连接器,请使用 Web 爬网程序 v1.0 连接器。

当选择要编制索引的网站时,您必须遵守 Amazon 可接受使用政策以及所有其他 Amazon 条款。请记住,您必须仅使用 Amazon Kendra Web 爬网程序为您自己的网页或您有权编制索引的网页来编制索引。要了解如何阻止 Amazon Kendra Web 爬网程序将您的网站编入索引,请参阅为 Amazon Kendra Web 爬网程序配置 robots.txt 文件

您可以使用本开发者指南中提供的模板。请参阅Amazon Kendra Web 爬网程序 JSON 架构

下表描述 Amazon Kendra Web 爬网程序 JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
siteMapUrls 要爬取的网站站点地图 URL 的列表。您最多可以列出三个站点地图 URL。
s3SeedUrl 存储种子 URL 或启动 URL 列表的文本文件的 S3 路径。例如 。s3://bucket-name/directory/文本文件中的每个 URL 都必须对单行进行格式化。在一个文件中最多可以列出 100 个种子 URL。
s3SiteMapUrl 站点地图 XML 文件的 S3 路径。例如 。s3://bucket-name/directory/您最多可以列出三个站点地图 XML 文件。您可以将多个站点地图文件压缩成一个 ZIP 文件,然后将 ZIP 文件存储在 Amazon S3 存储桶中。
seedUrlConnections 您想要爬取的网站的种子或起点 URL 的列表。您最多可以列出 100 个种子 URL。
seedUrl 种子或起点 URL。
身份验证 如果您的网站需要相同的身份验证,则为身份验证类型,否则指定 NoAuthentication
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • webPage

  • 连接

将网页和网页文件的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。例如,HTML 网页标题标签可以映射到 _document_title 索引字段。有关更多信息,请参阅映射数据来源字段
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

additionalProperties 数据来源中内容的其他配置选项。
rateLimit 每分钟爬取的每个网站主机的最大 URL 数量。
maxFileSize 要爬取的网页或附件的最大大小(以 MB 为单位)。
crawlDepth 从种子 URL 爬取的层数。例如,种子 URL 页面的深度为 1,在该页面上同时爬取的所有超链接的深度都是 2。
maxLinksPerUrl 爬取网站时要包含的网页 URL 的最大数量。每个网页都有一个数字。在爬取网站的网页时,网页链接的任何 URL 也会被爬取。按显示顺序爬取网页上的 URL。
crawlSubDomain true,爬取包含子域的网站域。例如,如果种子 URL 是“abc.example.com”,则还会爬取“a.abc.example.com”和“b.abc.example.com”。如果您未设置 truecrawlSubDomaincrawlAllDomain,则 Amazon Kendra 只会爬取您想要爬取的网站的域名。
crawlAllDomain true,爬取有子域的网站域和网页链接到的其他域。如果您未设置 truecrawlSubDomaincrawlAllDomain,则 Amazon Kendra 只会爬取您想要爬取的网站的域名。
honorRobots true,遵循您想要爬取的网站的 robots.txt 指令。这些指令控制 Amazon Kendra Web 爬网程序如何爬取网站,无论 Amazon Kendra 是只能爬取特定内容,还是不能爬取任何内容。
crawlAttachments true,爬取网页链接到的文件。
  • inclusionURLCrawlPatterns

  • inclusionURLIndexPatterns

正则表达式模式的列表,以便包含爬取某些 URL,并为这些 URL 网页上的任何超链接编制索引。与模式匹配的 URL 将包含在索引中。与模式不匹配的 URL 将从索引中排除。如果 URL 同时匹配包含和排除模式,则以排除模式为优先,并且该 URL/网站的网页不会包含在索引中。
  • exclusionURLCrawlPatterns

  • exclusionURLIndexPatterns

正则表达式模式的列表,以便排除爬取某些 URL,并为这些 URL 网页上的任何超链接编制索引。与模式匹配的 URL 将从索引中排除。与模式不匹配的 URL 将包含在索引中。如果 URL 同时匹配包含和排除模式,则以排除模式为优先,并且该 URL/网站的网页不会包含在索引中。
inclusionFileIndexPatterns 正则表达式模式的列表,用于包含某些网页文件。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
exclusionFileIndexPatterns 正则表达式模式的列表,用于排除某些网页文件。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
implicitWaitDuration

implicitWaitDuration 指定连接器在爬取网页之前将等待的时长(以秒为单位)。

范围:0-10

例如 "implicitWaitDuration": "5"

proxy 通过 Web 代理连接到内部网站所需的配置信息。
host 您想要通过用于连接内部网站的代理服务器的主机名。例如,https://a.example.com/page1.html 的主机名是“a.example.com”。
端口 您想要用于连接内部网站的代理服务器的端口号。例如,443 是 HTTPS 的标准端口。
secretArn(代理) 如果连接至网站主机需要 Web 代理凭证,您可以创建存储凭证的 AWS Secrets Manager 密钥。为密钥提供 Amazon 资源名称(ARN)。
type 数据来源的类型。指定 WEBCRAWLERV2 作为数据来源类型。
secretArn

如果您的网站需要身份验证才能访问网站,则为 AWS Secrets Manager 密钥的 Amazon 资源名称(ARN)。网站的身份验证凭证存储在包含 JSON 键值对的密钥中。

如果您使用基本或 NTML/Kerberos 身份验证,请输入用户名和密码。密钥中的 JSON 键必须是 userNamepassword。NTLM 身份验证协议包括密码哈希,Kerberos 身份验证协议包括密码加密。

如果您使用 SAML 或表单身份验证,请输入用户名和密码,在用户名字段中输入 XPath(如果使用 SAML,则输入用户名按钮),在密码字段和按钮中输入 XPath,以及登录页面 URL。密钥中的 JSON 键必须是 userNamepassworduserNameFieldXpathuserNameButtonXpathpasswordFieldXpathpasswordButtonXpathloginPageUrl。您可以使用 Web 浏览器的开发者工具找到元素的 XPaths(XML 路径语言)。XPaths 通常遵循以下格式://tagname[@Attribute='Value'].

Amazon Kendra 还会检查密钥中包含的端点信息(种子 URL)是否与您的数据来源端点配置详细信息中指定的端点信息相同。

version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "siteMapUrls": { "type": "array", "items":{ "type": "string", "pattern": "https://.*" } }, "s3SeedUrl": { "type": "string", "pattern": "s3:.*" }, "s3SiteMapUrl": { "type": "string", "pattern": "s3:.*" }, "seedUrlConnections": { "type": "array", "items": [ { "type": "object", "properties": { "seedUrl":{ "type": "string", "pattern": "https://.*" } }, "required": [ "seedUrl" ] } ] }, "authentication": { "type": "string", "enum": [ "NoAuthentication", "BasicAuth", "NTLM_Kerberos", "Form", "SAML" ] } } } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "webPage": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "attachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL" ] }, "additionalProperties": { "type": "object", "properties": { "rateLimit": { "type": "string", "default": "300" }, "maxFileSize": { "type": "string", "default": "50" }, "crawlDepth": { "type": "string", "default": "2" }, "maxLinksPerUrl": { "type": "string", "default": "100" }, "crawlSubDomain": { "type": "boolean", "default": false }, "crawlAllDomain": { "type": "boolean", "default": false }, "honorRobots": { "type": "boolean", "default": false }, "crawlAttachments": { "type": "boolean", "default": false }, "inclusionURLCrawlPatterns": { "type": "array", "items": { "type": "string" } }, "exclusionURLCrawlPatterns": { "type": "array", "items": { "type": "string" } }, "inclusionURLIndexPatterns": { "type": "array", "items": { "type": "string" } }, "exclusionURLIndexPatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFileIndexPatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileIndexPatterns": { "type": "array", "items": { "type": "string" } }, "proxy": { "type": "object", "properties": { "host": { "type": "string" }, "port": { "type": "string" }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } } } }, "implicitWaitDuration": { "type":"object", "properties": { "innerNumber" : { "type": "number", "minimum": 0, "maximum": 10 } } }, "required": [ "rateLimit", "maxFileSize", "crawlDepth", "crawlSubDomain", "crawlAllDomain", "maxLinksPerUrl", "honorRobots" ] }, "type": { "type": "string", "pattern": "WEBCRAWLERV2" }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "type", "additionalProperties" ] }

Confluence 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以在连接配置或存储库端点详细信息中提供 Confluence 主机 URL、托管方法和身份验证类型。还要将数据来源的类型指定为 CONFLUENCEV2、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Confluence JSON 架构

下表描述 Confluence JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
hostUrl 您的 Confluence 实例的 URL。例如,https://example.confluence.com
type 您的 Confluence 实例的托管方法,可以是 SAASON_PREM
authType 您的 Confluence 实例的身份验证方法,可以是 BasicOAuth2Personal-token
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • space

  • blog

  • comment

  • 连接

将 Confluence 空间、页面、博客、评论和附件的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象列表。有关更多信息,请参阅映射数据来源字段。您的 Confluence 自定义元数据中必须有 Confluence 数据来源字段名称。
additionalProperties 数据来源中内容的其他配置选项。
isCrawlAcl 如果您有访问控制列表(ACL)并想将其用于访问控制,则配置 true 以爬取文档的 ACL 信息。注意,ACL 指定了用户和群组可以访问哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。这意味着,如果 isCrawlACL 关闭,则可以公开搜索文档。有关更多信息,请参阅用户上下文筛选
fieldForUserId 如果要使用用户电子邮件作为用户 ID,则指定 email。默认使用 email,这是目前唯一支持的用户 ID 类型。
  • inclusionSpaceKeyFilter

  • exclusionSpaceKeyFilter

  • pageTitleRegEX

  • blogTitleRegEX

  • commentTitleRegEX

  • attachmentTitleRegEX

  • inclusionFileTypePatterns

  • exclusionFileTypePatterns

  • inclusionUrlPatterns

  • exclusionUrlPatterns

用于在 Confluence 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
proxyHost 您使用的 Web 代理的主机名,其中不包含 http://https:// 协议。

proxyPort

主机 URL 传输协议使用的端口号。必须是介于 0 和 65535 之间的数值。
  • isCrawlPersonalSpace

  • isCrawlArchivedSpace

  • isCrawlArchivedPage

  • isCrawlPage

  • isCrawlBlog

  • isCrawlPageComment

  • isCrawlPageAttachment

  • isCrawlBlogComment

  • isCrawlBlogAttachment

如果为 true,则爬取您的 Confluence 个人空间、页面、博客、页面评论、页面附件、博客评论和博客附件中的文件。
maxFileSizeInMegaBytes 指定 Amazon Kendra 能够爬取的文件大小限制(以 MB 为单位)。Amazon Kendra 仅爬取不超过您定义的大小限制的文件。默认文件大小为 50 MB。最大文件大小应大于 0 MB 且小于或等于 50 MB。
type 数据来源的类型。指定 CONFLUENCEV2 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Confluence 所需的键-值对。有关这些键值对的信息,请参阅 Connection instructions for Confluence
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "hostUrl": { "type": "string", "pattern": "https:.*" }, "type": { "type": "string", "enum": [ "SAAS", "ON_PREM" ] }, "authType": { "type": "string", "enum": [ "Basic", "OAuth2", "Personal-token" ] } }, "required": [ "hostUrl", "type", "authType" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "space": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "page": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "blog": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "comment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "attachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "usersAclS3FilePath": { "type": "string" }, "isCrawlAcl": { "type": "boolean" }, "fieldForUserId": { "type": "string" }, "inclusionSpaceKeyFilter": { "type": "array", "items": { "type": "string" } }, "exclusionSpaceKeyFilter": { "type": "array", "items": { "type": "string" } }, "pageTitleRegEX": { "type": "array", "items": { "type": "string" } }, "blogTitleRegEX": { "type": "array", "items": { "type": "string" } }, "commentTitleRegEX": { "type": "array", "items": { "type": "string" } }, "attachmentTitleRegEX": { "type": "array", "items": { "type": "string" } }, "isCrawlPersonalSpace": { "type": "boolean" }, "isCrawlArchivedSpace": { "type": "boolean" }, "isCrawlArchivedPage": { "type": "boolean" }, "isCrawlPage": { "type": "boolean" }, "isCrawlBlog": { "type": "boolean" }, "isCrawlPageComment": { "type": "boolean" }, "isCrawlPageAttachment": { "type": "boolean" }, "isCrawlBlogComment": { "type": "boolean" }, "isCrawlBlogAttachment": { "type": "boolean" }, "maxFileSizeInMegaBytes": { "type":"string" }, "inclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionUrlPatterns": { "type": "array", "items": { "type": "string" } }, "exclusionUrlPatterns": { "type": "array", "items": { "type": "string" } }, "proxyHost": { "type": "string" }, "proxyPort": { "type": "string" } }, "required": [] }, "type": { "type": "string", "pattern": "CONFLUENCEV2" }, "enableIdentityCrawler": { "type": "boolean" }, "syncMode": { "type": "string", "enum": [ "FULL_CRAWL", "FORCED_FULL_CRAWL" ] }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Dropbox 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您提供 Dropbox 应用程序键、应用程序密钥和访问令牌作为存储身份验证凭证的密钥的一部分。还要将数据来源的类型指定为 DROPBOX、要使用的访问令牌的类型(临时或永久)以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Dropbox JSON 模式

下表描述 Dropbox JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。此数据来源未在 repositoryEndpointMetadata 中指定端点。连接信息包含在您提供的 secretArn 的 AWS Secrets Manager 密钥中。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • 文件

  • paper

  • papert

  • shortcut

将您的 Dropbox 文件、Dropbox Paper、和快捷方式的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象列表。有关更多信息,请参阅映射数据来源字段
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Dropbox 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:
{ "appKey": "Dropbox app key", "appSecret": "Dropbox app secret", "accesstoken": "temporary access token or refresh access token" }
additionalProperties 数据来源中内容的其他配置选项。
isCrawlAcl true,如果您有访问控制列表(ACL)并想将其用于访问控制,则爬取文档的 ACL 信息。ACL 指定了用户和群组可以访问哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选
  • inclusionFileNamePatterns

  • inclusionFileTypePatterns

用于在 Dropbox 数据来源中包含某些文件名和类型的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
  • exclusionFileNamePatterns

  • exclusionFileTypePatterns

用于在 Dropbox 数据来源中排除某些文件名和类型的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
  • crawlFile

  • crawlPaper

  • crawlPapert

  • crawlShortcut

如果为 true,则爬取存储在 Dropbox 中的文件、Dropbox Paper 文档、Dropbox Paper 模板和网页快捷方式。
type 数据来源的类型。指定 DROPBOX 作为数据来源类型。
tokenType 指定您的访问令牌类型:永久或临时访问令牌。建议您创建在 Dropbox 中永不过期的刷新访问令牌,而不是依赖在 4 小时后过期的一次性访问令牌。您可以在 Dropbox 开发者控制台中创建应用程序和刷新访问令牌,并在密钥中提供访问令牌。
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { } } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "file": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "LONG", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "paper": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "LONG", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "papert": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "LONG", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "shortcut": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "LONG", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] } } }, "syncMode": { "type": "string", "enum": [ "FULL_CRAWL", "FORCED_FULL_CRAWL", "CHANGE_LOG" ] }, "enableIdentityCrawler": { "type": "boolean" }, "secretArn": { "type": "string" }, "additionalProperties": { "type": "object", "properties": { "isCrawlAcl": { "type": "boolean" }, "inclusionFileNamePatterns": { "type": "array" }, "exclusionFileNamePatterns": { "type": "array" }, "inclusionFileTypePatterns": { "type": "array" }, "exclusionFileTypePatterns": { "type": "array" }, "crawlFile": { "type": "boolean" }, "crawlPaper": { "type": "boolean" }, "crawlPapert": { "type": "boolean" }, "crawlShortcut": { "type": "boolean" } } }, "type": { "type": "string", "pattern": "DROPBOX" }, "tokenType": { "type": "string", "enum": [ "PERMANENT", "TEMPORARY" ] }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] } }, "additionalProperties": false, "required": [ "connectionConfiguration", "repositoryConfigurations", "additionalProperties", "syncMode", "enableIdentityCrawler", "secretArn", "type", "tokenType" ] }

Drupal 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以在连接配置或存储库端点详细信息中提供 Drupal 主机 URL 和身份验证类型。还要将数据来源的类型指定为 DRUPAL、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Drupal JSON 架构

下表描述 Drupal JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
hostUrl 您的 Drupal 网站的主机 URL。例如,https://<hostname>/<drupalsitename>
repositoryConfigurations 数据来源内容的配置信息。
  • content

  • comment

  • 连接

映射 Drupal 文件的属性或字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段。您的 Drupal 自定义元数据中必须有 Drupal 数据来源字段名称。
additionalProperties 数据来源中内容的其他配置选项。
  • inclusionFileNamePatterns

  • articleTitleInclusionPatterns

  • pageTitleInclusionPatterns

  • customContentTitleInclusionPatterns

  • basicBlockTitleInclusionPatterns

  • customBlockTitleInclusionPatterns

用于在 Drupal 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
  • exclusionFileNamePatterns

  • articleTitleExclusionPatterns

  • pageTitleExclusionPatterns

  • customContentTitleExclusionPatterns

  • basicBlockTitleExclusionPatterns

  • customBlockTitleExclusionPatterns

用于在 Drupal 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
contentDefinitions
  • contentType

  • fieldDefinition

  • isCrawlComments

  • isCrawlFiles

  • isCrawlArticle

  • isCrawlBasicPage

  • isCrawlBasicBlock

  • isCrawlCustomContentTypesList

指定要爬取的内容类型以及是否爬取所选内容类型的评论和附件。
type 数据来源的类型。指定 DRUPAL 作为数据来源类型。
authType 您使用的身份验证类型,可以是 BASIC-AUTHOAUTH2
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Drupal 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:

如果使用基本身份验证:

{ "username": "user name", "passwords": "password" }

如果使用 OAuth 2.0 身份验证:

{ "username": "user name", "password": "password", "clientId": "client id", "clientSecret": "client secret" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "hostUrl": { "type": "string", "pattern": "https:.*" } }, "required": [ "hostUrl" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "content": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "comment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "attachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "isCrawlArticle": { "type": "boolean" }, "isCrawlBasicPage": { "type": "boolean" }, "isCrawlBasicBlock": { "type": "boolean" }, "crawlCustomContentTypesList": { "type": "array", "items": { "type": "string" } }, "crawlCustomBlockTypesList": { "type": "array", "items": { "type": "string" } }, "filePath": { "anyOf": [ { "type": "string", "pattern": "s3:.*" }, { "type": "string", "pattern": "" } ] }, "inclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "articleTitleInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "articleTitleExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "pageTitleInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "pageTitleExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "customContentTitleInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "customContentTitleExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "basicBlockTitleInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "basicBlockTitleExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "customBlockTitleInclusionPatterns": { "type": "array", "items": { "type": "string" } }, "customBlockTitleExclusionPatterns": { "type": "array", "items": { "type": "string" } }, "contentDefinitions": { "type": "array", "items": { "properties": { "contentType": { "type": "string" }, "fieldDefinition": { "type": "array", "items": [ { "type": "object", "properties": { "machineName": { "type": "string" }, "type": { "type": "string" } }, "required": [ "machineName", "type" ] } ] }, "isCrawlComments": { "type": "boolean" }, "isCrawlFiles": { "type": "boolean" } } }, "required": [ "contentType", "fieldDefinition", "isCrawlComments", "isCrawlFiles" ] } }, "required": [] }, "type": { "type": "string", "pattern": "DRUPAL" }, "authType": { "type": "string", "enum": [ "BASIC-AUTH", "OAUTH2" ] }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "enableIdentityCrawler": { "type": "boolean" }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

GitHub 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以在连接配置或存储库端点详细信息中提供 GitHub 主机 URL、组织名称以及您是使用 GitHub 云端还是 GitHub 本地。还要将数据来源的类型指定为 GITHUB、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅GitHub JSON 架构

下表描述 GitHub JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
type 指定类型 SAASON_PREMISE
hostUrl GitHub 主机 URL。例如,如果您使用 GitHub SaaS/Enterprise Cloud:https://api.github.com。或者,如果您使用 GitHub 本地/Enterprise Server:https://on-prem-host-url/api/v3/
organizationName 您可以登录 GitHub 桌面,然后转到个人资料图片下拉列表下的您的组织,来查找您的组织名称。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • ghRepository

  • ghCommit

  • ghIssueDocument

  • ghIssueComment

  • ghIssueAttachment

  • ghPRDocument

  • ghPRComment

  • ghPRAttachment

将 GitHub 内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。
isCrawlAcl true,如果您有访问控制列表(ACL)并想将其用于访问控制,则爬取文档的 ACL 信息。ACL 指定了用户和组可以访问和搜索哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选
fieldForUserId 指定要用于 ACL 爬取的用户 ID 的类型。如果要使用用户电子邮件作为用户 ID,则指定 email;如果要使用用户名作为用户 ID,则指定 username。如果您不指定选项,则默认使用 email
repositoryFilter 要编制索引的特定存储库和分支名称的列表。
crawlRepository 如果为 true,则爬取存储库。
crawlRepositoryDocuments 如果为 true,则爬取存储库文档。
crawlIssue 如果为 true,则爬取问题。
crawlIssueComment 如果为 true,则爬取问题评论。
crawlIssueCommentAttachment 如果为 true,则爬取问题评论附件。
crawlPullRequest 如果为 true,则爬取拉取请求。
crawlPullRequestComment 如果为 true,则爬取拉取请求评论。
crawlPullRequestCommentAttachment 如果为 true,则爬取拉取请求评论附件。
  • inclusionFolderNamePatterns

  • inclusionFileTypePatterns

  • inclusionFileNamePatterns

用于在 GitHub 数据来源中包含某些内容的正则表达式模式的列表。与模式匹配的内容将包含在索引中。与模式不匹配的内容将从索引中排除。如果任何内容同时匹配包含和排除模式,则排除模式优先,该内容不会包含在索引中。
  • exclusionFolderNamePatterns

  • exclusionFileTypePatterns

  • exclusionFileNamePatterns

用于在 GitHub 数据来源中排除某些内容的正则表达式模式的列表。与模式匹配的内容将从索引中排除。与模式不匹配的内容将包含在索引中。如果任何内容同时匹配包含和排除模式,则排除模式优先,该内容不会包含在索引中。
type 数据来源的类型。指定 GITHUB 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn

AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 GitHub 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:

{ "personalToken": "token" }
version 当前支持的此模板的版本。

GitHub JSON 架构如下:

{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "type": { "type": "string" }, "hostUrl": { "type": "string", "pattern": "https://.*" }, "organizationName": { "type": "string" } }, "required": [ "type", "hostUrl", "organizationName" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "ghRepository": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "ghCommit": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "ghIssueDocument": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "ghIssueComment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "ghIssueAttachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "ghPRDocument": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "ghPRComment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "ghPRAttachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "isCrawlAcl": { "type": "boolean" }, "fieldForUserId": { "type": "string" }, "crawlRepository": { "type": "boolean" }, "crawlRepositoryDocuments": { "type": "boolean" }, "crawlIssue": { "type": "boolean" }, "crawlIssueComment": { "type": "boolean" }, "crawlIssueCommentAttachment": { "type": "boolean" }, "crawlPullRequest": { "type": "boolean" }, "crawlPullRequestComment": { "type": "boolean" }, "crawlPullRequestCommentAttachment": { "type": "boolean" }, "repositoryFilter": { "type": "array", "items": [ { "type": "object", "properties": { "repositoryName": { "type": "string" }, "branchNameList": { "type": "array", "items": { "type": "string" } } } } ] }, "inclusionFolderNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFolderNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } } }, "required": [] }, "type": { "type": "string", "pattern": "GITHUB" }, "syncMode": { "type": "string", "enum": [ "FULL_CRAWL", "FORCED_FULL_CRAWL", "CHANGE_LOG" ] }, "enableIdentityCrawler": { "type": "boolean" }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "enableIdentityCrawler" ] }

Gmail 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 GMAIL、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Gmail JSON 架构

下表描述 Gmail JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。此数据来源未在 repositoryEndpointMetadata 中指定端点。连接信息包含在您提供的 secretArn 的 AWS Secrets Manager 密钥中。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。
  • message

  • attachments

将 Gmail 邮件和附件的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。
  • inclusionLabelNamePatterns

  • exclusionLabelNamePatterns

  • inclusionAttachmentTypePatterns

  • exclusionAttachmentTypePatterns

  • inclusionAttachmentNamePatterns

  • exclusionAttachmentNamePatterns

  • inclusionSubjectFilter

  • exclusionSubjectFilter

  • isSubjectAnd

  • inclusionFromFilter

  • exclusionFromFilter

  • inclusionToFilter

  • exclusionToFilter

  • inclusionCcFilter

  • exclusionCcFilter

  • inclusionBccFilter

  • exclusionBccFilter

用于在 Gmail 数据来源中包含或排除特定主题名称的正则表达式模式的列表。与模式匹配的文件将包含在索引中。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
beforeDateFilter 指定包含特定日期之前的邮件和附件。
afterDateFilter 指定包含特定日期之后的邮件和附件。
isCrawlAttachment 一个布尔值,用于选择是否要爬取附件。自动爬取邮件。
type 数据来源的类型。指定 GMAIL 作为数据来源类型。
shouldCrawlDraftMessages 一个布尔值,用于选择是否要爬取邮件草稿。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

重要

由于没有 API 可以更新永久删除的 Gmail 邮件,所以任何新增、修改或删除的内容同步:

  • 不会从您的 Amazon Kendra 索引中移除从 Gmail 中永久删除的邮件

  • 无法同步 Gmail 电子邮件标签中的更改

要将您的 Gmail 数据来源标签更改和永久删除的电子邮件同步到您的 Amazon Kendra 索引,您必须定期进行全面爬取。

secretARN Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Gmail 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:
{ "adminAccountEmailId": "service account email", "clientEmailId": "user account email", "privateKey": "private key" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { } }, "repositoryConfigurations": { "type": "object", "properties": { "message": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "attachments": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING"] }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } } }, "required": [] }, "additionalProperties": { "type": "object", "properties": { "inclusionLabelNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionLabelNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionAttachmentTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionAttachmentTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionAttachmentNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionAttachmentNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionSubjectFilter": { "type": "array", "items": { "type": "string" } }, "exclusionSubjectFilter": { "type": "array", "items": { "type": "string" } }, "isSubjectAnd": { "type": "boolean" }, "inclusionFromFilter": { "type": "array", "items": { "type": "string" } }, "exclusionFromFilter": { "type": "array", "items": { "type": "string" } }, "inclusionToFilter": { "type": "array", "items": { "type": "string" } }, "exclusionToFilter": { "type": "array", "items": { "type": "string" } }, "inclusionCcFilter": { "type": "array", "items": { "type": "string" } }, "exclusionCcFilter": { "type": "array", "items": { "type": "string" } }, "inclusionBccFilter": { "type": "array", "items": { "type": "string" } }, "exclusionBccFilter": { "type": "array", "items": { "type": "string" } }, "beforeDateFilter": { "anyOf": [ { "type": "string", "pattern": "^[0-9]{4}-[0-9]{2}-[0-9]{2}T[0-9]{2}:[0-9]{2}:[0-9]{2}Z$" }, { "type": "string", "pattern": "" } ] }, "afterDateFilter": { "anyOf": [ { "type": "string", "pattern": "^[0-9]{4}-[0-9]{2}-[0-9]{2}T[0-9]{2}:[0-9]{2}:[0-9]{2}Z$" }, { "type": "string", "pattern": "" } ] }, "isCrawlAttachment": { "type": "boolean" }, "shouldCrawlDraftMessages": { "type": "boolean" } }, "required": [ "isCrawlAttachment", "shouldCrawlDraftMessages" ] }, "type" : { "type" : "string", "pattern": "GMAIL" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL" ] }, "secretArn": { "type": "string" }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] } }, "required": [ "connectionConfiguration", "repositoryConfigurations", "additionalProperties", "syncMode", "secretArn", "type" ] }

Google Drive 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 GOOGLEDRIVE2、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Google Drive JSON 架构

下表描述 Google Drive JSON 架构的参数。

配置 描述
connectionConfiguration 数据来源的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。此数据来源未指定端点。您可以选择身份验证类型:serviceAccountOAuth2。连接信息包含在您提供的 secretArn 的 AWS Secrets Manager 密钥中。
authType 根据您的使用案例,选择 serviceAccountOAuth2
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • 文件

  • comment

将 Google Drive 的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项
  • maxFileSizeInMegaBytes

指定 Amazon Kendra 应爬取的文件大小限制(以 MB 为单位)。
  • iscrawlComment

如果为 true,则爬取您的 Google Drive 数据来源中的评论。
  • isCrawlMyDriveAndSharedWithMe

如果为 true,则爬取您的 Google Drive 数据来源中的“我的云端硬盘”和“与我共享硬盘”。
  • isCrawlSharedDrives

如果为 true,则爬取您的 Google Drive 数据来源中的共享云端硬盘。
isCrawlAcl true,如果您有访问控制列表(ACL)并想将其用于访问控制,则爬取文档的 ACL 信息。ACL 指定了用户和组可以访问和搜索哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选
  • excludeUserAccounts

  • excludeSharedDrives

  • excludeMimeTypes

  • exclusionFileTypePatterns

  • exclusionFileNamePatterns

  • exclusionFilePathFilter

用于在 Google Drive 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
  • includeUserAccounts

  • includeSharedDrives

  • includeMimeTypes

  • inclusionFileTypePatterns

  • inclusionFileNamePatterns

  • inclusionFilePathFilter

用于在 Google Drive 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
type 数据来源的类型。指定 GOOOGLEDRIVEV2 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Google Drive 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:

,如果使用 Google 服务账户身份验证:

{ "clientEmail": "user account email", "adminAccountEmail": "service account email", "privateKey": "private key" }

如果使用 OAuth 2.0 身份验证:

{ "clientID": "OAuth client ID", "clientSecret": "client secret", "refreshToken": "refresh token" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "authType": { "type": "string", "enum": [ "serviceAccount", "OAuth2" ] } }, "required": [ "authType" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "file": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "STRING_LIST", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "comment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "STRING_LIST" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "maxFileSizeInMegaBytes": { "type": "string" }, "isCrawlComment": { "type": "boolean" }, "isCrawlMyDriveAndSharedWithMe": { "type": "boolean" }, "isCrawlSharedDrives": { "type": "boolean" }, "isCrawlAcl": { "type": "boolean" }, "excludeUserAccounts": { "type": "array", "items": { "type": "string" } }, "excludeSharedDrives": { "type": "array", "items": { "type": "string" } }, "excludeMimeTypes": { "type": "array", "items": { "type": "string" } }, "includeUserAccounts": { "type": "array", "items": { "type": "string" } }, "includeSharedDrives": { "type": "array", "items": { "type": "string" } }, "includeMimeTypes": { "type": "array", "items": { "type": "string" } }, "includeTargetAudienceGroup": { "type": "array", "items": { "type": "string" } }, "inclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFilePathFilter": { "type": "array", "items": { "type": "string" } }, "exclusionFilePathFilter": { "type": "array", "items": { "type": "string" } } } }, "type": { "type": "string", "pattern": "GOOGLEDRIVEV2" }, "enableIdentityCrawler": { "type": "boolean" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

IBM DB2 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCdb2 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅IBM DB2 JSON 架构

下表描述 IBM DB2 JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Microsoft Exchange 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以将租户 ID 作为连接配置或存储库端点详细信息的一部分提供。还要将数据来源的类型指定为 MSEXCHANGE、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Microsoft Exchange JSON 架构

下表描述 Microsoft Exchange JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
tenantId Microsoft 365 租户 ID。您可以在 Azure Active Directory 门户的“属性”或 OAuth 应用程序中找到您的租户 ID。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • 电子邮件

  • 连接

  • 日历

  • 联系人

  • notes

将您的 Microsoft Exchange 数据来源的属性或字段名称映射到 Amazon Kendra 索引字段的对象列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项
inclusionPatterns 用于在 Microsoft Exchange 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
exclusionPatterns 用于在 Microsoft Exchange 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
  • inclusionUsersList

  • inclusionUsersFileName

  • inclusionDomainUsers

用于在 Microsoft Exchange 数据来源中包含某些用户的正则表达式模式的列表。与模式匹配的用户将包含在索引中。与模式不匹配的用户将从索引中排除。如果用户同时匹配包含和排除模式,则以排除模式为优先,该用户不会包含在索引中。
  • exclusionUsersList

  • exclusionUsersFileName

  • exclusionDomainUsers

用于在 Microsoft Exchange 数据来源中排除某些用户和用户文件的正则表达式模式的列表。与模式匹配的用户将从索引中排除。与模式不匹配的用户将包含在索引中。如果用户同时匹配排除和包含模式,则以排除模式为优先,该用户不会包含在索引中。
s3bucketName S3 存储桶的名称(如果要使用)。
  • crawlCalendar

  • crawlNotes

  • crawlContacts

  • crawlFolderACL

如果为 true,则爬取您的 Microsoft Exchange 数据来源的这些类型的内容和访问控制信息。
startCalendarDateTime 您可以为日历内容配置特定的开始日期时间。
endCalendarDateTime 您可以为日历内容配置特定的结束日期时间。
subject 您可以为邮件内容配置特定的主题行。
emailFrom 您可以为“发件人”或发件人邮件内容配置特定的电子邮件。
emailTo 您可以为“收件人”或收件人邮件内容配置特定的电子邮件。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

type 数据来源的类型。指定 MSEXCHANGE 作为数据来源类型。
secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Microsoft Exchange 所需的键-值对。这包括您的客户端 ID 和在 Azure 门户中创建 OAuth 应用程序时生成的客户端密钥。
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "tenantId": { "type": "string", "pattern": "^[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}$", "minLength": 36, "maxLength": 36 } }, "required": ["tenantId"] } } }, "repositoryConfigurations": { "type": "object", "properties": { "email": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "attachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "DATE","LONG"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "calendar": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "contacts": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "notes": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": ["email" ] }, "additionalProperties": { "type": "object", "properties": { "inclusionPatterns": { "type": "array", "items": { "type": "string" } }, "exclusionPatterns": { "type": "array", "items": { "type": "string" } }, "inclusionUsersList": { "type": "array", "items": { "type": "string", "format": "email" } }, "exclusionUsersList": { "type": "array", "items": { "type": "string", "format": "email" } }, "s3bucketName": { "type": "string" }, "inclusionUsersFileName": { "type": "string" }, "exclusionUsersFileName": { "type": "string" }, "inclusionDomainUsers": { "type": "array", "items": { "type": "string" } }, "exclusionDomainUsers": { "type": "array", "items": { "type": "string" } }, "crawlCalendar": { "type": "boolean" }, "crawlNotes": { "type": "boolean" }, "crawlContacts": { "type": "boolean" }, "crawlFolderAcl": { "type": "boolean" }, "startCalendarDateTime": { "anyOf": [ { "type": "string", "pattern": "^[0-9]{4}-[0-9]{2}-[0-9]{2}T[0-9]{2}:[0-9]{2}:[0-9]{2}Z$" }, { "type": "string", "pattern": "" } ] }, "endCalendarDateTime": { "anyOf": [ { "type": "string", "pattern": "^[0-9]{4}-[0-9]{2}-[0-9]{2}T[0-9]{2}:[0-9]{2}:[0-9]{2}Z$" }, { "type": "string", "pattern": "" } ] }, "subject": { "type": "array", "items": { "type": "string" } }, "emailFrom": { "type": "array", "items": { "type": "string", "format": "email" } }, "emailTo": { "type": "array", "items": { "type": "string", "format": "email" } } }, "required": [ ] }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "type" : { "type" : "string", "pattern": "MSEXCHANGE" }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Microsoft OneDrive 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以将 租户 ID 作为连接配置或存储库端点详细信息的一部分提供。还要将数据来源的类型指定为 ONEDRIVEV2、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Microsoft OneDrive JSON 架构

下表描述 Microsoft OneDrive JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
tenantId Microsoft 365 租户 ID。您可以在 Azure Active Directory 门户的“属性”或 OAuth 应用程序中找到您的租户 ID。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
文件 将 Microsoft OneDrive 文件的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项
  • userNameFilter

  • userFilterPath

  • inclusionFileTypePatterns

  • exclusionFileTypePatterns

  • inclusionFileNamePatterns

  • exclusionFileNamePatterns

  • inclusionFilePathPatterns

  • exclusionFilePathPatterns

  • inclusionOneNoteSectionNamePatterns

  • exclusionOneNoteSectionNamePatterns

  • inclusionOneNotePageNamePatterns

  • exclusionOneNotepageNamePatterns

您可以选择为特定文件、OneNote 分区、OneNote 页面编制索引,并按用户名进行筛选。
isUserNameOnS3 true 提供存储在 Amazon S3 的文件中的用户名列表。
type 数据来源的类型。指定 ONEDRIVEV2 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
type 数据来源的类型。指定 ONEDRIVEV2 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Microsoft OneDrive 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:
{ "clientId": "client ID", "clientSecret": "client secret" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "tenantId": { "type": "string", "pattern": "^[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}$", "minLength": 36, "maxLength": 36 } }, "required": [ "tenantId" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "file": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "userNameFilter": { "type": "array", "items": { "type": "string" } }, "userFilterPath": { "type": "string" }, "isUserNameOnS3": { "type": "boolean" }, "inclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFilePathPatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFilePathPatterns": { "type": "array", "items": { "type": "string" } }, "inclusionOneNoteSectionNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionOneNoteSectionNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionOneNotePageNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionOneNotePageNamePatterns": { "type": "array", "items": { "type": "string" } } }, "required": [] }, "enableIdentityCrawler": { "type": "boolean" }, "type": { "type": "string", "pattern": "ONEDRIVEV2" }, "syncMode": { "type": "string", "enum": [ "FULL_CRAWL", "FORCED_FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Microsoft SharePoint 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以在连接配置或存储库端点详细信息中提供一个或多个 SharePoint 主机 URL、域以及租户 ID(如果需要)。还要将数据来源的类型指定为 SHAREPOINTV2、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为类型

您可以使用本开发者指南中提供的模板。请参阅SharePoint JSON 架构

下表描述 Microsoft SharePoint JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息
repositoryEndpointMetadata 数据来源的端点信息
tenantId 您的 SharePoint 账户的租户 ID。
您的 SharePoint 账户的域名。
siteUrls 您的 SharePoint 账户的主机 URL。
repositoryAdditionalProperties 用于连接存储库/数据来源端点的其他属性。
s3bucketName 存储 Azure AD 自签名 X.509 证书的 Amazon S3 存储桶的名称。
s3certificateName 存储在 Amazon S3 存储桶中的 Azure AD 自签名 X.509 证书的名称。
authType 您使用的身份验证类型,可以是 OAuth2OAuth2CertificateOAuth2AppBasicOAuth2_RefreshTokenNTLMKerberos
version 您使用的 SharePoint 版本,可以是 ServerOnline
onPremVersion 您使用的 SharePoint Server 版本,可以是 201320162019SubscriptionEdition
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • 事件

  • 文件

  • link

  • 连接

  • comment

将 SharePoint 内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。
  • eventTitleFilterRegEx

  • pageTitleFilterRegEx

  • linkTitleFilterRegEx

  • inclusionFilePath

  • exclusionFilePath

  • inclusionFileTypePatterns

  • exclusionFileTypePatterns

  • inclusionFileNamePatterns

  • exclusionFileNamePatterns

  • inclusionOneNoteSectionNamePatterns

  • exclusionOneNoteSectionNamePatterns

  • inclusionOneNotePageNamePatterns

  • exclusionOneNotePageNamePatterns

用于在 SharePoint 数据来源中包含/排除某些文件的正则表达式模式的列表。与包含模式匹配的内容项将包含在索引中。与包含模式不匹配的内容项将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
  • crawlFile

  • crawlPages

  • crawlEvents

  • crawlComments

  • crawlLinks

  • crawlAttachments

如果为 true,则爬取这些类型的内容。
crawlAcl true,如果您有访问控制列表(ACL)并想将其用于访问控制,则爬取文档的 ACL 信息。ACL 指定了用户和组可以访问和搜索哪些文档。ACL 信息用于根据用户或其所在组对文档的访问权限来筛选搜索结果。有关更多信息,请参阅用户上下文筛选
fieldForUserId 如果要使用用户电子邮件作为用户 ID,则指定 email;如果要使用用户名作为用户 ID,则指定 userPrincipalName。如果您不指定选项,则默认使用 email
aclConfiguration 指定 ACLWithLDAPEmailFmtACLWithManualEmailFmtACLWithUsernameFmtM
emailDomain 电子邮件的域名。例如,“amazon.com”。
  • isCrawlLocalGroupMapping

  • isCrawlAdGroupMapping

如果为 true,则爬取群组映射信息。
proxyHost 您使用的 Web 代理的主机名,其中不包含 http:// 或 https:// 协议。
proxyPort 主机 URL 传输协议使用的端口号。必须是介于 0 和 65535 之间的数值。
type 指定 SHAREPOINTV2 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 SharePoint 所需的键-值对。有关这些键值对的信息,请参阅 SharePoint Online 和 SharePoint Server 的连接信息
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "tenantId": { "type": "string", "pattern": "^[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}$", "minLength": 36, "maxLength": 36 }, "domain": { "type": "string" }, "siteUrls": { "type": "array", "items": { "type": "string", "pattern": "https://.*" } }, "repositoryAdditionalProperties": { "type": "object", "properties": { "s3bucketName": { "type": "string" }, "s3certificateName": { "type": "string" }, "authType": { "type": "string", "enum": [ "OAuth2", "OAuth2Certificate", "OAuth2App", "Basic", "OAuth2_RefreshToken", "NTLM", "Kerberos" ] }, "version": { "type": "string", "enum": [ "Server", "Online" ] }, "onPremVersion": { "type": "string", "enum": [ "", "2013", "2016", "2019", "SubscriptionEdition" ] } }, "required": [ "authType", "version" ] } }, "required": [ "siteUrls", "domain", "repositoryAdditionalProperties" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "event": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "page": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "file": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "link": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "attachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "comment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "eventTitleFilterRegEx": { "type": "array", "items": { "type": "string" } }, "pageTitleFilterRegEx": { "type": "array", "items": { "type": "string" } }, "linkTitleFilterRegEx": { "type": "array", "items": { "type": "string" } }, "inclusionFilePath": { "type": "array", "items": { "type": "string" } }, "exclusionFilePath": { "type": "array", "items": { "type": "string" } }, "inclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionOneNoteSectionNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionOneNoteSectionNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionOneNotePageNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionOneNotePageNamePatterns": { "type": "array", "items": { "type": "string" } }, "crawlFiles": { "type": "boolean" }, "crawlPages": { "type": "boolean" }, "crawlEvents": { "type": "boolean" }, "crawlComments": { "type": "boolean" }, "crawlLinks": { "type": "boolean" }, "crawlAttachments": { "type": "boolean" }, "crawlListData": { "type": "boolean" }, "crawlAcl": { "type": "boolean" }, "fieldForUserId": { "type": "string" }, "aclConfiguration": { "type": "string", "enum": [ "ACLWithLDAPEmailFmt", "ACLWithManualEmailFmt", "ACLWithUsernameFmt" ] }, "emailDomain": { "type": "string" }, "isCrawlLocalGroupMapping": { "type": "boolean" }, "isCrawlAdGroupMapping": { "type": "boolean" }, "proxyHost": { "type": "string" }, "proxyPort": { "type": "string" } }, "required": [ ] }, "type": { "type": "string", "pattern": "SHAREPOINTV2" }, "enableIdentityCrawler": { "type": "boolean" }, "syncMode": { "type": "string", "enum": [ "FULL_CRAWL", "FORCED_FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "enableIdentityCrawler", "syncMode", "additionalProperties", "secretArn", "type" ] }

Microsoft SQL Server 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCsqlserver 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Microsoft SQL Server JSON 架构

下表描述 Micorosft SQL Server JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Microsoft Teams 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以将租户 ID 作为连接配置或存储库端点详细信息的一部分提供。还要将数据来源的类型指定为 MSTEAMS、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Microsoft Teams JSON 架构

下表描述 Microsoft Teams JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
tenantId Microsoft 365 租户 ID。您可以在 Azure Active Directory 门户的“属性”或 OAuth 应用程序中找到您的租户 ID。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • chatMessage

  • chatAttachment

  • channelPost

  • channelWiki

  • channelAttachment

  • meetingChat

  • meetingFile

  • meetingNote

  • calendarMeeting

将 Microsoft Teams 内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。
paymentModel 指定用于您的 Microsoft Teams 数据来源的支付模式类型。A 型支付模式仅限于需要安全合规的许可和支付模式。B 型支付模式适用于不需要安全合规的许可和支付模式。
  • inclusionTeamNameFilter

  • inclusionChannelNameFilter

  • inclusionFileNamePatterns

  • inclusionFileTypePatterns

  • inclusionUserEmailFilter

  • inclusionOneNoteSectionNamePatterns

  • inclusionOneNotePageNamePatterns

用于在 Microsoft Teams 数据来源中包含某些内容的正则表达式模式的列表。与模式匹配的内容将包含在索引中。与模式不匹配的内容将从索引中排除。如果内容同时匹配包含和排除模式,则以排除模式为优先,该内容不会包含在索引中。
  • exclusionTeamNameFilter

  • exclusionChannelNameFilter

  • exclusionFileNamePatterns

  • exclusionFileTypePatterns

  • exclusionUserEmailFilter

  • exclusionOneNoteSectionNamePatterns

  • exclusionOneNotePageNamePatterns

用于在 Microsoft Teams 数据来源中排除某些内容的正则表达式模式的列表。与模式匹配的内容将从索引中排除。与模式不匹配的内容将包含在索引中。如果内容同时匹配包含和排除模式,则以排除模式为优先,该内容不会包含在索引中。
  • isCrawlChatMessage

  • isCrawlChatAttachment

  • isCrawlChannelPost

  • isCrawlChannelAttachment

  • isCrawlChannelWiki

  • isCrawlCalendarMeeting

  • isCrawlMeetingChat

  • isCrawlMeetingFile

  • isCrawlMeetingNote

如果为 true,则在您的 Microsoft Teams 数据来源中爬取这些类型的内容。
startCalendarDateTime 您可以为日历内容配置特定的开始日期时间。
endCalendarDateTime 您可以为日历内容配置特定的结束日期时间。
type 数据来源的类型。指定 MSTEAMS 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Microsoft Teams 所需的键-值对。这包括您的客户端 ID 和在 Azure 门户中创建 OAuth 应用程序时生成的客户端密钥。
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "tenantId": { "type": "string", "pattern": "^[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}$", "minLength": 36, "maxLength": 36 } }, "required": [ "tenantId" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "chatMessage": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "chatAttachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "channelPost": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "channelWiki": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "channelAttachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "meetingChat": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "meetingFile": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "meetingNote": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "calendarMeeting": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "paymentModel": { "type": "string", "enum": [ "A", "B", "Evaluation Mode" ] }, "inclusionTeamNameFilter": { "type": "array", "items": { "type": "string" } }, "exclusionTeamNameFilter": { "type": "array", "items": { "type": "string" } }, "inclusionChannelNameFilter": { "type": "array", "items": { "type": "string" } }, "exclusionChannelNameFilter": { "type": "array", "items": { "type": "string" } }, "inclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionUserEmailFilter": { "type": "array", "items": { "type": "string" } }, "inclusionOneNoteSectionNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionOneNoteSectionNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionOneNotePageNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionOneNotePageNamePatterns": { "type": "array", "items": { "type": "string" } }, "isCrawlChatMessage": { "type": "boolean" }, "isCrawlChatAttachment": { "type": "boolean" }, "isCrawlChannelPost": { "type": "boolean" }, "isCrawlChannelAttachment": { "type": "boolean" }, "isCrawlChannelWiki": { "type": "boolean" }, "isCrawlCalendarMeeting": { "type": "boolean" }, "isCrawlMeetingChat": { "type": "boolean" }, "isCrawlMeetingFile": { "type": "boolean" }, "isCrawlMeetingNote": { "type": "boolean" }, "startCalendarDateTime": { "anyOf": [ { "type": "string", "pattern": "^[0-9]{4}-[0-9]{2}-[0-9]{2}T[0-9]{2}:[0-9]{2}:[0-9]{2}Z$" }, { "type": "string", "pattern": "" } ] }, "endCalendarDateTime": { "anyOf": [ { "type": "string", "pattern": "^[0-9]{4}-[0-9]{2}-[0-9]{2}T[0-9]{2}:[0-9]{2}:[0-9]{2}Z$" }, { "type": "string", "pattern": "" } ] } }, "required": [] }, "type": { "type": "string", "pattern": "MSTEAMS" }, "enableIdentityCrawler": { "type": "boolean" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Microsoft Yammer 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 YAMMER、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为类型

您可以使用本开发者指南中提供的模板。

下表描述 Microsoft Yammer JSON 架构的参数。

配置 描述
connectionConfiguration 数据来源的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。此数据来源未在 repositoryEndpointMetadata 中指定端点。连接信息包含在您提供的 secretArn 的 AWS Secrets Manager 密钥中。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • community

  • 用户

  • message

  • 连接

将 Microsoft Yammer 内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项
inclusionPatterns 用于在 Microsoft Yammer 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
exclusionPatterns 用于在 Microsoft Yammer 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
sinceDate 您可以选择配置一个 sinceDate 参数,以便 Microsoft Yammer 连接器根据特定的 sinceDate 爬取内容。
communityNameFilter 您可以选择将特定的社区内容编入索引。
  • isCrawlMessage

  • isCrawlAttachment

  • isCrawlPrivateMessage

如果为 true,则爬取消息、邮件附件和私人消息。
type 指定 YAMMER 作为数据来源类型。
secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Microsoft Yammer 所需的键-值对。这包括您的客户端 ID 和在 Azure 门户中创建 OAuth 应用程序时生成的 Microsoft Yammer 用户名和密码、客户端 ID、客户端密钥。
useChangeLog 如果为 true,则使用 Microsoft Yammer 更改日志来确定需要在索引中更新哪些文档。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { } } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "community": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "user": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "message": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "attachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "inclusionPatterns": { "type": "array" }, "exclusionPatterns": { "type": "array" }, "sinceDate": { "type": "string", "pattern": "^(19|2[0-9])[0-9]{2}-(0[1-9]|1[012])-(0[1-9]|[12][0-9]|3[01])T(0[0-9]|1[0-9]|2[0-3]):([0-5][0-9]):([0-5][0-9])((\\+|-)(0[0-9]|1[0-9]|2[0-3]):([0-5][0-9]))?$" }, "communityNameFilter": { "type": "array", "items": { "type": "string" } }, "isCrawlMessage": { "type": "boolean" }, "isCrawlAttachment": { "type": "boolean" }, "isCrawlPrivateMessage": { "type": "boolean" } }, "required": [ "sinceDate" ] }, "type": { "type": "string", "pattern": "YAMMER" }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 }, "useChangeLog": { "type": "string", "enum": [ "true", "false" ] }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "enableIdentityCrawler": { "type": "boolean" }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] } }, "required": [ "connectionConfiguration", "repositoryConfigurations", "additionalProperties", "type", "secretArn", "syncMode" ] }

MySQL 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCmysql 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅MySQL JSON 架构

下表描述 MySQL JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Oracle Database 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCoracle 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Oracle Database JSON 架构

下表描述 Oracle Database JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

PostgreSQL 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。将数据来源的类型指定为 JDBCpostgresql 的数据库类型、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅PostgreSQL JSON 架构

下表描述 PostgreSQL JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 连接数据来源所需的配置信息。
  • dbType - 您使用的 Java 数据库的类型,可以是 mysqldb2postgresqloraclesqlserver

  • dbHost - 数据库主机名。

  • dbPort - 数据库端口。

  • dbInstance - 数据库实例。

repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。指定数据来源的类型和密钥 ARN。

文档

将数据库内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
additionalProperties 数据来源中内容的其他配置选项。用于在数据库数据来源中包含或排除特定内容。
primaryKey 提供数据库表的主键。这将标识数据库中的表。
titleColumn 提供数据库表中文档标题列的名称。
bodyColumn 提供数据库表中文档标题列的名称。
sqlQuery 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
timestampColumn 输入包含时间戳的列的名称。Amazon Kendra 使用时间戳信息来检测内容的变化并仅同步已更改的内容。
timestampFormat 输入列的名称,该列包含用于检测内容更改和重新同步内容的时间戳格式。
timezone 输入列的名称,该列包含要搜索的内容的时区。
changeDetectingColumns 输入 Amazon Kendra 将用于检测内容变化的列的名称。当其中任何一列发生变化时,Amazon Kendra 将重新为内容编制索引。
allowedUsersColumns 输入包含允许访问内容的用户 ID 的列的名称。
allowedGroupsColumn 输入包含允许访问内容的用户 ID 的列的名称。
sourceURIColumn 输入包含要编制索引的源 URL 的列的名称。
isSslEnabled 输入 SQL 查询语句,例如 SELECT 和 JOIN 操作。SQL 查询必须小于 32KB。Amazon Kendra 将爬取与您的查询相匹配的所有数据库内容。
type 数据来源的类型。指定 JDBC 作为数据来源类型。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretArn Secrets Manager 密钥的 Amazon 资源名称(ARN),其中包含连接到数据库时需要的用户名和密码。密钥必须包含具有以下键的 JSON 结构:
{ "user name": "database user name", "password": "password" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "dbType": { "type": "string", "enum": [ "mysql", "db2", "postgresql", "oracle", "sqlserver" ] }, "dbHost": { "type": "string" }, "dbPort": { "type": "string" }, "dbInstance": { "type": "string" } }, "required": [ "dbType", "dbHost", "dbPort", "dbInstance" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string" }, "dataSourceFieldName": { "type": "string" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "primaryKey": { "type": "string" }, "titleColumn": { "type": "string" }, "bodyColumn": { "type": "string" }, "sqlQuery": { "type": "string", "not": { "pattern": ";+" } }, "timestampColumn": { "type": "string" }, "timestampFormat": { "type": "string" }, "timezone": { "type": "string" }, "changeDetectingColumns": { "type": "array", "items": { "type": "string" } }, "allowedUsersColumn": { "type": "string" }, "allowedGroupsColumn": { "type": "string" }, "sourceURIColumn": { "type": "string" }, "isSslEnabled": { "type": "boolean" } }, "required": ["primaryKey", "titleColumn", "bodyColumn", "sqlQuery"] }, "type" : { "type" : "string", "pattern": "JDBC" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Salesforce 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以将 Salesforc 主机 URL 作为连接配置或存储库端点详细信息的一部分提供。还要将数据来源的类型指定为 SALESFORCEV2、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Salesforce JSON 架构

下表描述 Salesforce JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
hostUrl 要编制索引的 Salesforce 实例的 URL。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • 账户

  • contact

  • 市场活动

  • 案例

  • product

  • lead

  • contract

  • partner

  • 配置文件

  • idea

  • pricebook

  • task

  • 解决方案

  • 连接

  • 用户

  • 文档

  • knowledgeArticles

  • opportunity

  • chatter

  • customEntity

将 Salesforce 实体的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Salesforce 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:
{ "authenticationUrl": "OAUTH endpoint that Amazon Kendra connects to get an OAUTH token", "consumerKey": "Application public key generated when you created your Salesforce application", "consumerSecret": "Application private key generated when you created your Salesforce application", "password": "Password associated with the user logging in to the Salesforce instance", "securityToken": "Token associated with the user account logging in to the Salesforce instance", "username": "User name of the user logging in to the Salesforce instance" }
additionalProperties 数据来源中内容的其他配置选项
  • accountFilter

  • contactFilter

  • caseFilter

  • campaignFilter

  • contractFilter

  • groupFilter

  • leadFilter

  • productFilter

  • opportunityFilter

  • partnerFilter

  • pricebookFilter

  • ideaFilter

  • profileFilter

  • taskFilter

  • solutionFilter

  • userFilter

  • chatterFilter

  • documentFilter

  • knowledgeArticleFilter

  • customEntities

一组字符串,用于指定要筛选的实体。

inclusionPatterns

  • inclusionDocumentFileTypePatterns

  • inclusionDocumentFileNamePatterns

  • inclusionAccountFileTypePatterns

  • inclusionCampaignFileTypePatterns

  • inclusionDocumentFileNamePatterns

  • inclusionCampaignFileNamePatterns

  • inclusionCaseFileTypePatterns

  • inclusionCaseFileNamePatterns

  • inclusionContactFileTypePatterns

  • inclusionContractFileNamePatterns

  • inclusionLeadFileTypePatterns

  • inclusionLeadFileNamePatterns

  • inclusionOpportunityFileTypePatterns

  • inclusionOpportunityFileNamePatterns

  • inclusionSolutionFileTypePatterns

  • inclusionSolutionFileNamePatterns

  • inclusionTaskFileTypePatterns

  • inclusionTaskFileNamePatterns

  • inclusionGroupFileTypePatterns

  • inclusionGroupFileNamePatterns

  • inclusionChatterFileTypePatterns

  • inclusionChatterFileNamePatterns

  • inclusionCustomEntityFileTypePatterns

  • inclusionCustomEntityFileNamePatterns

用于在 Salesforce 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。

exclusionPatterns

  • exclusionDocumentFileTypePatterns

  • exclusionDocumentFileNamePatterns

  • exclusionAccountFileTypePatterns

  • exclusionCampaignFileTypePatterns

  • exclusionCampaignFileNamePatterns

  • exclusionCaseFileTypePatterns

  • exclusionCaseFileNamePatterns

  • exclusionContactFileTypePatterns

  • exclusionContractFileNamePatterns

  • exclusionLeadFileTypePatterns

  • exclusionLeadFileNamePatterns

  • exclusionOpportunityFileTypePatterns

  • exclusionOpportunityFileNamePatterns

  • exclusionSolutionFileTypePatterns

  • exclusionSolutionFileNamePatterns

  • exclusionTaskFileTypePatterns

  • exclusionTaskFileNamePatterns

  • exclusionGroupFileTypePatterns

  • exclusionGroupFileNamePatterns

  • exclusionChatterFileTypePatterns

  • exclusionChatterFileNamePatterns

  • exclusionCustomEntityFileTypePatterns

  • exclusionCustomEntityFileNamePatterns

用于在 Salesforce 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
  • isCrawlAccount

  • isCrawlContac

  • isCrawlCase

  • isCrawlCampaign

  • isCrawlProduct

  • isCrawlLead

  • isCrawlContract

  • isCrawlPartner

  • isCrawlProfile

  • isCrawlIdea

  • isCrawlPricebook

  • isCrawlDocument

  • crawlSharedDocument

  • isCrawlGroup

  • isCrawlOpportunity

  • isCrawlChatter

  • isCrawlUser

  • isCrawlSolution

  • isCrawlTask

  • isCrawlAccountAttachments

  • isCrawlContactAttachments

  • isCrawlCaseAttachments

  • isCrawlCampaignAttachments

  • isCrawlLeadAttachments

  • isCrawlContractAttachments

  • isCrawlGroupAttachments

  • isCrawlOpportunityAttachments

  • isCrawlChatterAttachments

  • isCrawlSolutionAttachments

  • isCrawlTaskAttachments

  • isCrawlCustomEntityAttachments

  • isCrawlKnowledgeArticles

    • isCrawlDraft

    • isCrawlPublish

    • isCrawlArchived

如果为 true,则在您的 Salesforce 账户中爬取这些类型的文件。
type 数据来源的类型。指定 SALESFORCEV2 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "hostUrl": { "type": "string", "pattern": "https:.*" } }, "required": [ "hostUrl" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "account": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "contact": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "campaign": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "case": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "product": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "lead": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "contract": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "partner": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "profile": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "idea": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "pricebook": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "task": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "solution": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "attachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "user": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "document": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "knowledgeArticles": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "group": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "opportunity": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE", "LONG" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "chatter": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "customEntity": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "STRING_LIST", "DATE" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "accountFilter":{ "type": "array", "items": { "type": "string" } }, "contactFilter":{ "type": "array", "items": { "type": "string" } }, "caseFilter":{ "type": "array", "items": { "type": "string" } }, "campaignFilter":{ "type": "array", "items": { "type": "string" } }, "contractFilter":{ "type": "array", "items": { "type": "string" } }, "groupFilter":{ "type": "array", "items": { "type": "string" } }, "leadFilter":{ "type": "array", "items": { "type": "string" } }, "productFilter":{ "type": "array", "items": { "type": "string" } }, "opportunityFilter":{ "type": "array", "items": { "type": "string" } }, "partnerFilter":{ "type": "array", "items": { "type": "string" } }, "pricebookFilter":{ "type": "array", "items": { "type": "string" } }, "ideaFilter":{ "type": "array", "items": { "type": "string" } }, "profileFilter":{ "type": "array", "items": { "type": "string" } }, "taskFilter":{ "type": "array", "items": { "type": "string" } }, "solutionFilter":{ "type": "array", "items": { "type": "string" } }, "userFilter":{ "type": "array", "items": { "type": "string" } }, "chatterFilter":{ "type": "array", "items": { "type": "string" } }, "documentFilter":{ "type": "array", "items": { "type": "string" } }, "knowledgeArticleFilter":{ "type": "array", "items": { "type": "string" } }, "customEntities":{ "type": "array", "items": { "type": "string" } }, "isCrawlAccount": { "type": "boolean" }, "isCrawlContact": { "type": "boolean" }, "isCrawlCase": { "type": "boolean" }, "isCrawlCampaign": { "type": "boolean" }, "isCrawlProduct": { "type": "boolean" }, "isCrawlLead": { "type": "boolean" }, "isCrawlContract": { "type": "boolean" }, "isCrawlPartner": { "type": "boolean" }, "isCrawlProfile": { "type": "boolean" }, "isCrawlIdea": { "type": "boolean" }, "isCrawlPricebook": { "type": "boolean" }, "isCrawlDocument": { "type": "boolean" }, "crawlSharedDocument": { "type": "boolean" }, "isCrawlGroup": { "type": "boolean" }, "isCrawlOpportunity": { "type": "boolean" }, "isCrawlChatter": { "type": "boolean" }, "isCrawlUser": { "type": "boolean" }, "isCrawlSolution":{ "type": "boolean" }, "isCrawlTask":{ "type": "boolean" }, "isCrawlAccountAttachments": { "type": "boolean" }, "isCrawlContactAttachments": { "type": "boolean" }, "isCrawlCaseAttachments": { "type": "boolean" }, "isCrawlCampaignAttachments": { "type": "boolean" }, "isCrawlLeadAttachments": { "type": "boolean" }, "isCrawlContractAttachments": { "type": "boolean" }, "isCrawlGroupAttachments": { "type": "boolean" }, "isCrawlOpportunityAttachments": { "type": "boolean" }, "isCrawlChatterAttachments": { "type": "boolean" }, "isCrawlSolutionAttachments":{ "type": "boolean" }, "isCrawlTaskAttachments":{ "type": "boolean" }, "isCrawlCustomEntityAttachments":{ "type": "boolean" }, "isCrawlKnowledgeArticles": { "type": "object", "properties": { "isCrawlDraft": { "type": "boolean" }, "isCrawlPublish": { "type": "boolean" }, "isCrawlArchived": { "type": "boolean" } } }, "inclusionDocumentFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionDocumentFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionDocumentFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionDocumentFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionAccountFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionAccountFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionAccountFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionAccountFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionCampaignFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionCampaignFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionCampaignFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionCampaignFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionCaseFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionCaseFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionCaseFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionCaseFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionContactFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionContactFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionContactFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionContactFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionContractFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionContractFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionContractFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionContractFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionLeadFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionLeadFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionLeadFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionLeadFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionOpportunityFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionOpportunityFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionOpportunityFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionOpportunityFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionSolutionFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionSolutionFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionSolutionFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionSolutionFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionTaskFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionTaskFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionTaskFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionTaskFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionGroupFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionGroupFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionGroupFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionGroupFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionChatterFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionChatterFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionChatterFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionChatterFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionCustomEntityFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionCustomEntityFileTypePatterns":{ "type": "array", "items": { "type": "string" } }, "inclusionCustomEntityFileNamePatterns":{ "type": "array", "items": { "type": "string" } }, "exclusionCustomEntityFileNamePatterns":{ "type": "array", "items": { "type": "string" } } }, "required": [] }, "enableIdentityCrawler": { "type": "boolean" }, "type": { "type": "string", "pattern": "SALESFORCEV2" }, "syncMode": { "type": "string", "enum": [ "FULL_CRAWL", "FORCED_FULL_CRAWL", "CHANGE_LOG" ] }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

ServiceNow 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以在连接配置或存储库端点详细信息中提供 ServiceNow 主机 URL、身份验证类型和实例版本。还要将数据来源的类型指定为 SERVICENOWV2、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅ServiceNow JSON 架构

下表描述 ServiceNow JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
hostUrl ServiceNow 主机 URL。例如,your-domain.service-now.com
authType 您使用的身份验证类型,可以是 basicAuthOAuth2
servicenowInstanceVersion 您使用的 ServiceNow 版本。您可在 TokyoSandiegoRomeOthers 之间选择。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • knowledgeArticle

  • 连接

  • serviceCatalog

  • incident

将您的 ServiceNow 知识文章、附件、服务目录和事件的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象列表。有关更多信息,请参阅映射数据来源字段。您的 ServiceNow 自定义元数据中必须有 ServiceNow 数据来源字段名称。
其他属性 数据来源中内容的其他配置选项。
maxFileSizeInMegaBytes 指定 Amazon Kendra 将爬取的文件大小限制(以 MB 为单位)。Amazon Kendra 将仅爬取您定义的大小限制范围内的文件。默认文件大小为 50 MB。最大文件大小应大于 0 MB 且小于或等于 50 MB。
  • knowledgeArticleFilter

  • incidentQueryFilter

  • serviceCatalogQueryFilter

  • knowledgeArticleTitleRegExp

  • serviceCatalogTitleRegExp

  • incidentTitleRegExp

  • inclusionFileTypePatterns

  • exclusionFileTypePatterns

  • inclusionFileNamePatterns

  • exclusionFileNamePatterns

  • incidentStateType

用于在 ServiceNow 数据来源中包含和/或排除某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
  • isCrawlKnowledgeArticle

  • isCrawlKnowledgeArticleAttachment

  • includePublicArticlesOnly

  • isCrawlServiceCatalog

  • isCrawlServiceCatalogAttachment

  • isCrawlActiveServiceCatalog

  • isCrawlInactiveServiceCatalog

  • isCrawlIncident

  • isCrawlIncidentAttachment

  • isCrawlActiveIncident

  • isCrawlInactiveIncident

  • applyACLForKnowledgeArticle

  • applyACLForServiceCatalog

  • applyACLForIncident

如果为 true,则爬取 ServiceNow 知识文章、服务目录、事件及其附件。
type 数据来源的类型。指定 SERVICENOWV2 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 ServiceNow 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:
{ "username": "user name", "password": "password" }
如果您使用 OAuth 2 身份验证,则密钥必须包含具有以下键的 JSON 结构:
{ "username": "user name", "password": "password", "clientId": "client id", "clientSecret": "client secret" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "hostUrl": { "type": "string", "pattern": "^(?!(^(https?|ftp|file):\/\/))[a-z0-9-]+(.service-now.com|.servicenowservices.com)$", "minLength": 1, "maxLength": 2048 }, "authType": { "type": "string", "enum": [ "basicAuth", "OAuth2" ] }, "servicenowInstanceVersion": { "type": "string", "enum": [ "Tokyo", "Sandiego", "Rome", "Others" ] } }, "required": [ "hostUrl", "authType", "servicenowInstanceVersion" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "knowledgeArticle": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "STRING_LIST" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "attachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "LONG", "DATE", "STRING_LIST" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "serviceCatalog": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "STRING_LIST" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] }, "incident": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": [ "STRING", "DATE", "STRING_LIST" ] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } } }, "additionalProperties": { "type": "object", "properties": { "maxFileSizeInMegaBytes": { "type": "string" }, "isCrawlKnowledgeArticle": { "type": "boolean" }, "isCrawlKnowledgeArticleAttachment": { "type": "boolean" }, "includePublicArticlesOnly": { "type": "boolean" }, "knowledgeArticleFilter": { "type": "string" }, "incidentQueryFilter": { "type": "string" }, "serviceCatalogQueryFilter": { "type": "string" }, "isCrawlServiceCatalog": { "type": "boolean" }, "isCrawlServiceCatalogAttachment": { "type": "boolean" }, "isCrawlActiveServiceCatalog": { "type": "boolean" }, "isCrawlInactiveServiceCatalog": { "type": "boolean" }, "isCrawlIncident": { "type": "boolean" }, "isCrawlIncidentAttachment": { "type": "boolean" }, "isCrawlActiveIncident": { "type": "boolean" }, "isCrawlInactiveIncident": { "type": "boolean" }, "applyACLForKnowledgeArticle": { "type": "boolean" }, "applyACLForServiceCatalog": { "type": "boolean" }, "applyACLForIncident": { "type": "boolean" }, "incidentStateType": { "type": "array", "items": { "type": "string", "enum": [ "Open", "Open - Unassigned", "Resolved", "All" ] } }, "knowledgeArticleTitleRegExp": { "type": "string" }, "serviceCatalogTitleRegExp": { "type": "string" }, "incidentTitleRegExp": { "type": "string" }, "inclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileTypePatterns": { "type": "array", "items": { "type": "string" } }, "inclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } }, "exclusionFileNamePatterns": { "type": "array", "items": { "type": "string" } } }, "required": [] }, "type": { "type": "string", "pattern": "SERVICENOWV2" }, "enableIdentityCrawler": { "type": "boolean" }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL" ] }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type" ] }

Slack 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以将主机 URL 作为连接配置或存储库端点详细信息的一部分提供。还要将数据来源的类型指定为 SLACK、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Slack JSON 架构

下表描述 Slack JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
teamId 您从 Slack 主页 URL 中复制的 Slack 团队 ID。
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
全部 将 Slack 内容的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。
additionalProperties 数据来源中内容的其他配置选项。
inclusionPatterns 用于包含 Slack 数据来源中特定内容的正则表达式模式的列表。与模式匹配的内容将包含在索引中。与模式不匹配的内容将从索引中排除。如果任何内容同时匹配包含和排除模式,则排除模式优先,该内容不会包含在索引中。
exclusionPatterns 用于排除 Slack 数据来源中特定内容的正则表达式模式的列表。与模式匹配的内容将从索引中排除。与模式不匹配的内容将包含在索引中。如果任何内容同时匹配包含和排除模式,则排除模式优先,该内容不会包含在索引中。
crawlBotMessages true 表示爬取 机器人消息。
excludeArchived 如果为 true,则在爬取时排除已存档的邮件。
conversationType 要编制索引的对话的类型,可以是 PUBLIC_CHANNELPRIVATE_CHANNELGROUP_MESSAGEDIRECT_MESSAGE
channelFilter 您要编制索引的通道的类型,可以为 private_channelpublic_channel
sinceDate 您可以选择配置 sinceDate 参数,以便 Slack 连接器根据特定的 sinceDate 爬取内容。
lookBack 您可以选择配置 lookBack 参数,以便 Slack 连接器能够爬取在上次连接器同步前指定小时数内被更新或删除的内容。
syncMode

指定当数据来源内容发生变化时 Amazon Kendra 更新索引的方式。您可以选择:

  • FORCED_FULL_CRAWL,每次数据来源与索引同步时,重新为所有内容编制索引,并替换已有内容。

  • FULL_CRAWL,每次数据来源与索引同步时,仅为新增、修改和删除的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

  • CHANGE_LOG,每次数据来源与索引同步时,仅为新增和修改的内容编制索引。Amazon Kendra 可以利用数据来源自身的内容变更跟踪机制,仅为自上次同步以来发生变化的内容编制索引。

type 数据来源的类型。指定 SLACK 作为数据来源类型。
enableIdentityCrawler 如果为 true,则使用 Amazon Kendra 身份爬网程序同步有权访问某些文档的用户和组的身份/主体信息。如果关闭身份爬网程序,则可以公开搜索所有文档。如果您想对文档使用访问控制,但身份爬网程序已关闭,则可以选择使用 PutPrincipalMapping API 上传用户和组访问信息。
secretArn

AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Slack 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:

{ "slackToken": "token" }
version 当前支持的此模板的版本。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "teamId": { "type": "string" } }, "required": ["teamId"] } } }, "repositoryConfigurations": { "type": "object", "properties": { "All": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "DATE","LONG"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "yyyy-MM-dd'T'HH:mm:ss'Z'" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } }, "required": [ "fieldMappings" ] } }, "required": [ ] }, "additionalProperties": { "type": "object", "properties": { "exclusionPatterns": { "type": "array", "items": { "type": "string" } }, "inclusionPatterns": { "type": "array", "items": { "type": "string" } }, "crawlBotMessages": { "type": "boolean" }, "excludeArchived": { "type": "boolean" }, "conversationType": { "type": "array", "items": { "type": "string", "enum": [ "PUBLIC_CHANNEL", "PRIVATE_CHANNEL", "GROUP_MESSAGE", "DIRECT_MESSAGE" ] } }, "channelFilter": { "type": "object", "properties": { "private_channel": { "type": "array", "items": { "type": "string" } }, "public_channel": { "type": "array", "items": { "type": "string" } } } }, "channelIdFilter": { "type": "array", "items": { "type": "string" } }, "sinceDate": { "anyOf": [ { "type": "string", "pattern": "^[0-9]{4}-[0-9]{2}-[0-9]{2}T[0-9]{2}:[0-9]{2}:[0-9]{2}Z$" }, { "type": "string", "pattern": "" } ] }, "lookBack": { "type": "string", "pattern": "^[0-9]*$" } }, "required": [ ] }, "syncMode": { "type": "string", "enum": [ "FORCED_FULL_CRAWL", "FULL_CRAWL", "CHANGE_LOG" ] }, "type" : { "type" : "string", "pattern": "SLACK" }, "enableIdentityCrawler": { "type": "boolean" }, "secretArn": { "type": "string" } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "required": [ "connectionConfiguration", "repositoryConfigurations", "syncMode", "additionalProperties", "secretArn", "type", "enableIdentityCrawler" ] }

Zendesk 模板架构

您可以将包含数据来源架构的 JSON 作为 TemplateConfiguration 对象的一部分。您可以将主机 URL 作为连接配置或存储库端点详细信息的一部分提供。还要将数据来源的类型指定为 ZENDESK、身份验证凭证的密钥以及其他必要的配置。然后,在调用 CreateDataSource 时将 TEMPLATE 指定为 Type

您可以使用本开发者指南中提供的模板。请参阅Zendesk JSON 架构

下表描述 Zendesk JSON 架构的参数。

配置 描述
connectionConfiguration 有关数据来源端点的配置信息。
repositoryEndpointMetadata 数据来源的端点信息。
hostURL Zendesk 主机 URL。例如,https://yoursubdomain.zendesk.com
repositoryConfigurations 数据来源内容的配置信息。例如,配置特定类型的内容和字段映射。
  • ticket

  • ticketComment

  • ticketCommentAttachment

  • article

  • articleComment

  • articleAttachment

  • communityTopic

  • communityPostComment

将 Zendesk 工单的属性或字段名称映射到 Amazon Kendra 索引字段名称的对象的列表。有关更多信息,请参阅映射数据来源字段
secretARN AWS Secrets Manager 密钥的 Amazon 资源名称(ARN),该密钥包含连接到 Zendesk 所需的键-值对。密钥必须包含具有以下键的 JSON 结构:主机 URL、客户端 ID、客户端密钥、用户名和密码。
additionalProperties 数据来源中内容的其他配置选项
organizationNameFilter 您可以选择为特定组织中存在的工单编制索引。
sinceDate 您可以选择配置一个 sinceDate 参数,以便 Zendesk 连接器根据特定的 sinceDate 爬取内容。
inclusionPatterns 用于在 Zendesk 数据来源中包含某些文件的正则表达式模式的列表。与模式匹配的文件将包含在索引中。与模式不匹配的文件将从索引中排除。如果文件同时匹配包含和排除模式,则以排除模式为优先,该文件不会包含在索引中。
exclusionPatterns 用于在 Zendesk 数据来源中排除某些文件的正则表达式模式的列表。与模式匹配的文件将从索引中排除。与模式不匹配的文件将包含在索引中。如果文件同时匹配排除和包含模式,则以排除模式为优先,该文件不会包含在索引中。
  • isCrawlTicket

  • isCrawlTicketCremen

  • isCrawlTicketCommentAttachment

  • isCrawlArticle

  • isCrawlArticleComment

  • isCrawlArticleAttachment

  • isCrawlCommunityTopic

  • isCrawlCommunityPost

  • isCrawlCommunityPostComment

输入“true”,以爬取这些类型的内容。
type 指定 ZENDESK 作为数据来源类型。
useChangeLog 输入“true”,以使用 Zendesk 更改日志来确定需要在索引中更新的文档。根据更改日志的大小,在 Zendesk 中扫描文档可能会更快。如果您是首次将 Zendesk 数据来源与索引同步,则会扫描所有文档。
{ "$schema": "http://json-schema.org/draft-04/schema#", "type": "object", "properties": { "connectionConfiguration": { "type": "object", "properties": { "repositoryEndpointMetadata": { "type": "object", "properties": { "hostUrl": { "type": "string", "pattern": "https:.*" } }, "required": [ "hostUrl" ] } }, "required": [ "repositoryEndpointMetadata" ] }, "repositoryConfigurations": { "type": "object", "properties": { "ticket": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "LONG", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "ticketComment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "LONG", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "ticketCommentAttachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "LONG", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "article": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "LONG", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "communityPostComment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "LONG", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "articleComment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "LONG", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "articleAttachment": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "LONG", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] }, "communityTopic": { "type": "object", "properties": { "fieldMappings": { "type": "array", "items": { "anyOf": [ { "type": "object", "properties": { "indexFieldName": { "type": "string" }, "indexFieldType": { "type": "string", "enum": ["STRING", "STRING_LIST", "LONG", "DATE"] }, "dataSourceFieldName": { "type": "string" }, "dateFieldFormat": { "type": "string", "pattern": "dd-MM-yyyy HH:mm:ss" } }, "required": [ "indexFieldName", "indexFieldType", "dataSourceFieldName" ] } ] } } }, "required": [ "fieldMappings" ] } } }, "secretArn": { "type": "string", "minLength": 20, "maxLength": 2048 }, "additionalProperties": { "type": "object", "properties": { "organizationNameFilter": { "type": "array" }, "sinceDate": { "type": "string", "pattern": "^[0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2}$" }, "inclusionPatterns": { "type": "array" }, "exclusionPatterns": { "type": "array" }, "isCrawTicket": { "type": "string" }, "isCrawTicketComment": { "type": "string" }, "isCrawTicketCommentAttachment": { "type": "string" }, "isCrawlArticle": { "type": "string" }, "isCrawlArticleAttachment": { "type": "string" }, "isCrawlArticleComment": { "type": "string" }, "isCrawlCommunityTopic": { "type": "string" }, "isCrawlCommunityPost": { "type": "string" }, "isCrawlCommunityPostComment": { "type": "string" } } }, "type": { "type": "string", "pattern": "ZENDESK" }, "useChangeLog": { "type": "string", "enum": ["true", "false"] } }, "version": { "type": "string", "anyOf": [ { "pattern": "1.0.0" } ] }, "additionalProperties": false, "required": [ "connectionConfiguration", "repositoryConfigurations", "additionalProperties", "useChangeLog", "secretArn", "type" ] }