RDS-für-PostgreSQL-Kollatierungen für EBCDIC- und andere Mainframe-Migrationen - Amazon Relational Database Service

RDS-für-PostgreSQL-Kollatierungen für EBCDIC- und andere Mainframe-Migrationen

RDS-für-PostgreSQL-Versionen 10 und höher enthalten die ICU-Version 60.2, die auf Unicode 10.0 basiert und Kollationen aus dem Unicode Common Locale Data Repository, CLDR 32, enthält. Diese Software-Internationalisierungsbibliotheken stellen sicher, dass Zeichenkodierungen unabhängig vom Betriebssystem oder der Plattform einheitlich dargestellt werden. Weitere Informationen zu Unicode CLDR-32 finden Sie unterCLDR 32 Versionshinweisauf der Unicode CLDR-Website. Mehr über die Internationalisierungskomponenten für Unicode (ICU) erfahren Sie auf derTechnischer Ausschuss der Intensivstation (ICU-TC)Webseite. Hinweise zu ICU-60 finden Sie unterLaden Sie ICU 60 herunter.

Ab Version 14.3 umfasst RDS für PostgreSQL auch Kollatierungen, die bei der Datenintegration und Konvertierung von EBCDC-basierten Systemen helfen. Der erweiterte binär codierte Dezimalaustauschcode oderEBCDICEncoding wird häufig von Mainframe-Betriebssystemen verwendet. Diese von Amazon RDS bereitgestellten Sortierungen sind eng definiert, um nur die Unicode-Zeichen zu sortieren, die direkt EBCDIC-Codepages zugeordnet sind. Die Zeichen werden in EBCDIC-Codepunktreihenfolge sortiert, um eine Datenvalidierung nach der Konvertierung zu ermöglichen. Diese Sortierungen enthalten weder denormalisierte Formen noch Unicode-Zeichen, die nicht direkt einem Zeichen auf der EBCDIC-Quellcodepage zugeordnet sind.

Die Zeichenzuordnungen zwischen EBCDIC-Codepages und Unicode-Codepunkten basieren auf von IBM veröffentlichten Tabellen. Das komplette Set ist bei IBM erhältlich alskomprimierte Dateizum Herunterladen. RDS für PostgreSQL verwendete diese Zuordnungen mit Tools, die von der ICU bereitgestellt wurden, um die in den Tabellen in diesem Abschnitt aufgeführten Kollatierungen zu erstellen. Die Kollationsnamen enthalten eine Sprache und ein Land, wie von der Intensivstation gefordert. EBCDIC-Codepages spezifizieren jedoch keine Sprachen, und einige EBCDIC-Codepages decken mehrere Länder ab. Das bedeutet, dass der Sprach- und Länderteil der Sortierungsnamen in der Tabelle willkürlich sind und nicht mit dem aktuellen Gebietsschema übereinstimmen müssen. Mit anderen Worten, die Codepage-Nummer ist der wichtigste Teil des Sortierungsnamens in dieser Tabelle. Sie können jede der in den folgenden Tabellen aufgeführten Kollatierungen in jeder RDS für PostgreSQL-Datenbank verwenden.

  • Unicode to EBCDIC collations table – Einige Mainframe-Datenmigrationstools verwenden intern LATIN1 oder LATIN9, um Daten zu codieren und zu verarbeiten. Solche Tools verwenden Roundtrip-Schemata, um die Datenintegrität zu wahren und die umgekehrte Konvertierung zu unterstützen. Die Sortierungen in dieser Tabelle können von Tools verwendet werden, die Daten mithilfe der LATIN1-Codierung verarbeiten, was keine besondere Behandlung erfordert.

  • Unicode to LATIN9 collations table – Sie können diese Kollatierungen in jeder RDS für PostgreSQL-Datenbank verwenden.

In der folgenden Tabelle finden Sie in RDS für PostgreSQL verfügbare Kollatierungen, die EBCDIC-Codepages Unicode-Codepunkten zuordnen. Es wird empfohlen, die Sortierungen in dieser Tabelle für die Anwendungsentwicklung zu verwenden, die eine Sortierung basierend auf der Reihenfolge der IBM Codepages erfordert.

Name der PostgreSQL-Sortierung Beschreibung der Code-Page-Zuordnung und Sortierreihenfolge

DA-DK-CP277-x-Intensivstation

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 277 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 277-Codepunkt-Reihenfolge sortiert

DE-DE-CP273-X-ICU

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 273 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 273-Codepunkt-Reihenfolge sortiert

DE-GB-CP285-X-ICU

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 285 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 285-Codepunkt-Reihenfolge sortiert

de-US-CP037-X-ICU

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 037 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 37-Codepunktreihenfolge sortiert

es-ES-CP284-x-ICU

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 284 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 284-Codepunkt-Reihenfolge sortiert

fi-FI-CP278-X-ICU

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 278 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 278-Codepunkt-Reihenfolge sortiert

fr-FR-CP297-X-ICU

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 297 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 297-Codepunkt-Reihenfolge sortiert

es-es-CP280-X-ICU

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 280 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 280 Codepunkt-Reihenfolge sortiert.

NL-BE-CP500-x-ICU

Unicode-Zeichen, die direkt IBM EBCDIC Code Page 500 zugeordnet sind (pro Konvertierungstabellen), werden in IBM CP 500-Codepunktreihenfolge sortiert

Amazon RDS bietet eine Reihe zusätzlicher Sortierungen, mit denen Unicode-Codepunkte, die LATIN9-Zeichen zugeordnet sind, anhand der von IBM veröffentlichten Tabellen in der Reihenfolge der ursprünglichen Codepunkte gemäß der EBCDIC-Codepage der Quelldaten sortiert werden.

Name der PostgreSQL-Sortierung Beschreibung der Code-Page-Zuordnung und Sortierreihenfolge

DA-DK-CP1142M-X-Intensivstation

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC Code Page 1142 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1142-Codepunktreih

DE-DE-CP1141M-X-ICU

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC Code Page 1141 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1141-Codepunktreih

DE-GB-CP1146M-X-ICU

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC Code Page 1146 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1146-Codepunktreih

de-US-CP1140M-X-ICU

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC Code Page 1140 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1140 Codepunktreih

es-ES-CP1145M-X-ICU

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC Code Page 1145 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1145-Codepunktreih

fi-Fi-CP1143M-X-ICU

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC Code Page 1143 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1143 Codepunktreih

FR-FR-CP1147M-X-ICU

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC Code Page 1147 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1147 Codepunktreih

it-it-cp1144M-X-ICU

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC-Codepage 1144 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1144-Codepunktreih

NL-BE-CP1148M-X-ICU

Unicode-Zeichen, die LATIN9-Zeichen zugeordnet sind, die ursprünglich aus IBM EBCDIC Code Page 1148 konvertiert wurden (pro Konvertierungstabellen), werden in IBM CP 1148 Codepunktreih

Im Folgenden finden Sie ein Beispiel für die Verwendung eines RDS-Werts für PostgreSQL-Sortierungen.

db1=> SELECT pg_import_system_collations('pg_catalog'); pg_import_system_collations ----------------------------- 36 db1=> SELECT '¤' < 'a' col1; col1 ------ t db1=> SELECT '¤' < 'a' COLLATE "da-DK-cp277-x-icu" col1; col1 ------ f

Wir empfehlen Ihnen, die Sortierungen in derUnicode to EBCDIC collations tableund in derUnicode to LATIN9 collations tablefür die Anwendungsentwicklung, die eine Sortierung basierend auf der Reihenfolge der IBM Codepages erfordert. Die folgenden Sortierungen (mit dem Suffix „b“) sind auch sichtbar inpg_collation, sind aber für die Verwendung durch Mainframe-Datenintegrations- und Migrationstools unterAWSdie Codepages mit bestimmten Codepunktverschiebungen abbilden und eine besondere Behandlung bei der Sortierung erfordern. Mit anderen Worten: Die folgenden Sortierungen werden nicht empfohlen.

  • DA-DK-277B-X-Intensivstation

  • DA-DK-1142B-X-Intensivstation

  • de-DE-CP273B-X-ICU

  • DE-DE-CP1141B-X-ICU

  • DE-GB-CP1146B-X-ICU

  • DE-GB-CP285B-X-ICU

  • de-US-CP037B-X-ICU

  • de-US-CP1140B-X-ICU

  • es-ES-CP1145B-X-ICU

  • es-ES-CP284B-X-ICU

  • fi-FI-CP1143B-X-ICU

  • FR-FR-CP1147B-X-ICU

  • fr-FR-CP297B-X-ICU

  • it-it-cp1144B-X-ICU

  • it-it-cp280B-X-ICU

  • NL-BE-CP1148B-X-ICU

  • NL-BE-CP500B-X-ICU

Weitere Informationen über die Migration von Anwendungen aus Mainframe-Umgebungen zu AWS finden Sie unter Was ist AWS Mainframe Modernization?.

Weitere Informationen über die Verwaltung von Kollationen in PostgreSQL finden Sie unter Kollationsunterstützung in der PostgreSQL-Dokumentation.