Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cargador a granel de aviones de datos Neptune APIs
Acciones de carga masiva:
Estructura de carga masiva:
StartLoaderJob (acción)
El nombre AWS CLI de esta API es:start-loader-job.
Inicia un trabajo del programa de carga masiva de Neptune para cargar datos de un bucket de Amazon S3 en una instancia de base de datos de Neptune. Consulte Uso del programa de carga masiva de Amazon Neptune para adquirir datos.
Al invocar esta operación en un clúster de Neptune que tiene habilitada la autenticación de IAM, el usuario o rol de IAM que realiza la solicitud debe tener una política adjunta que permita la acción StartLoaderJob neptune-db: IAM en ese clúster.
Solicitud
-
dependencies (en la CLI:
--dependencies): una cadena, del tipo:string(una cadena codificada con UTF-8).Se trata de un parámetro opcional que puede supeditar una solicitud de carga en cola a la finalización correcta de uno o varios trabajos anteriores de la cola.
Neptune puede poner en cola hasta 64 solicitudes de carga a la vez, si sus parámetros
queueRequestestán configurados en"TRUE". El parámetrodependenciesle permite hacer que la ejecución de dicha solicitud en cola dependa de la finalización correcta de una o más solicitudes anteriores especificadas en la cola.Por ejemplo, si las cargas
Job-AyJob-Bson independientes entre sí, pero la cargaJob-CnecesitaJob-AyJob-Bdebe terminar antes de que comience, proceda de la siguiente manera:-
Envíe
load-job-Ayload-job-Buno tras otro en cualquier orden, y guarde sus identificadores de carga. -
Envíe
load-job-Ccon los identificadores de carga de los dos trabajos en su campodependencies:
"dependencies" : ["(job_A_load_id)", "(job_B_load_id)"]Debido al parámetro
dependencies, el programa de carga en bloque no iniciaráJob-Chasta queJob-AyJob-Bse hayan completado correctamente. Si se produce un error en alguno de ellos, Job-C no se ejecutará y su estado se establecerá enLOAD_FAILED_BECAUSE_DEPENDENCY_NOT_SATISFIED.Puede configurar varios niveles de dependencia de esta manera, de modo que el error de un trabajo provoque la cancelación de todas las solicitudes que dependen directa o indirectamente de él.
-
-
failOnError (en la CLI:
--fail-on-error): un booleano, del tipo:boolean(un valor booleano [true o false]).failOnError: un indicador para activar la detención total al encontrar un error.Valores permitidos:
"TRUE"y"FALSE".Valor predeterminado:
"TRUE".Cuando este parámetro se establece en
"FALSE", el programa de carga intenta cargar todos los datos de la ubicación especificada, omitiendo cualquier entrada con errores.Cuando este parámetro se establece en
"TRUE", el programa de carga se detiene en cuanto encuentra un error. Los datos cargados hasta ese momento persisten. -
format (en la CLI:
--format): obligatorio: un formato, del tipo:string(una cadena codificada con UTF-8).El formato de los datos. Para obtener más información sobre los formatos de los datos para el comando
Loaderde Neptune, consulte Formatos de los datos de carga.Valores permitidos
-
csvpara el formato de datos CSV de Gremlin. -
opencypherpara el formato de datos CSV de openCypher. -
ntriplespara el formato de datos RDF N-Triples. -
nquadspara el formato de datos RDF N-Quads. -
rdfxmlpara el formato de datos RDF RDF\XML. -
turtlepara el formato de datos RDF de Turtle.
-
-
iamRoleArn (en la CLI:
--iam-role-arn): obligatorio: una cadena, del tipo:string(una cadena codificada con UTF-8).El nombre de recurso de Amazon (ARN) para que la instancia de base de datos de Neptune asuma el rol de IAM para obtener acceso al bucket de S3. El ARN del rol de IAM que se indica aquí debe adjuntarse al clúster de base de datos (consulte Adición del rol de IAM a un clúster de Amazon Neptune).
-
mode (en la CLI:
--mode): un modo, del tipo:string(una cadena codificada con UTF-8).El modo de tarea de carga.
Valores permitidos:
RESUME,NEW,AUTO.Valor predeterminado:
AUTO.-
RESUME: en el modo RESUME, el programa de carga busca una carga anterior de este origen y, si encuentra una, reanuda ese trabajo de carga. Si no se encuentra ningún trabajo de carga anterior, el programa de carga se detiene.El programa de carga evita la recarga de archivos cargados correctamente en un trabajo anterior. Solo intenta procesar los archivos con errores. Si ha eliminado los datos cargados anteriormente del clúster de Neptune, esos datos no se vuelven a cargar en este modo. Si un trabajo de carga anterior ha cargado todos los archivos del mismo origen correctamente, no se vuelve a cargar nada y el programa de carga devuelve una operación correcta.
-
NEW: en el modo NEW, crea una solicitud de carga, independientemente de cualquier carga anterior. Puede utilizar este modo para volver a cargar todos los datos de un origen después de descartar los datos cargados anteriormente desde el clúster de Neptune o bien para cargar nuevos datos disponibles en el mismo origen. -
AUTO: en el modo AUTO, el programa de carga busca un trabajo de carga anterior del mismo origen y, si encuentra uno, lo reanuda, igual que en el modoRESUME.Si el programa de carga no encuentra un trabajo de carga anterior del mismo origen, carga todos los datos del origen, al igual que en el modo
NEW.
-
-
parallelism (en la CLI:
--parallelism): un paralelismo, del tipo:string(una cadena codificada con UTF-8).El parámetro
parallelismopcional que se puede establecer para reducir el número de subprocesos utilizados por el proceso de carga masiva.Valores permitidos:
-
LOW— El número de subprocesos utilizados es el número de v disponibles dividido entre 8. CPUs -
MEDIUM— El número de hilos utilizados es el número de v disponibles CPUs dividido entre 2. -
HIGH— El número de hilos utilizados es el mismo que el número de v disponiblesCPUs. -
OVERSUBSCRIBE— El número de hilos utilizados es el número de v disponibles CPUs multiplicado por 2. Si se utiliza este valor, el programa de carga masiva absorbe todos los recursos disponibles.Sin embargo, esto no significa que el ajuste de
OVERSUBSCRIBEdé como resultado un uso del 100 % de la CPU. Como la operación de carga es I/O limitada, la máxima utilización de la CPU que cabe esperar se sitúa entre el 60 y el 70%.
Valor predeterminado:
HIGHEn ocasiones, este ajuste de
parallelismpuede provocar un bloqueo entre los subprocesos al cargar datos de openCypher. Cuando esto ocurre, Neptune devuelve el errorLOAD_DATA_DEADLOCK. Por lo general, puede solucionar el problema configurandoparallelismen un ajuste inferior y volviendo a intentar ejecutar el comando de carga. -
-
parserConfiguration (en la CLI:
--parser-configuration): es una matriz de mapeo de pares de clave-valor donde:Cada clave es una cadena, del tipo:
string(una cadena codificada con UTF-8).Cada valor es una cadena, del tipo:
string(una cadena codificada con UTF-8).parserConfiguration: objeto opcional con valores de configuración de analizador adicionales. Cada uno de los parámetros secundarios también es opcional:-
namedGraphUri: el gráfico predeterminado para todos los formatos RDF cuando no se especifica ningún gráfico (para formatos no QUAD y entradas NQUAD sin gráfico).El valor predeterminado es
https://aws.amazon.com/neptune/vocab/v01/DefaultNamedGraph. -
baseUri— El URI base para RDF/XML los formatos Turtle.El valor predeterminado es
https://aws.amazon.com/neptune/default. -
allowEmptyStrings: los usuarios de Gremlin deben ser capaces de pasar valores de cadenas vacías (“”) como propiedades de nodo y borde al cargar datos CSV. SiallowEmptyStringsse establece enfalse(el valor predeterminado), estas cadenas vacías se tratan como nulas y no se cargan.Si
allowEmptyStringsse establece entrue, el programa de carga trata las cadenas vacías como valores de propiedad válidos y las carga en consecuencia.
-
-
queueRequest (en la CLI:
--queue-request): un booleano, del tipo:boolean(un valor booleano [true o false]).Se trata de un parámetro de indicador opcional que indica si la solicitud de carga se puede poner en cola o no.
No tiene que esperar a que se complete un trabajo de carga antes de emitir el siguiente, porque Neptune puede poner en cola hasta 64 trabajos a la vez, siempre que sus parámetros
queueRequestestén configurados en"TRUE". El orden de espera de los trabajos será first-in-first-out (FIFO).Si el parámetro
queueRequestse omite o se establece en"FALSE", se producirá un error en la solicitud de carga si ya se está ejecutando otro trabajo de carga.Valores permitidos:
"TRUE"y"FALSE".Valor predeterminado:
"FALSE". -
s3BucketRegion(en la CLI:
--s-3-bucket-region) — Necesario: un S3BucketRegion, de tipo:string(una cadena codificada en UTF-8).La región de Amazon del bucket S3. Debe coincidir con la región de Amazon del clúster de base de datos.
-
source (en la CLI:
--source): obligatorio: una cadena, del tipo:string(una cadena codificada con UTF-8).El parámetro
sourceacepta un URI de S3 que identifica un solo archivo, varios archivos, una carpeta o varias carpetas. Neptune carga todos los archivos de datos de cualquier carpeta especificada.El URI puede tener cualquiera de los siguientes formatos:
-
s3://(bucket_name)/(object-key-name) -
https://s3.amazonaws.com/(bucket_name)/(object-key-name) -
https://s3.us-east-1.amazonaws.com/(bucket_name)/(object-key-name)
El
object-key-nameelemento del URI equivale al parámetro de prefijo en una llamada a la API de S3 ListObjects. Identifica todos los objetos del bucket de S3 especificado cuyos nombres comienzan con ese prefijo. Puede ser un único archivo o carpeta o varios archivos o carpetas.La carpeta o carpetas especificadas pueden contener varios archivos de vértice y varios archivos de borde.
-
-
updateSingleCardinalityProperties (en la CLI:
--update-single-cardinality-properties): un booleano, del tipo:boolean(un valor booleano [true o false]).updateSingleCardinalityPropertieses un parámetro opcional que controla cómo el programa de carga masiva trata un nuevo valor para las propiedades de vértice o borde de cardinalidad única. Esto no se admite para cargar datos de openCypher.Valores permitidos:
"TRUE"y"FALSE".Valor predeterminado:
"FALSE".De forma predeterminada, o cuando
updateSingleCardinalityPropertiesestá configurado explícitamente en"FALSE", el programa de carga trata un nuevo valor como un error, porque infringe la cardinalidad única.Por el contrario, cuando
updateSingleCardinalityPropertiesestá configurado en"TRUE", el programa de carga en bloque reemplaza el valor existente por el nuevo. Si se proporcionan varios valores de propiedades de vértices de borde o de cardinalidad única en los archivos origen que se están cargando, el valor final al terminar la carga masiva podría ser cualquiera de esos nuevos valores. El programa de carga solo garantiza que el valor existente se ha reemplazado por uno de los nuevos. -
userProvidedEdgeIds (en la CLI:
--user-provided-edge-ids): un booleano, del tipo:boolean(un valor booleano [true o false]).Este parámetro solo es necesario cuando se cargan datos de OpenCypher que contienen una relación. IDs Debe incluirse y configurarse
Truecuando la relación de OpenCypher se proporcione explícitamente en IDs los datos de carga (recomendado).Si
userProvidedEdgeIdsestá ausente o se establece enTrue, debe haber una columna:IDen todos los archivos de relaciones de la carga.Cuando
userProvidedEdgeIdsestá presente y se establece enFalse, los archivos de relaciones de la carga no deben contener ninguna columna:ID. En su lugar, el programa de carga de Neptune genera automáticamente un identificador para cada relación.Resulta útil proporcionar la relación de IDs forma explícita para que el cargador pueda reanudar la carga una vez que se haya corregido un error en los datos del CSV, sin tener que volver a cargar ninguna relación que ya se haya cargado. Si la relación IDs no se ha asignado explícitamente, el cargador no puede reanudar una carga fallida si se ha tenido que corregir algún archivo de relaciones y, en su lugar, debe volver a cargar todas las relaciones.
Respuesta
-
payload: obligatorio: es una matriz de mapeo de pares de clave-valor donde:
Cada clave es una cadena, del tipo:
string(una cadena codificada con UTF-8).Cada valor es una cadena, del tipo:
string(una cadena codificada con UTF-8).Incluye un par de nombre-valor
loadIdque proporciona un identificador para la operación de carga. -
status: obligatorio: una cadena, del tipo:
string(una cadena codificada con UTF-8).El código de devolución HTTP que indica el estado del trabajo de carga.
Errores
GetLoaderJobStatus (acción)
El nombre AWS CLI de esta API es:get-loader-job-status.
Obtiene información del estado de un determinado trabajo de carga. Neptune realiza un seguimiento de los 1024 trabajos de carga masiva más recientes y solo almacena los últimos 10 000 detalles de error por trabajo.
Consulte la Get-Status API Neptune Loader para obtener más información.
Al invocar esta operación en un clúster de Neptune que tiene habilitada la autenticación de IAM, el usuario o rol de IAM que realiza la solicitud debe tener una política adjunta que permita la acción GetLoaderJobStatus neptune-db: IAM en ese clúster.
Solicitud
-
details (en la CLI:
--details): un booleano, del tipo:boolean(un valor booleano [true o false]).Indicador que especifica si se deben incluir o no detalles más allá del estado general (
TRUEoFALSE; el valor predeterminado esFALSE). -
errors (en la CLI:
--errors): un booleano, del tipo:boolean(un valor booleano [true o false]).Indicador que especifica si se debe incluir o no una lista de los errores encontrados (
TRUEoFALSE; el valor predeterminado esFALSE).Dicha lista está paginada. Los parámetros
pageyerrorsPerPagele permiten desplazarse por todos los errores. -
errorsPerPage(en la CLI:
--errors-per-page) — a PositiveInteger, de tipo:integer(un entero de 32 bits con signo), ¿al menos 1? ¿st?.El número de errores devueltos en cada página (un entero positivo; el valor predeterminado es
10). Solo es válido si el parámetroerrorsestá establecido enTRUE. -
loadId (en la CLI:
--load-id): obligatorio: una cadena, del tipo:string(una cadena codificada con UTF-8).El ID de carga del trabajo de carga del que obtener el estado.
-
page(en la CLI:
--page) — a PositiveInteger, de tipo:integer(un entero de 32 bits con signo), ¿al menos 1? ¿st?.El número de la página de error (un entero positivo; el valor predeterminado es
1). Solo es válido si el parámetroerrorsestá establecido enTRUE.
Respuesta
-
payload: obligatorio: un documento, del tipo:
document(un contenido abierto independiente del protocolo representado por un modelo de datos similar a JSON).Información de estado sobre el trabajo de carga, en un diseño que podría tener este aspecto:
{ "status" : "200 OK", "payload" : { "feedCount" : [ { "LOAD_FAILED" : (number) } ], "overallStatus" : { "fullUri" : "s3://(bucket)/(key)", "runNumber" : (number), "retryNumber" : (number), "status" : "(string)", "totalTimeSpent" : (number), "startTime" : (number), "totalRecords" : (number), "totalDuplicates" : (number), "parsingErrors" : (number), "datatypeMismatchErrors" : (number), "insertErrors" : (number), }, "failedFeeds" : [ { "fullUri" : "s3://(bucket)/(key)", "runNumber" : (number), "retryNumber" : (number), "status" : "(string)", "totalTimeSpent" : (number), "startTime" : (number), "totalRecords" : (number), "totalDuplicates" : (number), "parsingErrors" : (number), "datatypeMismatchErrors" : (number), "insertErrors" : (number), } ], "errors" : { "startIndex" : (number), "endIndex" : (number), "loadId" : "(string), "errorLogs" : [ ] } } } -
status: obligatorio: una cadena, del tipo:
string(una cadena codificada con UTF-8).Código de respuesta HTTP de la solicitud.
Errores
ListLoaderJobs (acción)
El nombre AWS CLI de esta API es:list-loader-jobs.
Recupera una lista de los loadIds de todos los trabajos de carga activos.
Al invocar esta operación en un clúster de Neptune que tiene habilitada la autenticación de IAM, el usuario o rol de IAM que realiza la solicitud debe tener una política adjunta que permita la acción ListLoaderJobs neptune-db: IAM en ese clúster.
Solicitud
-
includeQueuedLoads (en la CLI:
--include-queued-loads): un booleano, del tipo:boolean(un valor booleano [true o false]).Parámetro opcional que se puede usar para excluir la carga de solicitudes IDs de carga en cola al solicitar una lista de cargas configurando el parámetro en. IDs
FALSEEl valor predeterminado esTRUE. -
limit(en la CLI:
--limit) — a ListLoaderJobsInputLimitInteger, de tipo:integer(un entero de 32 bits con signo), ¿no menos de 1 ni más de 100? ¿st? s.El número de cargas IDs que se van a enumerar. Debe ser un entero positivo mayor que cero y no mayor que
100(que es el valor predeterminado).
Respuesta
-
payload: obligatorio: objeto LoaderIdResult.
La lista de trabajos solicitada IDs.
-
status: obligatorio: una cadena, del tipo:
string(una cadena codificada con UTF-8).Devuelve el estado de la solicitud de la lista de trabajos.
Errores
CancelLoaderJob (acción)
El nombre AWS CLI de esta API es:cancel-loader-job.
Cancela un trabajo de carga especificado. Se trata de una solicitud DELETE de HTTP. Consulte la Get-Status API Neptune Loader para obtener más información.
Al invocar esta operación en un clúster de Neptune que tiene habilitada la autenticación de IAM, el usuario o rol de IAM que realiza la solicitud debe tener una política adjunta que permita la acción CancelLoaderJob neptune-db: IAM en ese clúster.
Solicitud
-
loadId (en la CLI:
--load-id): obligatorio: una cadena, del tipo:string(una cadena codificada con UTF-8).El ID del trabajo de carga que se va a eliminar.
Respuesta
-
status: una cadena, del tipo:
string(una cadena codificada con UTF-8).El estado de la cancelación.
Errores
Estructura de carga masiva:
LoaderIdResult (estructura)
Contiene una lista de cargas IDs.
Campos
-
loadIds: se trata de una cadena, del tipo:
string(una cadena codificada con UTF-8).Una lista de cargas IDs.