

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Ekstrak informasi teks menggunakan pengenalan entitas bernama
<a name="sms-named-entity-recg"></a>

Untuk mengekstrak informasi dari teks tidak terstruktur dan mengklasifikasikannya ke dalam kategori yang telah ditentukan sebelumnya, gunakan tugas pelabelan Amazon SageMaker Ground Truth bernama entity recognition (NER). Secara tradisional, NER melibatkan pemilahan data teks untuk menemukan frasa kata benda, yang disebut *entitas bernama*, dan mengkategorikan masing-masing dengan label, seperti “orang,” “organisasi,” atau “merek.” Anda dapat memperluas tugas ini untuk memberi label rentang teks yang lebih panjang dan mengkategorikan urutan tersebut dengan label yang telah ditentukan sebelumnya yang Anda tentukan. Anda dapat membuat pekerjaan pelabelan pengenalan entitas bernama menggunakan bagian Ground Truth di konsol Amazon SageMaker AI atau [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html)operasinya.

Saat ditugaskan dengan pekerjaan pelabelan pengenalan entitas bernama, pekerja menerapkan label Anda ke kata atau frasa tertentu dalam blok teks yang lebih besar. Mereka memilih label, lalu menerapkannya dengan menggunakan kursor untuk menyorot bagian teks yang diterapkan label. Alat pengenalan entitas bernama Ground Truth mendukung anotasi yang tumpang tindih, pemilihan label dalam konteks, dan pemilihan multi-label untuk satu sorotan. Selain itu, pekerja dapat menggunakan keyboard mereka untuk memilih label dengan cepat.

**penting**  
Jika Anda membuat file manifes masukan secara manual, gunakan `"source"` untuk mengidentifikasi teks yang ingin diberi label. Untuk informasi selengkapnya, lihat [Data input](sms-data-input.md).

## Membuat Job Pelabelan Pengakuan Entitas Bernama (Konsol)
<a name="sms-creating-ner-console"></a>

Anda dapat mengikuti petunjuk [Membuat Job Pelabelan (Konsol)](sms-create-labeling-job-console.md) untuk mempelajari cara membuat pekerjaan pelabelan pengenalan entitas bernama di konsol SageMaker AI. Pada Langkah 10, pilih **Teks** dari menu tarik-turun **kategori Tugas**, dan pilih **Pengenalan entitas bernama** sebagai jenis tugas. 

Ground Truth menyediakan UI pekerja yang mirip dengan yang berikut ini untuk tugas pelabelan. Saat membuat pekerjaan pelabelan dengan konsol, Anda menentukan petunjuk untuk membantu pekerja menyelesaikan pekerjaan dan label yang dapat dipilih pekerja. 

![Gif menunjukkan cara membuat pekerjaan pelabelan pengenalan entitas bernama di konsol SageMaker AI.](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/sms/gifs/nertool.gif)


## Membuat Job Pelabelan Pengakuan Entitas Bernama (API)
<a name="sms-creating-ner-api"></a>

Untuk membuat pekerjaan pelabelan pengenalan entitas bernama, gunakan operasi SageMaker `CreateLabelingJob` API. API ini mendefinisikan operasi ini untuk semua AWS SDKs. Untuk melihat daftar bahasa khusus yang SDKs didukung untuk operasi ini, tinjau bagian **Lihat Juga**. [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateLabelingJob.html)

Ikuti petunjuk [Membuat Job Pelabelan (API)](sms-create-labeling-job-api.md) dan lakukan hal berikut saat Anda mengonfigurasi permintaan Anda:
+ Fungsi Lambda pra-anotasi untuk jenis tugas ini diakhiri dengan. `PRE-NamedEntityRecognition` Untuk menemukan Lambda ARN pra-anotasi untuk Wilayah Anda, lihat. [PreHumanTaskLambdaArn](https://docs.aws.amazon.com/sagemaker/latest/dg/API_HumanTaskConfig.html#SageMaker-Type-HumanTaskConfig-PreHumanTaskLambdaArn) 
+ Fungsi Lambda konsolidasi anotasi untuk jenis tugas ini diakhiri dengan. `ACS-NamedEntityRecognition` Untuk menemukan Lambda ARN konsolidasi anotasi untuk Wilayah Anda, lihat. [AnnotationConsolidationLambdaArn](https://docs.aws.amazon.com/sagemaker/latest/dg/API_AnnotationConsolidationConfig.html#SageMaker-Type-AnnotationConsolidationConfig-AnnotationConsolidationLambdaArn) 
+ Anda harus memberikan ARN berikut untuk: `[HumanTaskUiArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UiConfig.html#sagemaker-Type-UiConfig-HumanTaskUiArn)`

  ```
  arn:aws:sagemaker:{{aws-region}}:394669845002:human-task-ui/NamedEntityRecognition
  ```

  Ganti `{{aws-region}}` dengan yang Wilayah AWS Anda gunakan untuk membuat pekerjaan pelabelan. Misalnya, gunakan `us-west-1` jika Anda membuat pekerjaan pelabelan di AS Barat (California Utara).
+ Berikan instruksi pekerja dalam file konfigurasi kategori label menggunakan `instructions` parameter. Anda dapat menggunakan string, atau bahasa markup HTML di `fullInstruction` bidang `shortInstruction` dan. Untuk detail selengkapnya, lihat [Memberikan Instruksi Pekerja dalam File Konfigurasi Kategori Label](#worker-instructions-ner).

  ```
  "instructions": {"shortInstruction":"<h1>Add header</h1><p>Add Instructions</p>", "fullInstruction":"<p>Add additional instructions.</p>"}
  ```

Berikut ini adalah contoh [permintaan AWS Python SDK (Boto3)](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_labeling_job) untuk membuat pekerjaan pelabelan di Wilayah AS Timur (Virginia N.). Semua parameter berwarna merah harus diganti dengan spesifikasi dan sumber daya Anda. 

```
response = client.create_labeling_job(
    LabelingJobName={{'example-ner-labeling-job'}},
    LabelAttributeName={{'label'}},
    InputConfig={
        'DataSource': {
            'S3DataSource': {
                'ManifestS3Uri': {{'s3://bucket/path/manifest-with-input-data.json'}}
            }
        },
        'DataAttributes': {
            'ContentClassifiers': [
                {{'FreeOfPersonallyIdentifiableInformation'|'FreeOfAdultContent'}},
            ]
        }
    },
    OutputConfig={
        'S3OutputPath': {{'s3://bucket/path/file-to-store-output-data'}},
        'KmsKeyId': {{'string'}}
    },
    RoleArn={{'arn:aws:iam::*:role/*'}},
    LabelCategoryConfigS3Uri={{'s3://bucket/path/label-categories.json'}},
    StoppingConditions={
        'MaxHumanLabeledObjectCount': {{123}},
        'MaxPercentageOfInputDatasetLabeled': {{123}}
    },
    HumanTaskConfig={
        'WorkteamArn': {{'arn:aws:sagemaker:region:*:workteam/private-crowd/*'}},
        'UiConfig': {
            'HumanTaskUiArn': 'arn:aws:sagemaker:{{us-east-1}}:394669845002:human-task-ui/NamedEntityRecognition'
        },
        'PreHumanTaskLambdaArn': 'arn:aws:lambda:{{us-east-1:432418664414}}:function:PRE-NamedEntityRecognition',
        'TaskKeywords': [
            {{'Named entity Recognition'}},
        ],
        'TaskTitle': {{'Named entity Recognition task'}},
        'TaskDescription': {{'Apply the labels provided to specific words or phrases within the larger text block.'}},
        'NumberOfHumanWorkersPerDataObject': {{1}},
        'TaskTimeLimitInSeconds': {{28800}},
        'TaskAvailabilityLifetimeInSeconds': {{864000}},
        'MaxConcurrentTaskCount': {{1000}},
        'AnnotationConsolidationConfig': {
            'AnnotationConsolidationLambdaArn': 'arn:aws:lambda:{{us-east-1:432418664414}}:function:ACS-NamedEntityRecognition'
        },
    Tags=[
        {
            'Key': {{'string'}},
            'Value': {{'string'
}}        },
    ]
)
```

### Memberikan Instruksi Pekerja dalam File Konfigurasi Kategori Label
<a name="worker-instructions-ner"></a>

Anda harus memberikan instruksi pekerja dalam file konfigurasi kategori label yang Anda identifikasi dengan `LabelCategoryConfigS3Uri` parameter di`CreateLabelingJob`. Anda dapat menggunakan petunjuk ini untuk memberikan detail tentang tugas yang Anda ingin pekerja lakukan dan membantu mereka menggunakan alat ini secara efisien.

Anda memberikan instruksi pendek dan panjang menggunakan `shortInstruction` dan `fullInstruction` dalam `instructions` parameter, masing-masing. Untuk mempelajari lebih lanjut tentang jenis instruksi ini, lihat[Buat halaman instruksi](sms-creating-instruction-pages.md).

Berikut ini adalah contoh file konfigurasi kategori label dengan instruksi yang dapat digunakan untuk pekerjaan pelabelan pengenalan entitas bernama.

```
{
  "document-version": "2018-11-28",
  "labels": [
    {
      "label": "label1",
      "shortDisplayName": "L1"
    },
    {
      "label": "label2",
      "shortDisplayName": "L2"
    },
    {
      "label": "label3",
      "shortDisplayName": "L3"
    },
    {
      "label": "label4",
      "shortDisplayName": "L4"
    },
    {
      "label": "label5",
      "shortDisplayName": "L5"
    }
  ],
  "instructions": {
    "shortInstruction": "<p>Enter description of the labels that workers have 
                        to choose from</p><br><p>Add examples to help workers understand the label</p>",
    "fullInstruction": "<ol>
                        <li><strong>Read</strong> the text carefully.</li>
                        <li><strong>Highlight</strong> words, phrases, or sections of the text.</li>
                        <li><strong>Choose</strong> the label that best matches what you have highlighted.</li>
                        <li>To <strong>change</strong> a label, choose highlighted text and select a new label.</li>
                        <li>To <strong>remove</strong> a label from highlighted text, choose the X next to the 
                        abbreviated label name on the highlighted text.</li>
                        <li>You can select all of a previously highlighted text, but not a portion of it.</li>
                        </ol>"
  }
}
```

## Data Output Pengenalan Entitas Bernama
<a name="sms-ner-output-data"></a>

Setelah Anda membuat pekerjaan pelabelan pengenalan entitas bernama, data keluaran Anda akan ditempatkan di bucket Amazon S3 yang ditentukan dalam `S3OutputPath` parameter saat menggunakan API atau di bidang lokasi **kumpulan data Output** di bagian Ikhtisar **pekerjaan** konsol. 

Untuk mempelajari lebih lanjut tentang file manifes keluaran yang dihasilkan oleh Ground Truth dan struktur file yang digunakan Ground Truth untuk menyimpan data keluaran Anda, lihat[Pelabelan data keluaran pekerjaan](sms-data-output.md). 