Amazon RekognitionとAmazon Textractを使った文書分析と情報抽出の方法

Amazon RekognitionとAmazon Textractを使った文書分析と情報抽出の方法

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは!

今回は、Amazon RekognitionとAmazon Textractを使って文書分析と情報抽出を行う方法をご紹介します。Amazon RekognitionとAmazon Textractは、AWSのAIサービスで、画像やPDFなどの文書からテキストを抽出したり、内容を分析したりすることができます。これらのサービスを使うことで、文書から重要な情報を抽出したり、内容を理解したりすることができます。

はじめに

Amazon RekognitionとAmazon Textractは、AWSのAIサービスで、画像やPDFなどの文書からテキストを抽出したり、内容を分析したりすることができます。Amazon Rekognitionでは、文書内の画像からテキストを抽出したり、画像内のオブジェクトを検出したりすることができます。Amazon Textractでは、PDFや画像からテキストを抽出したり、テキスト内容を分析したりすることができます。これらのサービスを使うことで、文書から重要な情報を抽出したり、内容を理解したりすることができます。

Amazon Rekognitionを使った文書分析

Amazon Rekognitionを使うと、文書内の画像からテキストを抽出したり、画像内のオブジェクトを検出したりすることができます。Amazon Rekognitionでは、文書内の画像からテキストを抽出する「OCR(Optical Character Recognition)」機能や、画像内のオブジェクトを検出する「Object Detection」機能などが提供されています。

OCR(Optical Character Recognition)

Amazon RekognitionのOCR機能を使うと、文書内の画像からテキストを抽出することができます。OCR機能を使うと、文書内の画像からテキストを抽出し、テキストを利用した分析や検索などを行うことができます。

以下のサンプルコードは、Amazon RekognitionのOCR機能を使って、画像からテキストを抽出する方法を示しています。

// インポート
const AWS = require('aws-sdk');
const rekognition = new AWS.Rekognition();

// 画像のパス
const imagePath = 'sample.jpg';

// OCRを実行
const params = {
  Image: {
    S3Object: {
      Bucket: 'bucket-name',
      Name: imagePath
    }
  }
};
rekognition.detectText(params, (err, data) => {
  if (err) {
    console.log(err);
    return;
  }
  // 結果を出力
  console.log(data);
});

Object Detection

Amazon RekognitionのObject Detection機能を使うと、画像内のオブジェクトを検出することができます。Object Detection機能を使うと、画像内のオブジェクトを検出し、オブジェクトを利用した分析や検索などを行うことができます。

以下のサンプルコードは、Amazon RekognitionのObject Detection機能を使って、画像内のオブジェクトを検出する方法を示しています。

// インポート
const AWS = require('aws-sdk');
const rekognition = new AWS.Rekognition();

// 画像のパス
const imagePath = 'sample.jpg';

// Object Detectionを実行
const params = {
  Image: {
    S3Object: {
      Bucket: 'bucket-name',
      Name: imagePath
    }
  }
};
rekognition.detectObjects(params, (err, data) => {
  if (err) {
    console.log(err);
    return;
  }
  // 結果を出力
  console.log(data);
});

Amazon Textractを使った情報抽出

Amazon Textractを使うと、PDFや画像からテキストを抽出したり、テキスト内容を分析したりすることができます。Amazon Textractでは、PDFや画像からテキストを抽出する「Document Text Detection」機能や、テキスト内容を分析する「Document Analysis」機能などが提供されています。

Document Text Detection

Amazon TextractのDocument Text Detection機能を使うと、PDFや画像からテキストを抽出することができます。Document Text Detection機能を使うと、PDFや画像からテキストを抽出し、テキストを利用した分析や検索などを行うことができます。

以下のサンプルコードは、Amazon TextractのDocument Text Detection機能を使って、PDFや画像からテキストを抽出する方法を示しています。

// インポート
const AWS = require('aws-sdk');
const textract = new AWS.Textract();

// ファイルのパス
const filePath = 'sample.pdf';

// Document Text Detectionを実行
const params = {
  Document: {
    S3Object: {
      Bucket: 'bucket-name',
      Name: filePath
    }
  }
};
textract.detectDocumentText(params, (err, data) => {
  if (err) {
    console.log(err);
    return;
  }
  // 結果を出力
  console.log(data);
});

Document Analysis

Amazon TextractのDocument Analysis機能を使うと、テキスト内容を分析することができます。Document Analysis機能を使うと、テキスト内容を分析し、テキスト内容を利用した分析や検索などを行うことができます。

以下のサンプルコードは、Amazon TextractのDocument Analysis機能を使って、テキスト内容を分析する方法を示しています。

// インポート
const AWS = require('aws-sdk');
const textract = new AWS.Textract();

// ファイルのパス
const filePath = 'sample.pdf';

// Document Analysisを実行
const params = {
  Document: {
    S3Object: {
      Bucket: 'bucket-name',
      Name: filePath
    }
  }
};
textract.analyzeDocument(params, (err, data) => {
  if (err) {
    console.log(err);
    return;
  }
  // 結果を出力
  console.log(data);
});

まとめ

今回は、Amazon RekognitionとAmazon Textractを使って文書分析と情報抽出を行う方法をご紹介しました。Amazon Rekognitionを使うと、文書内の画像からテキストを抽出したり、画像内のオブジェクトを検出したりすることができます。Amazon Textractを使うと、PDFや画像からテキストを抽出したり、テキスト内容を分析したりすることができます。これらのサービスを使うことで、文書から重要な情報を抽出したり、内容を理解したりすることができます。

サーバーレス開発低コストなAWS開発内製化はお気軽にお問い合わせください。