Amazon RekognitionとAmazon Textractを使った文書分析と情報抽出の方法

AI・機械学習サーバーレス

2023.02.17

この記事は公開されてから１年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは！

今回は、Amazon RekognitionとAmazon Textractを使って文書分析と情報抽出を行う方法をご紹介します。Amazon RekognitionとAmazon Textractは、AWSのAIサービスで、画像やPDFなどの文書からテキストを抽出したり、内容を分析したりすることができます。これらのサービスを使うことで、文書から重要な情報を抽出したり、内容を理解したりすることができます。

はじめに

Amazon RekognitionとAmazon Textractは、AWSのAIサービスで、画像やPDFなどの文書からテキストを抽出したり、内容を分析したりすることができます。Amazon Rekognitionでは、文書内の画像からテキストを抽出したり、画像内のオブジェクトを検出したりすることができます。Amazon Textractでは、PDFや画像からテキストを抽出したり、テキスト内容を分析したりすることができます。これらのサービスを使うことで、文書から重要な情報を抽出したり、内容を理解したりすることができます。

Amazon Rekognitionを使った文書分析

Amazon Rekognitionを使うと、文書内の画像からテキストを抽出したり、画像内のオブジェクトを検出したりすることができます。Amazon Rekognitionでは、文書内の画像からテキストを抽出する「OCR（Optical Character Recognition）」機能や、画像内のオブジェクトを検出する「Object Detection」機能などが提供されています。

OCR（Optical Character Recognition）

Amazon RekognitionのOCR機能を使うと、文書内の画像からテキストを抽出することができます。OCR機能を使うと、文書内の画像からテキストを抽出し、テキストを利用した分析や検索などを行うことができます。

以下のサンプルコードは、Amazon RekognitionのOCR機能を使って、画像からテキストを抽出する方法を示しています。

// インポート
const AWS = require('aws-sdk');
const rekognition = new AWS.Rekognition();

// 画像のパス
const imagePath = 'sample.jpg';

// OCRを実行
const params = {
  Image: {
    S3Object: {
      Bucket: 'bucket-name',
      Name: imagePath
    }
  }
};
rekognition.detectText(params, (err, data) => {
  if (err) {
    console.log(err);
    return;
  }
  // 結果を出力
  console.log(data);
});

Object Detection

Amazon RekognitionのObject Detection機能を使うと、画像内のオブジェクトを検出することができます。Object Detection機能を使うと、画像内のオブジェクトを検出し、オブジェクトを利用した分析や検索などを行うことができます。

以下のサンプルコードは、Amazon RekognitionのObject Detection機能を使って、画像内のオブジェクトを検出する方法を示しています。

// インポート
const AWS = require('aws-sdk');
const rekognition = new AWS.Rekognition();

// 画像のパス
const imagePath = 'sample.jpg';

// Object Detectionを実行
const params = {
  Image: {
    S3Object: {
      Bucket: 'bucket-name',
      Name: imagePath
    }
  }
};
rekognition.detectObjects(params, (err, data) => {
  if (err) {
    console.log(err);
    return;
  }
  // 結果を出力
  console.log(data);
});

Amazon Textractを使った情報抽出

Amazon Textractを使うと、PDFや画像からテキストを抽出したり、テキスト内容を分析したりすることができます。Amazon Textractでは、PDFや画像からテキストを抽出する「Document Text Detection」機能や、テキスト内容を分析する「Document Analysis」機能などが提供されています。

Document Text Detection

Amazon TextractのDocument Text Detection機能を使うと、PDFや画像からテキストを抽出することができます。Document Text Detection機能を使うと、PDFや画像からテキストを抽出し、テキストを利用した分析や検索などを行うことができます。

以下のサンプルコードは、Amazon TextractのDocument Text Detection機能を使って、PDFや画像からテキストを抽出する方法を示しています。

// インポート
const AWS = require('aws-sdk');
const textract = new AWS.Textract();

// ファイルのパス
const filePath = 'sample.pdf';

// Document Text Detectionを実行
const params = {
  Document: {
    S3Object: {
      Bucket: 'bucket-name',
      Name: filePath
    }
  }
};
textract.detectDocumentText(params, (err, data) => {
  if (err) {
    console.log(err);
    return;
  }
  // 結果を出力
  console.log(data);
});

Document Analysis

Amazon TextractのDocument Analysis機能を使うと、テキスト内容を分析することができます。Document Analysis機能を使うと、テキスト内容を分析し、テキスト内容を利用した分析や検索などを行うことができます。

以下のサンプルコードは、Amazon TextractのDocument Analysis機能を使って、テキスト内容を分析する方法を示しています。

// インポート
const AWS = require('aws-sdk');
const textract = new AWS.Textract();

// ファイルのパス
const filePath = 'sample.pdf';

// Document Analysisを実行
const params = {
  Document: {
    S3Object: {
      Bucket: 'bucket-name',
      Name: filePath
    }
  }
};
textract.analyzeDocument(params, (err, data) => {
  if (err) {
    console.log(err);
    return;
  }
  // 結果を出力
  console.log(data);
});

まとめ

今回は、Amazon RekognitionとAmazon Textractを使って文書分析と情報抽出を行う方法をご紹介しました。Amazon Rekognitionを使うと、文書内の画像からテキストを抽出したり、画像内のオブジェクトを検出したりすることができます。Amazon Textractを使うと、PDFや画像からテキストを抽出したり、テキスト内容を分析したりすることができます。これらのサービスを使うことで、文書から重要な情報を抽出したり、内容を理解したりすることができます。

サーバーレス開発、低コストなAWS開発内製化はお気軽にお問い合わせください。

スモールスタート開発支援、サーバーレス・NoSQLのことなら
ラーゲイトまでご相談ください

低コスト、サーバーレスの
モダナイズ開発をご検討なら

開発をご希望の企業様

下請け対応可能
Sler企業様からの依頼も歓迎

協業をご希望の企業様

目次

Amazon RekognitionとAmazon Textractを使った文書分析と情報抽出の方法

はじめに

Amazon Rekognitionを使った文書分析

OCR（Optical Character Recognition）

Object Detection

Amazon Textractを使った情報抽出

Document Text Detection

Document Analysis

まとめ

開発相談

採用情報

ラーゲイトは、世界の最新技術を追い続ける
プロフェッショナルチームです。

目次

Amazon RekognitionとAmazon Textractを使った文書分析と情報抽出の方法

はじめに

Amazon Rekognitionを使った文書分析

OCR（Optical Character Recognition）

Object Detection

Amazon Textractを使った情報抽出

Document Text Detection

Document Analysis

まとめ

開発相談

採用情報

ラーゲイトは、世界の最新技術を追い続ける プロフェッショナルチームです。

ラーゲイトは、世界の最新技術を追い続ける
プロフェッショナルチームです。