オンプレミス上のデータをAWSクラウドの分析基盤に取り込む手法の整理!AWSでデータ分析の基盤構築のススメ😎

オンプレミス上のデータをAWSクラウドの分析基盤に取り込む手法の整理!AWSでデータ分析の基盤構築のススメ😎

デジタルトランスフォーメーション(DX)の推進に伴い、データ分析基盤をクラウドへ移行する企業が増えています。特にオンプレミス環境で蓄積された膨大なデータを、いかに効率的かつ安全にAWSへ移行するかが課題となります。本記事では、オンプレミス環境のデータをAWSクラウドへ取り込む手法について解説し、効率的かつ安全なデータ分析基盤構築のための考慮点を整理します。

なぜAWSで分析基盤を構築するのか

まず、オンプレミス環境のデータをAWSクラウドで分析するメリットについて確認しましょう。大きく2つのメリットが挙げられます。

セキュアにデータ統合による分析効率の向上

企業内のデータは、業務システム、Webアプリケーション、ファイルサーバー、工場のセンサーデータなど、様々な場所に分散して存在しているケースが一般的です。これらのデータをAWSクラウドのデータレイクに集約することで、一元的なデータ管理が可能となり、企業全体のデータを横断的に分析できるようになります。

AWS上で最新技術を使用してデータ活用

近年、機械学習や深層学習などの高度な分析技術が注目されています。これらの技術を活用するには、従来のオンプレミス環境では、高性能なサーバーやGPUなどの計算リソースの調達、ソフトウェアのインストール、運用保守など、多大な時間とコストが必要となります。AWSクラウドでは、これらの最新技術をサービスとして利用できるため、迅速かつ低コストで高度な分析基盤を構築できます。

オンプレミス環境の把握の重要性

オンプレミス環境からデータをAWSクラウドへ移行するには、まず現状のオンプレミス環境を詳細に把握することが重要です。オンプレミス環境は企業ごとに構築されているため、システム構成、運用方法、セキュリティ対策などが大きく異なります。適切なデータ移行方法を選択し、移行後のAWS環境を設計するには、現状を正しく把握することが不可欠です。

オンプレミス環境の調査における重要なポイントは次の3点です。

調査ポイント説明
データ特性の把握 – サイズデータベースの全体サイズ、日々の更新データサイズを把握する。特に巨大なデータの場合、効率的なデータ転送方法の検討が重要となります。
データ特性の把握 – 更新方法データベースの更新パターンを把握する。一括置換、追記のみ、更新・削除の有無などを確認し、適切なデータ転送方法とAWSサービスを選択する必要があります。
ネットワーク環境の把握ネットワーク帯域、利用可能な時間帯、セキュリティ要件などを確認する。データ転送速度や可用性、セキュリティレベルに影響を与えるため、ネットワーク環境の制約を考慮したデータ移行計画を立てる必要があります。

環境別データ取得の手法

前述した3つのポイントを踏まえ、オンプレミス環境のデータソース別に、AWSクラウドへのデータ取り込み手法について具体的な例を挙げて考えていきましょう。

Web アプリケーションログ

Webアプリケーションログは、ユーザーの行動履歴などを記録したデータであり、アクセス状況やユーザー行動の分析に役立ちます。Webアプリケーションログは、一般的にファイルサーバーに保存され、更新頻度が高く、データ量も大きくなる傾向があります。

データ特性の把握 – サイズログデータはサービスの利用状況に応じて増加するため、大容量になりがちです。効率的にデータを転送するため、ファイルサイズを考慮する必要があります。
データ特性の把握 – 更新方法ログデータは追記のみで更新されるため、比較的シンプルなデータ転送が可能です。
ネットワーク環境の把握ログデータはリアルタイムに転送される場合が多いため、ネットワーク帯域や利用可能な時間帯などを考慮する必要があります。

データ転送手法としては、オープンソースのログ収集ツールであるFluentdやFluent Bitを使用し、AWSのログ収集サービスであるAmazon Kinesis Data Firehoseなどを経由して、データレイクにデータを蓄積する方法が一般的です。

工場データ

工場では、製造ラインのセンサーデータなど、IoTデバイスから生成されるデータが大量に蓄積されます。これらのデータは、リアルタイム性が求められる場合もあれば、一定期間保存しておく必要がある場合もあります。

データ特性の把握 – サイズセンサーデータは、データサイズが小さく、頻繁に生成されるため、データ転送方法と蓄積方法を慎重に検討する必要があります。
データ特性の把握 – 更新方法センサーデータは、追記のみで更新されることが一般的です。
ネットワーク環境の把握工場内のネットワーク環境は、安定性に課題がある場合や、AWSクラウドとの接続が制限されている場合もあります。

データ転送手法としては、AWS IoT CoreなどのMQTTブローカーサービスを使用して、センサーデータをバッファリングし、安定したネットワーク接続が確保できるタイミングでAWSクラウドへ転送する方法が有効です。また、AWS Greengrassを利用することで、エッジ側でデータ処理を行い、必要なデータのみをクラウドへ転送することも可能です。

ファイルサーバー

ファイルサーバーには、様々な種類のファイルが保存されており、更新頻度やファイルサイズも多岐にわたります。そのため、ファイルサーバーからデータをAWSクラウドへ移行する際には、個々のファイルの特性に合わせて適切な方法を選択する必要があります。

データ特性の把握 – サイズファイルサイズは、数キロバイトから数十メガバイトまで、ファイルの種類によって大きく異なります。
データ特性の把握 – 更新方法更新頻度はファイルの種類によって異なり、マスターテーブルのように更新頻度が低いファイルや、日報のように定期的に更新されるファイルなど、様々なパターンが存在します。
ネットワーク環境の把握ファイルサーバーが設置されているネットワーク環境とAWSクラウド間のネットワーク帯域や利用可能な時間帯などを考慮する必要があります。

データ転送手法としては、以下の方法が考えられます。

  • Amazon S3 Syncコマンド: ローカルのファイルサーバーとAmazon S3間の同期を行うコマンドです。更新されたファイルのみを転送できるため、効率的なデータ転送が可能です。
  • AWS DataSync: オンプレミス環境のファイルサーバーとAmazon S3間で、高速かつ安全なデータ転送を実現するサービスです。
  • AWS Transfer Family: SFTP、FTPS、FTPなどのプロトコルを使用して、ファイルサーバーからAmazon S3へデータを転送するサービスです。

業務システム(RDB)

業務システムのデータベース(RDB)は、企業の基幹業務データを管理する重要なシステムであり、データの整合性やセキュリティ確保が求められます。

データ特性の把握 – サイズRDBのデータサイズは、業務システムの規模やデータの種類によって大きく異なります。
データ特性の把握 – 更新方法更新頻度は、マスターテーブルのように更新頻度が低いテーブルや、トランザクションログのように頻繁に更新されるテーブルなど、様々なパターンが存在します。
ネットワーク環境の把握RDBが稼働しているネットワーク環境とAWSクラウド間のネットワーク帯域、利用可能な時間帯、セキュリティ要件などを考慮する必要があります。

データ転送手法としては、以下の方法が考えられます。

  • マスターテーブルの転送: マスターテーブルのように更新頻度が低いテーブルは、定期的にデータベース全体をエクスポートし、Amazon S3へ転送する方法が有効です。
  • 追記のみのデータ転送: トランザクションログのように追記のみで更新されるテーブルは、ログ収集ツールやAWS Database Migration Service(DMS)のCDC機能を使用して、更新データをリアルタイムにAWSクラウドへ転送する方法が考えられます。
  • レプリケーション: Amazon RDSなどのマネージドデータベースサービスを利用し、オンプレミス環境のRDBをレプリケーションする方法です。リアルタイムにデータ同期を行うことができ、データ分析基盤だけでなく、災害対策やシステム移行にも活用できます。

抽出したデータを蓄積する方法

オンプレミス環境から抽出したデータは、データレイクに蓄積し、分析に利用します。

データレイクとは、様々な形式のデータをそのままの状態で保存できるデータストアであり、AWSではAmazon S3が一般的に利用されます。

データレイクにデータを蓄積する際には、以下の2つの方法があります。

断面データ(スナップショット)

特定の時点におけるデータベース全体のスナップショットを保存する方法です。データの履歴を保持する必要がない場合や、データサイズが比較的小さい場合に適しています。

追記型データ(トランザクションログ)

データの更新情報を時系列で保存する方法です。データの履歴を保持する必要がある場合や、データサイズが大きい場合に有効です。

どちらの方法でデータを蓄積するのか?

どちらの方法でデータを蓄積するかは、データの特性や分析要件によって異なります。例えば、マスターテーブルのように更新頻度が低く、最新の状態のみを分析に利用するデータは、断面データとして保存すれば十分です。一方、トランザクションログのように更新頻度が高く、データの履歴を分析に活用したい場合は、追記型データとして保存する必要があります。

まとめ

本記事では、オンプレミス環境のデータをAWSクラウドへ取り込む手法について、具体的な例を挙げながら解説しました。

  • オンプレミス環境からデータをAWSクラウドへ移行する際は、データサイズ、更新方法、ネットワーク環境などを考慮し、最適な方法を選択することが重要です。
  • データの蓄積方法として、断面データと追記型データの2つの方法があり、データの特性や分析要件に応じて使い分ける必要があります。

AWSクラウドには、様々なデータ移行および分析サービスが用意されています。これらのサービスを適切に組み合わせることで、オンプレミス環境のデータを効率的かつ安全にAWSクラウドへ移行し、データ分析基盤を構築することができます。

AWSモダナイズ・スモールスタート開発支援基幹業務システムのUI.UX刷新はお気軽にお問い合わせください。