デジタルトランスフォーメーション(DX)の推進に伴い、データ分析基盤をクラウドへ移行する企業が増えています。特にオンプレミス環境で蓄積された膨大なデータを、いかに効率的かつ安全にAWSへ移行するかが課題となります。本記事では、オンプレミス環境のデータをAWSクラウドへ取り込む手法について解説し、効率的かつ安全なデータ分析基盤構築のための考慮点を整理します。
まず、オンプレミス環境のデータをAWSクラウドで分析するメリットについて確認しましょう。大きく2つのメリットが挙げられます。
企業内のデータは、業務システム、Webアプリケーション、ファイルサーバー、工場のセンサーデータなど、様々な場所に分散して存在しているケースが一般的です。これらのデータをAWSクラウドのデータレイクに集約することで、一元的なデータ管理が可能となり、企業全体のデータを横断的に分析できるようになります。
近年、機械学習や深層学習などの高度な分析技術が注目されています。これらの技術を活用するには、従来のオンプレミス環境では、高性能なサーバーやGPUなどの計算リソースの調達、ソフトウェアのインストール、運用保守など、多大な時間とコストが必要となります。AWSクラウドでは、これらの最新技術をサービスとして利用できるため、迅速かつ低コストで高度な分析基盤を構築できます。
オンプレミス環境からデータをAWSクラウドへ移行するには、まず現状のオンプレミス環境を詳細に把握することが重要です。オンプレミス環境は企業ごとに構築されているため、システム構成、運用方法、セキュリティ対策などが大きく異なります。適切なデータ移行方法を選択し、移行後のAWS環境を設計するには、現状を正しく把握することが不可欠です。
オンプレミス環境の調査における重要なポイントは次の3点です。
調査ポイント | 説明 |
---|---|
データ特性の把握 – サイズ | データベースの全体サイズ、日々の更新データサイズを把握する。特に巨大なデータの場合、効率的なデータ転送方法の検討が重要となります。 |
データ特性の把握 – 更新方法 | データベースの更新パターンを把握する。一括置換、追記のみ、更新・削除の有無などを確認し、適切なデータ転送方法とAWSサービスを選択する必要があります。 |
ネットワーク環境の把握 | ネットワーク帯域、利用可能な時間帯、セキュリティ要件などを確認する。データ転送速度や可用性、セキュリティレベルに影響を与えるため、ネットワーク環境の制約を考慮したデータ移行計画を立てる必要があります。 |
前述した3つのポイントを踏まえ、オンプレミス環境のデータソース別に、AWSクラウドへのデータ取り込み手法について具体的な例を挙げて考えていきましょう。
Webアプリケーションログは、ユーザーの行動履歴などを記録したデータであり、アクセス状況やユーザー行動の分析に役立ちます。Webアプリケーションログは、一般的にファイルサーバーに保存され、更新頻度が高く、データ量も大きくなる傾向があります。
データ特性の把握 – サイズ | ログデータはサービスの利用状況に応じて増加するため、大容量になりがちです。効率的にデータを転送するため、ファイルサイズを考慮する必要があります。 |
データ特性の把握 – 更新方法 | ログデータは追記のみで更新されるため、比較的シンプルなデータ転送が可能です。 |
ネットワーク環境の把握 | ログデータはリアルタイムに転送される場合が多いため、ネットワーク帯域や利用可能な時間帯などを考慮する必要があります。 |
データ転送手法としては、オープンソースのログ収集ツールであるFluentdやFluent Bitを使用し、AWSのログ収集サービスであるAmazon Kinesis Data Firehoseなどを経由して、データレイクにデータを蓄積する方法が一般的です。
工場では、製造ラインのセンサーデータなど、IoTデバイスから生成されるデータが大量に蓄積されます。これらのデータは、リアルタイム性が求められる場合もあれば、一定期間保存しておく必要がある場合もあります。
データ特性の把握 – サイズ | センサーデータは、データサイズが小さく、頻繁に生成されるため、データ転送方法と蓄積方法を慎重に検討する必要があります。 |
データ特性の把握 – 更新方法 | センサーデータは、追記のみで更新されることが一般的です。 |
ネットワーク環境の把握 | 工場内のネットワーク環境は、安定性に課題がある場合や、AWSクラウドとの接続が制限されている場合もあります。 |
データ転送手法としては、AWS IoT CoreなどのMQTTブローカーサービスを使用して、センサーデータをバッファリングし、安定したネットワーク接続が確保できるタイミングでAWSクラウドへ転送する方法が有効です。また、AWS Greengrassを利用することで、エッジ側でデータ処理を行い、必要なデータのみをクラウドへ転送することも可能です。
ファイルサーバーには、様々な種類のファイルが保存されており、更新頻度やファイルサイズも多岐にわたります。そのため、ファイルサーバーからデータをAWSクラウドへ移行する際には、個々のファイルの特性に合わせて適切な方法を選択する必要があります。
データ特性の把握 – サイズ | ファイルサイズは、数キロバイトから数十メガバイトまで、ファイルの種類によって大きく異なります。 |
データ特性の把握 – 更新方法 | 更新頻度はファイルの種類によって異なり、マスターテーブルのように更新頻度が低いファイルや、日報のように定期的に更新されるファイルなど、様々なパターンが存在します。 |
ネットワーク環境の把握 | ファイルサーバーが設置されているネットワーク環境とAWSクラウド間のネットワーク帯域や利用可能な時間帯などを考慮する必要があります。 |
データ転送手法としては、以下の方法が考えられます。
業務システムのデータベース(RDB)は、企業の基幹業務データを管理する重要なシステムであり、データの整合性やセキュリティ確保が求められます。
データ特性の把握 – サイズ | RDBのデータサイズは、業務システムの規模やデータの種類によって大きく異なります。 |
データ特性の把握 – 更新方法 | 更新頻度は、マスターテーブルのように更新頻度が低いテーブルや、トランザクションログのように頻繁に更新されるテーブルなど、様々なパターンが存在します。 |
ネットワーク環境の把握 | RDBが稼働しているネットワーク環境とAWSクラウド間のネットワーク帯域、利用可能な時間帯、セキュリティ要件などを考慮する必要があります。 |
データ転送手法としては、以下の方法が考えられます。
オンプレミス環境から抽出したデータは、データレイクに蓄積し、分析に利用します。
データレイクとは、様々な形式のデータをそのままの状態で保存できるデータストアであり、AWSではAmazon S3が一般的に利用されます。
データレイクにデータを蓄積する際には、以下の2つの方法があります。
特定の時点におけるデータベース全体のスナップショットを保存する方法です。データの履歴を保持する必要がない場合や、データサイズが比較的小さい場合に適しています。
データの更新情報を時系列で保存する方法です。データの履歴を保持する必要がある場合や、データサイズが大きい場合に有効です。
どちらの方法でデータを蓄積するかは、データの特性や分析要件によって異なります。例えば、マスターテーブルのように更新頻度が低く、最新の状態のみを分析に利用するデータは、断面データとして保存すれば十分です。一方、トランザクションログのように更新頻度が高く、データの履歴を分析に活用したい場合は、追記型データとして保存する必要があります。
本記事では、オンプレミス環境のデータをAWSクラウドへ取り込む手法について、具体的な例を挙げながら解説しました。
AWSクラウドには、様々なデータ移行および分析サービスが用意されています。これらのサービスを適切に組み合わせることで、オンプレミス環境のデータを効率的かつ安全にAWSクラウドへ移行し、データ分析基盤を構築することができます。
AWSモダナイズ・スモールスタート開発支援、基幹業務システムのUI.UX刷新はお気軽にお問い合わせください。
スモールスタート開発支援、サーバーレス・NoSQLのことなら
ラーゲイトまでご相談ください
低コスト、サーバーレスの
モダナイズ開発をご検討なら
下請け対応可能
Sler企業様からの依頼も歓迎