MENU

AWSのデータ分析サービスを利用するメリット|活用する前に注意することも紹介

AWSのデータ分析サービスを利用するメリットとは?


AWSのデータ分析サービスはAmazon S3に蓄積しているデータに対してデータ分析を行いたい場合に親和性高くスピーディーに環境を構築することができます。

新規に環境を整える場合も、Amazon S3の高可用性を享受しつつ、ハードウェア老朽化への対応などインフラ運用から解放され、企業が抱える人的リソースを、顧客獲得や生産性向上に直結するデータ分析に集中させることができます。

AWSでデータ分析をするために必要な基盤


AWSでデータ分析をするためには、AWSが提供するデータウェアハウスの基盤、もしくはデータレイクとデータウェアハウスの両基盤が必要です。

データレイクまたはデータウェアハウスに企業が持つ多様なデータを配置し、そこから必要なデータを抜き取ってデータウェアハウスで処理することでデータ分析を実現します。

データレイクの場合

AWS上にデータレイクを構築するには、Amazon S3が提供しているストレージ基盤が必要になります。

データレイクには電子メールなどの多種多様な非構造化データを保存することができ、データベースとは区別されリポジトリと呼びます。

データウェアハウスの場合

AWS上でデータウェアハウスを利用するには、Amazon S3のストレージサービスを最下層に持ち、中間層と最上層の3つの基盤が必要になります。

中間層にはデータベースなどを持つデータ分析システム、最上層には分析結果をレポートなどに出力するフロントエンドクライアントとなるWebアプリケーションが配置されます。

AWSの主なデータ分析サービスツール3選


Amazon S3の可用性が活かされたデータレイクを基盤に持つことで、自由度の高いデータの分析サービスを利用することができます。

AWSには主に、EMR、Redshift、Athenaの3つの分析サービスツールがあるので比較してみましょう。

1:EMRの場合

EMRとは、ペタバイト規模のデータを分析することができるビックデータ用のクラウドプラットフォームです。

EMRの場合、データ分析はAmazon EC2およびAmazon EKSクラスターによって行われ、Amazon Webサービスの1つである Amazon EMR Studioから管理・運用を行います。

クラスターに属する各ノードのキャパシティのプロビジョニングやクラスター管理など、高難度の運用タスクを自動化できることがEMRの特徴です。

2:Redshiftの場合

Redshiftとは、ペタバイトスケールのデータを扱うことができるデータウェアハウスです。1つ以上のデータベースを持つノードを複数動作させたクラスターによって構成されます。

Redshiftの場合、Amazon Redshift RSQLを使用してデータウェアハウス、データレイク、運用データベース全体に対してクエリを実行します。このクエリ結果をAmazon S3に構成されたデータレイクを介してEMRなど他のAWSサービスによって分析することもできます。

EMRとは異なり、運用する人材にはSQLやデータベースの知識が必要になります。

3:Athenaの場合

Amazon Athenaは、インフラストラクチャを必要とせずにAmazon S3に保管されたデータに対して直接SQLクエリを発行することでデータ分析が行えるデータウェアハウスサービスです。

Athenaの場合、EMRやRedshiftとは異なり、データそのものへの抽出や変換などの処理が不要で、さらにサーバーレスで利用することができます。不定期に単発的な分析をしたい場合に有用です。

AWSによるデータ分析を活用する前に注意すること3つ


AWSは複数のサービスを組み合わせて幅広い分析サービスを提供しています。このため、AWSによるデータ分析を活用するには、どのデータに対して分析を行うのか、分析の目的は何かを明確にし、専門的な知識を持った人が対応する必要があります。

1:データ分析を行う目的を明らかにする

例えば、データ分析の結果をEメールマーケティング推進に活用することが目的なのか、広告費用対効果を増大させることが目的なのかなどデータ分析の目的は明確にしておく必要があります。

Amazon S3、Amazon Kinesis、Amazon Athena、Amazon EMR、AWSGlueを使用してデータレイクを組み立てている事例や、組織全体にAthenaを導入することで、コストを削減し、市場投入までの時間を短縮した企業もあります。

先ずは、導入事例から近い目的のものを見つけて参考にしてみましょう。

2:専門的な知識を持った人材が必要

データ分析によって目標を達成するには、必要なAWSサービスを選定することが重要です。

ハードウェアのメンテナンスや運用はAWSのサービスが管理してくれるため、目的達成のためにどのAWSサービスが適切なのかを選定できる人材の確保に集中することができます。

Athenaで良いのか、RedshiftやEMRの導入も必要なのか、データベースはAWSへ移行した方が良いのか、その他にもシステムの規模や運用コストを見据えたサービス選定ができる人材を確保しましょう。

3:データの適切な処理を行う

オンプレミスのシステムで既に運用されているシステムがある場合、AWS上にサービスを移行しても同じデータにアクセスできるのかについては知っておく必要があります。

既存の予測分析ソフトIBM SPSSが利用できるのは Amazon Redshiftだけであったという事例もあります。

また、オンプレミスで稼働しているPostgreSQLドライバで接続が可能だったことでRedshiftの導入を決めた企業もあります。

オンプレミスで既に扱っているデータに対して、どのようなアプローチで処理が必要なのかをしっかり把握しておく必要がある点には注意が必要です

AWSのデータ分析サービスを活用するには知識のある人材が必要!


AWSのデータ分析サービスを活用するには、AWSが提供するサービス体系のみならずクラウドプラットフォーム全体に対する知識を持つ人材が必要になります。

データ分析の目的に見合った機能をAWSが提供する数多くのサービスから選定しなければいけないので、クラウドプラットフォームの中でも、特にストレージ、データベースやビッグデータの知識に長けた人材が必要でしょう。

先ずはAWSが提供しているスプレッドシートを活用して、オンプレミスのシステムと目指すシステムとのギャップを洗い出し、どのような知識を持つ人材が必要なのかを洗い出してみましょう。