INCUDATA Magazine_000575_データレイクとデータウェアハウスの違いを比較!使い分ける方法や導入のポイントも解説

データレイクとデータウェアハウスの違いを比較!使い分ける方法や導入のポイントも解説 -

目次

データをビジネスに役立てるには、データ分析や業務活用、さらには管理・運用の3つの観点によるデータ基盤の設計が必要になります。データ管理の構造としてよく利用されるのが、データレイクとデータウェアハウスです。
本記事では、データレイクとデータウェアハウスとの違いや使い分け方を解説します。

データレイクとデータウェアハウスの意味

MZ_000575_データレイクとデータウェアハウスの違いを比較!使い分ける方法や導入のポイントも解説_データレイクとデータウェアハウスの意味.png

ここでは、データレイクとデータウェアハウスの意味として、以下の2つを解説します。

    • データレイク
    • データウェアハウス

それでは、1つずつ解説します。

関連記事:データ基盤とは何か? - 基礎知識から必要とされる理由・構築の流れ・ツールの設定について解説

データレイク

データレイクとは、あらゆる規模の企業が、構造化・非構造化データを統合保存できるリポジトリです。データレイクでは、データを処理せずそのまま保存できるため、事前の構造化が必要ありません。また、さまざまな分析手法で可視化やビッグデータ処理、リアルタイム分析、機械学習などを実行させることで、的確な意思決定に活用できます。

データウェアハウス

データウェアハウス(DWH:Data Ware House)は、直訳すると「データの倉庫」です。統合された時系列データで、蓄積しているデータの削除・更新がないデータの集合体といえます。企業は、会計管理や在庫管理、顧客管理などでシステムを導入して、データを管理しています。しかし、これらのシステムは別々のデータ体系で構築されているため、このままではまとめて分析することは容易ではありません。しかし、データウェアハウスでは基幹システムを含むデータソースからデータを収集・格納し、データ分析・意思決定を行いやすい環境を構築します

データレイクとデータウェアハウスの違いを比較

MZ_000575_01.jpeg

ここでは、データレイクとデータウェアハウスの違いとして、以下の4つを解説します。

    • データ構造
    • 目的
    • 主たるユーザ
    • アクセス時の強み

それでは、1つずつ解説します。

データ構造

データレイクでは、処理が行われていないデータ(ローデータ)を主に格納するため、柔軟性がある反面データ容量が大きくなりがちです。また、データガバナンスを適切に行わないと、どこにどのデータがあるか把握できなくなる可能性があります。一方、データウェアハウスは、処理済みでかつ分析に必要な最低限のデータのみ保存することが一般的です。そのため、ストレージ容量を抑えられる上、出力されるデータも専門知識がなくともわかりやすいものになります。

関連記事:非構造化データとは? - 定義から構造化データとの違い・活用における課題などについて解説

目的

データレイク内では、個々のデータにおいて目的は固定されていません。そのため、現時点では明確な保管目的がないものの将来利用する可能性があるデータを保存しておく場合にも有効です。特に、近年は変化が激しい社会情勢に伴い、当初不要と思われていたデータが必要になるケースも増えてきたため、データレイクの注目度が増してきました。一方、データウェアハウスはデータレイクよりも、厳密に構造化やフィルタリングを行います。データウェアハウスでは、特定の目的に特化したデータの保存が一般的です。

主たるユーザー

データレイクは未処理の非構造化データを取り扱います。そのため、一般のユーザには扱いづらく、データサイエンティストが扱うか、別途データ変換用の専門ツールを用いて読み解くことが一般的です。一方、データウェアハウスは、処理済みのデータを取り扱い、チャートやテーブルなどでデータが可視化されます。そのため、データ分析に詳しくないユーザでも扱うケースがあります。

アクセス時の強み

データレイクは処理されていないデータを取り扱うため、データのアクセスや変更が容易で、制限もほとんどないため柔軟な変更にも適応可能です。また、目的に合わせて処理できることも強みと言えるでしょう。一方、データウェアハウスはすでに処理されているデータを取り扱うため、データ処理や解読はこちらの方が優れています。

データレイクとデータウェアハウスの使い分け方

MZ_000575_02.jpeg

ここでは、データレイクとデータウェアハウスの使い分け方として、以下の2つを解説します。

    • データレイクが向いている業界の例
    • データウェアハウスが向いている業界の例

それでは、1つずつ解説します。

データレイクが向いている業界の例

データレイクが向いている業界の例は、教育、医療、輸送などです。これらの分野では、非構造データを多く扱うため、データ加工を最小限に留められるデータレイクが適しています。

例えば、教育分野では成績や出席状況に関する非構造化データが多いため、ビッグデータ活用にはデータレイクが向いています。また、医療業界では非構造化データが多い上、知見もアップデートされていき、今まで必要と思われていなかったデータが必要になることもあるかもしれません。そのため、現状のデータを容易に保存できるデータレイクが推奨されます。輸送業界においては、データの柔軟な活用が求められるため、データレイクの予測機能が大きなメリットをもたらすでしょう。

関連記事:ビッグデータを自社サービスに活用!扱うデータの種類や分析ポイントなどとともに解説

データウェアハウスが向いている業界の例

データウェアハウスが向いている業界の例には、金融業界があります。金融業界では、専門性の高いデータを組織全体で共有することが必要です。また、金融市場の情勢は刻一刻と変化します。その変化に対応していくには、即座にデータを確認・分析できる体制が欠かせません。以上より、処理済みで整備された状態のデータを格納でき、容易に確認できるデータウェアハウスが適しています。

データレイクやデータウェアハウスを導入するポイント

MZ_000575_03.jpeg

ここでは、データレイクやデータウェアハウスを導入するポイントとして、以下の3つを解説します。

    • 導入ゴールから逆算したプロダクト選定
    • 互換性や柔軟性を事前に確認
    • 外部リソースの活用

それでは、1つずつ解説します。

導入ゴールから逆算したプロダクト選定

まずはデータレイクやデータウェアハウスデータレイクの導入目的を明確にし、その目的に合致した構成を検討しましょう。例えば、機械学習やAIでモデルを構築し、需要予測や異常検知をビジネス戦略立案に役立てることを目的に、データレイクを導入したいとします。すると、データレイクはデータウェアハウスにデータを共有することに加え、以下ような特定のポイントも満たすプロダクトを選びたいところです。

データ探索時にデータ破損のリスクがない
機械学習ライブラリが豊富な言語(PythonやRなど)に対し、拡張性がある

互換性や柔軟性を事前に確認

データレイクやデータウェアハウスを選定する際には、既存データベース等と互換性があるか確認しましょう。既存データベースとの相性がよければ、データの受け渡しや書き出しをスムーズにできるため、操作時にストレスを軽減できます。また、データレイクやデータウェアハウスに柔軟性があれば、PoC(導入前検証)のように小規模に始めたい場合や、ビッグデータを扱う場合でも柔軟に対応できるでしょう。AzureやAWSなどのクラウド型ツールであれば、利用分の料金のみ支払うことが通常なので、その点では柔軟と言えます。

関連記事:PoC(Proof of Concept, 概念検証)の進め方を解説!

外部リソースの活用

データレイクやデータウェアハウスの導入を早く確実に実施したい場合は、外部リソースの活用も視野に入れましょう。自社だけで進めると、要件定義やツール選定に時間がかかり、導入までに時間を要するかもしれません。しかし、経験豊富な外部リソースを活用することで、効率的に導入が進めることが可能です。

まとめ

MZ_000575_04.jpeg

本記事では、データレイクとデータウェアハウスとの違いや使い分け方を解説しました。データレイクは、処理していないデータをそのまま保存できる反面、データ容量が大きくなりがちです。一方データウェアハウスは、処理したデータを保存することが前提であるため、データ容量を抑えられます。そのため、教育・医療・輸送など、非構造データの取り扱いが多いケースではデータレイクが、金融業界など構造データの取り扱いが多いケースではデータウェアハウスが向いているでしょう。

また、両者とも導入前に導入目的を明確にし、互換性や柔軟性も確認しておくと、自社に最適なプロダクトを選択できるはずです。併せて、早く確実にデータレイクとデータウェアハウスのデータ基盤を構築したい場合は、外部リソースの活用も視野に入れましょう。

CONTACT お問い合わせ

弊社のサービスに関するお問い合わせや、取材・メディア掲載についてはこちら。

弊社のプロダクト・サービスに関する資料、各種調査結果、ホワイトペーパーなどを無料公開。