INCUDATA Magazine

データ基盤とは何か？ - 基礎知識から必要とされる理由・構築の流れ・ツールの設定について解説 -

2022年09月05日

データ活用コンサルティングのINCUDATA（インキュデータ） / INCUDATA Magazine / データ基盤とは何か？ - 基礎知識から必要とされる理由・構築の流れ・ツールの設定について解説

近年、ビジネスのあらゆるシーンで、データの活用が求められるようになってきました。また、ビッグデータを分析して活用することで、客観的かつ合理的な経営判断に役立てる会社も増えてきています。

ただ、ビッグデータの分析には表計算ツールなど既存のツールでは不十分で、データ基盤の利用が不可欠です。

そこでこの記事では、データ基盤を理解するための基礎知識やデータ基盤構築に用いるツールの選定ポイントなどについて詳しく解説します。

「使いづらい」「使われない」と言われないデータ基盤構築の勘どころとは？

無料で資料をダウンロードする

データ基盤を理解するための基礎知識

ここでは、データ基盤を理解するための基礎知識として、以下の3つを解説します。

- データ基盤とは
- データ基盤の役割
- データ基盤の形態

それでは、1つずつ解説していきます。

データ基盤とは

基礎知識の1つ目は、データ基盤の意味です。データ基盤とは、データ分析に必要なデータを扱う技術的基盤を意味します。

データ基盤を用いることは、これまでのツールでは取り扱えなかったビッグデータの蓄積・加工・保管が可能になるため、データ活用の最初の一歩といっていいでしょう。

また、近年はAIやIoTなどを用いて、DXを推進させる流れが世界中で起こっています。ここで、DXを推進するには、ビッグデータを分析して活用することが欠かせません。そのため、データ基盤はDX推進にも必要といえるのです。

関連記事：DXの具体的な進め方を7ステップで解説！

データ基盤の役割

基礎知識の2つ目は、データ基盤の役割です。ここでは、以下の3つを解説します。

- 蓄積
- 加工
- 分析

それでは、1つずつ解説していきます。

INCUDATA Magazine_000403_データ基盤とは_図01.png

蓄積

役割の1つ目は、蓄積です。各所に散在しているデータを集約し、データ基盤に蓄積します。データを蓄積する場所を、「データレイク(Data Lake)」と呼びます。

なお、データレイクに蓄積されるのは、後述の「加工」が行われていない生データで、多くの場合そのままでは正確なデータ分析は困難です。

ただ、万が一加工済みのデータを紛失した場合、生データが存在していないと新たにデータを蓄積しなおす必要があり、復元が困難になる場合があります。そのため、データレイクには生データを残しておくのです。

加工

役割の2つ目は、加工です。データレイクにて蓄積したデータを、分析しやすいよう加工します。不正確なデータの削除や単位の統一などが、加工の一例です。

また、加工済みのデータを格納する場所を、「データウェアハウス(Data Warehouse)」と呼びます。データウェアハウスでは、データの加工履歴などが参照可能です。

なお、どのデータをどう加工するかによって、データ分析結果の正確性や有用性は大きく変わります。そのため、データの加工は担当者にとって大きな腕の見せ所といえるでしょう。

分析

役割の3つ目は、分析です。データウェアハウスにて加工したデータを、用途ごとに保管してから分析します。

その際に、データの保管・分析を行う場所を、「データマート(Data Mart)」と呼びます。これにより、必要なデータをすぐ参照できるようにしているのです。

なお、データマートにおいては、用途ごとのデータのみを保管するため、データウェアハウスに格納されるデータよりもサイズが小さくなります。

データ基盤の形態

基礎知識の3つ目は、データ基盤の形態です。データ基盤を構築する形態は、大きく分けて以下の2つに分類されます。

- オンプレミス型
- クラウド型

オンプレミス型

形態の1つ目は、オンプレミス型です。オンプレミス型は、自社で用意したサーバに、データ基盤構築に必要なソフトを導入する方法です。

メリットは、柔軟にカスタマイズしやすいことです。具体的には、すでに自社で導入しているツールとの連携や社内のセキュリティルールを考慮し、柔軟にサーバやソフトの設定を行えます。そのため、既存の社内システムとの親和性を容易に高められます。

デメリットは、導入・運用コストが高くなりがちであることです。導入においては、自社でサーバを用意する必要があるため、サーバ導入に費用や時間がかかります。

また、運用においては、データ基盤運用の専門知識を有する人材を確保する必要がある上に、トラブルが発生した際には自分たちで対応しなければなりません。

クラウド型

形態の2つ目は、クラウド型です。クラウド型のデータ基盤は、クラウドベンダが提供するネットワーク上のサーバと通信しながら、ソフトウェアサービスを利用する方法です。多くの場合、利用には初期費用と月・年ごとの費用がかかります。

メリットは、導入や管理が容易であることです。ネットワーク環境があれば、新たにサーバなどの機器を用意せずとも、導入できます。また、保守運用もベンダが行ってくれるので、保守運用に必要な人員を確保する必要もありません。

さらに、時期ごとに想定される使用量が異なる場合、柔軟に利用プランを見直せることもメリットといえるでしょう。

デメリットは、オンプレミスと比較するとカスタマイズの柔軟性がやや劣ることです。そのため、すでに社内に存在するツールとの連携や、社内システムの運用ルールに合わせた設計がしにくいことに注意しなければなりません。

データ基盤の構築が求められる理由

INCUDATA Magazine_000403_データ基盤とは_画像02.png

ここでは、データ基盤の構築が求められる理由を、以下に3つ表にまとめます。

表1：データ基盤の構築が求められる理由

デジタル化促進

社会全体でデジタル化が促進されており、勘や経験ではなく、データに基づく分析で客観的かつ合理的な判断が重要になってきている。

顧客へのアプローチにも、データが活用される場面が増えている。

ビッグデータ活用技術の進歩

ビッグデータ活用技術の進歩により、さまざまな構造化・非構造化データを大量に蓄積できるプラットフォームサービスが利用できるようになってきている。これにより、ユーザは、運用負荷を抑えながらスピーディーなビッグデータ処理が可能になってきている。

ビジネスへのデータ活用

これまでバラバラに管理されてきた膨大なデータを統合することで、課題の抽出や新たな知見の獲得が期待されている。

これにより、データを活用した新規ビジネスや、顧客体験の創造ができるようになってきている。

そのため、データ活用は、作業効率化だけでなく、需要予測や消費者インサイトを知ることにも役立つと注目されている。

データ基盤構築の流れ

INCUDATA Magazine_000403_データ基盤とは_画像03.jpg

ここでは、データ基盤構築の流れとして、以下の5つを解説します。

- 目的の明確化とゴール設定
- スケジューリング
- 設計
- 開発
- 運用と改善

それでは、1つずつ解説していきます。

目的の明確化とゴール設定

1つ目は、目的の明確化とゴール設定です。

データ基盤の構築は、おおまかにいえばDXを目的にしています。ただ、それでは不十分で、データ基盤を構築してDXを進めることで、どんな目的を果たしたいか明確にすることが必要です。

例えば、守りのDXとして、経理業務の効率化を目的とすることも考えられるでしょう。また、攻めのDXとして、接客の顧客満足度向上を目的として、一層顧客データを活用すべくデータ基盤構築を行うことも考えられます。

これらの目的を明確にしたら、ゴール設定を行いましょう。ゴール設定を行う際に設定すべき指標を、以下に3つまとめます。

表2：ゴール設定時に定めるべき指標

KGI（Key Goal Indicator）	企業における最終的な定量的目標を意味する。KGIを設定する際には、達成可能な目標にすることが重要である。
KSF（Key Success Factor）	KGI達成において、特に重要な要因を意味する。KGIを達成するプロセスを整理した上で、自社の強みや弱みからKSFを設定する。
KPI（Key Performance Indicator）	KSFを設定する際に整理したプロセスにおいて、特に重要なポイントの定量的目標を意味する。KGIを達成するための指標が、KPIである。

以上の指標を用いて設定したゴールで効果検証を行うことで、データ基盤導入の効果を可視化できます。また、社内外で定量的な目標を示すことで、やるべき仕事の明確化や社員のモチベーションアップも期待できるでしょう。

スケジューリング

2つ目は、スケジューリングです。データ基盤構築におけるスケジュールを策定します。その際には、他部署の協力が不可欠です。以下に、スケジューリングで必要な内容を記します。

- WBS（Work Breakdown Structure / 作業構造分解図）などを用いて、データ基盤構築に係るタスクの棚卸しや納期設定を行う
- データ基盤構築業務体制を整備する
- データ基盤の稼働開始時期を設定する
- 担当者へのアサインを行う
- 関係部署に、データ基盤で取り扱うデータやデータ基盤システム、運用体制などに関して意見徴取を行い、取得するデータの受け渡しルールについて合意する

どの業務をどの担当者がいつまでに行うか明確化することが、スケジューリングにおいては肝要です。

設計

3つ目は、設計です。利用目的に合わせて、データ基盤の設計を行います。設計時には、目的やゴールを達成できるよう、まず以下の内容を決定します。

- データ基盤において使用したいデータの種類
- データを収集する場所
- 収集するデータの保管場所
- 保管したデータの分析方法や活用方法

次に、以下の内容について設計を行います。

- 各アプリケーションから、データレイクにデータを集約させる方法
- データウェアハウスとデータベース間の処理方法
- データ基盤の構造、運用方法
- データ分析環境
- データレイクとデータウェアハウスにおける、データ加工用システム（ELT（Extract Load Transformation））の構築

開発

4つ目は、開発です。設計したデータを元に、各種システムやアプリケーションを開発します。具体的には、以下の業務を行います。

- データ基盤構築に用いるツールを比較・選定する
- データレイクとデータウェアハウスを構築する
- ELTを行うツールのプログラムを開発する
- データベースを作成する
- データ基盤のテストを行い、処理速度や正確性を検証する

運用と改善

5つ目は、運用と改善です。開発したデータ基盤を、実際に運用します。運用にあたっては、例えば以下の業務が重要になります。

- データ基盤を使ってもらえるよう、社内への普及活動やサポートを行う
- 保守や運用に関する体制と業務のルールを設定する
- 運用に必要な作業の管理やデータ基盤の監視を行う
- データ基盤にトラブルが発生した際に対応する

データ基盤は一度構築して終わりとは限りません。実際には、これまで想定していなかった形で利用することや、利用拡大に伴い機能を向上させる必要も出てくるでしょう。

また、データ基盤にトラブルが発生することで、データ基盤に何らかの問題が発覚することもあるかもしれません。そのため、データ基盤を改善していくことも必要になります。

データ基盤構築のためのツール選定

ここでは、データ基盤構築に用いるツールの選定ポイントを解説します。以下に2つ、表にまとめました。

表3：データ基盤構築に用いるツールの選定ポイント

ITリテラシーを問わず、データへのアクセスが容易	専門知識を有する一部のユーザしかアクセスできないと、データ分析の属人化を引き起こす恐れがある ITリテラシーを問わず、誰でも使えるツールがおすすめである
各段階において必要なデータ分析を、ワンストップで実施可能	エンジニアからユーザまで、あらゆる部門で異なるデータ分析が必要になるそれぞれで別々のツールを用いると、データ同士の連携がうまくいかない恐れがある