私達は、日々増加していくデータの上で生活を行っています。企業としては顧客の購買データや行動データ、市場のデータなど様々なデータを分析して売上を上げるために活動をしていますが、元となるデータ量は爆発的に増えておりそのデータをビッグデータとして分析する必要性も大きくなり続けています。つまり、データからビジネス価値を生み出すことができる企業は、これからのビジネスにおいて有利に行動する事ができるようになり、高い成果を出すことができるようになるのです。そのために必要なのがデータレイクです。
データレイクとは
データレイクとは、すべての構造化データと非構造化データを一元的に保存可能な情報の格納庫のことです。つまり様々なデータをそのままの状態で格納しておくことができる場所ということです。構造化データというのは、格納される前に定義された構造のデータのことです。データベースの情報やExcelなどでもそうですがデータを操作しやすいように予め格納するデータの定義を行いますよね。例えば日付や住所、電話番号などのイメージです。一方、非構造化データというのは音声や動画、SNSのログ情報などの様々なタイプのデータを含みます。これらをそのままの形式で格納しておくことができます。
まさに、Data Lake(情報の湖)です。
しかし、とりあえず格納しておけるということは無法地帯的にとにかくデータがたくさん格納される場所になってしまうため、データレイク内のデータはどういったときに利用される想定かを把握してから利用することが必要と言えます。
データレイクとデータウェアハウス
近い言葉でデータウェアハウスがあります。この2つは近い意味のようにも思えますが、実は明確に異なります。
データレイクについては、先程延べたような特徴があり、まとめると以下のようになります。
【データレイクの特徴】
- 構造化データと非構造化データが混在している(ローデータ)
- あらゆるデータを格納しておくため、特定の用途のために使われるというものはない
- 格納可能なデータが多様
- データサイエンティストが様々なデータを利用できるために格納されている
【データウェアハウスの特徴】
- 予め定義された構造化データ(処理済みのデータ)
- データ分析のために使われる
- ビジネスサイドの人間(分析家)が使うことが多い
データ分析を行う上では分析しやすい形に加工することが一般的ですが、加工前のデータを利用するケースもあります。
データウェアハウスは、構造化データを保存して分析に使う用途のため、分析して可視化することが得意ですが、情報を集めて格納するという用途には不向きと言えます。その反面、データレイクは様々なデータを格納しておくことができるため企業内の様々なデータを格納しておき、格納された大量のデータから特徴や知見を導き出す事ができるようになります。
データレイクとデータウェアハウスの2つは、自社にとってどちらが適しているのかを把握した上で適切な方を選択肢活用していくことが求められています。
日商エレクトロニクスはIT技術で企業の課題を解消していく「専門家」です。特に商社やIT系の企業の業務や基幹システムに関しての課題や興味がある方は、こちらのページをご覧ください。
日商エレクトロニクスからのお知らせ
■「GRANDIT」ソリューション(商社向け)
https://erp-jirei.jp/grandit
■オンラインセミナーのご案内
GRANDITのオンラインセミナーをほぼ毎月開催しています。興味がある方は以下をご覧ください。
https://erp-jirei.jp/archives/category/seminar
〜以下、プロフィール〜
南波真之(なんばさねゆき)
新卒でWordPressのトップ企業に入社し営業、マーケティング、ディレクションを経験、その後SaaSサービスを開発、提供する会社にてパートナーセールスを行いながらWeb、営業、マーケティング、SaaSなどの情報発信を続けている。