こちらの記事では、コンサルでもない一般会社員のさきやんが企業内のDX推進に必須と言っても過言ではない「BIツール」について改めて概要やポイントなどご紹介させていただきます!
どーも、さきやんです!ご覧いただきありがとうございます。
こちらの記事では「BIツール(ビジネスインテリジェンス)に興味・関心」がある方だと思っています。
今回はそんな方に向けて、さきやんが5年以上DX推進するために試行錯誤を繰り返して対応してきた知識・ノウハウを中心に(浅めですが)改めて網羅的にBIツールとは何か?についてご紹介させていただいます。
こちらの記事は以下のような人におススメだと思います!
- いまさら会社では聞けないがBIツールが何か知りたい
- BIツールを会社で利用していきたいが何かわからない
- 浅くていいのでBIツールの全体的な概要を知りたい
- 少しでもBIツールのインプットを増やしたい
是非何らかのご活用をいただけたら嬉しいです。それではどうぞご覧ください!
はじめに、今回の記事でお伝えしたいことを1枚にまとめました。
この1枚に全力を注ぎました!さきやん自身も改めて頭の整理をすることによりとても有益でした!
こちらがBIツールのすべてと言っても大きな齟齬はないと思います(細かいところの網羅性は足りていませんが、浅めでもよければ全体がまとまっていると思います)。
BIツール(ビジネス・インテリジェンス・ツール)とは、ビジネスインテリジェンスに用いられる道具(ツール)の総称です。
ビジネスインテリジェンスとはビジネスに関するインテリジェンス、すなわち事業上の意思決定に用いられる知見およびそのためのデータ収集・分析・配布を意味する。BIツールはこのビジネスインテリジェンスを支える道具の総称である。ExcelなどもBIツールとして用いられる。データ整形、クロス集計などの操作をより効率的に行え、判断へ至る分析および資料作成の労力を大きく低減させることを唄った製品も多い。ツールを用いた系統だった解析によりリアルタイムの情報収集・分析・経営判断が可能になる。
出典:Wikipedia
BIツールと言っても、一連のデータ活用プロセス(収集⇒蓄積⇒分析⇒可視化⇒活用)の中で幅広い領域をカバーしており、様々なベンダーや製品が提供されています。
次章からシンプルに用語の説明などを中心に整理させていただきます。
エンタープライズBIとは、従来のBIツールのことを指しており、OLAPやデータマイニング、レポーティングなどを1つに統合したツールです。
データをリアルタイムに把握・分析できますが、ダッシュボードのメンテナンスなどは社内のIT部門(専門家)などへの依頼が必要になり時間がかかります。
エンタープライズBIの課題は以下が挙げられます。
既存のBIツールで運用の主体となっているのは、情報システム部門です。定期的なレポートを作成したり、グラフィカルなダッシュボードを提供したり、といった作業が情報システム部門の専門家の手で行われています。業務部門に所属する現場の人間が、直接分析を実行することはありません。
ここで課題となるのが、レポートやダッシュボードの分析用データの運用です。レポートやダッシュボードでは、素早く提供するため使用するデータが固定されています。現場で必要となったデータが含まれていないことがあり、「データの正確性を重視すると意思決定が遅れる」「スピードを重視すると不完全なデータで意思決定を行わなければならない」といった相反するケースも生じています。
また企業によっては、業務部門の担当者が個別に要求した内容のデータ分析を、情報システム部門が行っています。しかし、このようなリクエストが増加してくると分析結果を得るまでに時間がかかるようになってしまいます。
出典:ITトレンド
セルフサービスBIとは、最近DX推進する際に話題に挙がるBIツールのことを指していると思っていただいて大丈夫です。
従来のBIツールと異なり、1つのツールの中で「専門家ではない社員」主導でデータの分析・可視化を完結させます。
スピードや柔軟性が重視され、ダッシュボードのプロトタイプ作成も社員で行い、意思決定に活用していきます。
セルフサービス型のBIツールは、経営者など意思決定を行う社員自身がデータアナリストととなり、システムを操作して収集・分析・報告資料作成まで、他人の手を介さず自分自身で行えるアプリケーションソフトウェアである。これを用いて、企業内のシステムで生成されたデータを、社員自身が抽出・加工・分析する。分析されたデータは企業の意思決定に利用される。
出典:Wikipedia
会社内の会話でBIツールという言葉が話題挙がった場合、ほぼ「セルフサービスBI」のことを指していると思います。完全にとは言い切れませんが、ETLであればTalendなどの製品名、DWHであればRedshiftなどの製品名で会話が行われるケースが多いと思います。
データレイクとは、データを一元的に格納するデータリポジトリで、構造化データだけでなく、半構造化・非構造化データも格納される。
データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。
適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される
出典:Wikipedia
ETLとは、Extract/Transform/Loadの略称で、様々なデータベースやシステムからデータを抽出し、利用しやすいフォーマットに変換して、DWH(データウェアハウス)に出力する一連のプロセスです。
Extract/Transform/Load(略称:ETL)とは、以下のようなデータフローを指す。
Extract – 情報源からデータを抽出
出典:Wikipedia
Transform – 抽出したデータをビジネスでの必要に応じて変換・加工
Load – 変換・加工済みのデータをターゲットシステムやファイルとしてロード
DWH(データウェアハウス)とは、「データの倉庫」であり、時系列に整理された大量の統合業務データか、その管理システムのことを指しています。
データレイクハウスとは、データレイクの柔軟性、経済性、スケーラビリティとデータウェアハウスのデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャで、あらゆるデータにおけるビジネスインテリジェンス(BI)と機械学習(ML)を可能にします。
出典:Wikipedia
補足として、データマートは特定の目的に合わせて作成されるため、必要なデータ項目も限られるので構築しやすいです。
データ量が少ないことからDWHに比べると分析する際の性能面でも高いレスポンスが期待でき、以下のような特徴があります。
- データマートはルーチンワークで利用するのには適している
- 新しい仮説・分析を行う場合にはあまり適していない
- データの項目追加を行うケースが頻発する場合はメンテナンス工数が多くかかる
データレイクハウスとは、データレイクとデータウェアハウスの特徴や機能を取り入れたオープンで新たなデータ管理アーキテクチャです。
データレイクハウスとは、データレイクの柔軟性、経済性、スケーラビリティとデータウェアハウスのデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャで、あらゆるデータにおけるビジネスインテリジェンス(BI)と機械学習(ML)を可能にします。
出典:databricks
「セルフサービスBIで利用するデータ」を管理するとても重要なアーキテクチャや機能ですね
スプレッドシートとは、「エクセル」のような表計算ソフトという表現で伝わらないビジネスパーソンはいないですね。
ExcelやGoogle スプレッドシートを使っての表計算、抽出、グラフや表の作成。表計算ソフト(スプレッドシート)は、数値データの集計・分析に用いられるアプリケーションソフトウェアである。
画面上では集計用紙のように並んだ格子状のマス目(セル)が表示される。このセル毎にデータを入れることで表を作成することができるのが表計算ソフトの第一の特徴である。見た目をよくするためには罫線としてセルに枠線を付けることができる。
出典:Wikipedia
OLAP(オンライン分析処理)の説明は以下の通りです。
OLAP(オーラップ)は、複雑で分析的な問い合わせに素早く回答を行う方法。ビジネスインテリジェンスと呼ばれるより大きなカテゴリに属している。 OLAPの典型的な用途は売上報告、市場分析、経営報告、ビジネス業績管理(BPM)、予算作成、計画作成、財務諸表作成などである。OnLine Analytical Processingの頭文字を略した語であり、日本語ではオンライン分析処理もしくは多次元分析とも呼ばれる。
OLAPの主な特徴は以下の点にある。
・(関係モデルではなく)多次元データモデルを操作すること
出典:Wikipedia
・ 複雑、分析的でその場に応じた問い合わせを行えること
・ 非常に高速(通常は5秒以内に結果を返す)であること
OLAPの「実装方式」には以下表の3種類があります。
MOLAP | MOLAPとは、Multi dimensional OLAPのことで、データベースのデータをバッチ処理※であらかじめ計算しておき、集計値データを多次元データベース(キューブ)として格納しておく方式を取ります。このためユーザーの操作に対する結果のレスポンスが早いのはメリットですが、あらかじめ計算しておくためリアルタイム性が劣る点がデメリットです。また、活用には多次元データベースの知識が求められます。 |
ROLAP | ROLAPとは、Relational OLAPのことで、リレーショナルデータベースに格納されたデータからユーザーの操作要求のたびに検索・集計して、結果を擬似的な多次元データベース(キューブ)として参照・利用する方式を取ります。都度、検索・集計を行うためMOLAPに比べるとレスポンスは劣りますが、リアルタイムにデータを分析でき、従来からあるリレーショナルデータベースの知識だけで活用できます。 |
HOLAP | HOLAPとは、Hybrid OLAPのことでMOLAPとROLAPの両方の特徴を備えた方式です。元データはリレーショナルデータベースに、集計値データは多次元データベースに保持されます。集計値データのみが必要となる要求にはスピーディにレスポンスでき、元データが必要となる要求にも最新のデータを元にした回答を返すことができます。 |
OLAPの「解析手法」には以下表の3種類があります。
スライシング | 多次元データベース(キューブ)をある断面で切り取り、二次元の表の形式にして解析する手法です。 |
ダイシング | 多次元データベース(キューブ)をサイコロのように転がすイメージで、縦軸と横軸を自由に指定し観点を切り替えて解析する手法です。 |
ドリル | ドリルには、ドリルダウンとドリルスルーがあります。 ドリルダウンは、集計結果を掘り下げる解析手法です。集計結果の内訳を細かくみていきます。 ドリルスルーは、ドリルダウンと似ていますが集計結果ではなく元データの内訳を参照する点で異なります。 |
実装方法は正直漠然としか理解できませんがww 解析手法のドリルダウンとかはBIツールを使っていると良く聞きますね。
さきやんも会社ではTableauを利用していますが、BIツールを使えば簡単に多次元分析を行えるということです。
データマイニングの概要と定義は以下の通り。
データマイニング(英語: data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである。DMと略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)な知識獲得が可能であるという期待を含意していることが多い。とくにテキストを対象とするものをテキストマイニング、そのなかでもウェブページを対象にしたものをウェブマイニングと呼ぶ。英語では”data mining”の語の直接の起源となった研究分野であるknowledge-discovery in databases(データベースからの知識発見)の頭文字をとってKDDとも呼ばれる。
出典:Wikipedia
データマイニングの定義としては、「明示されておらず今まで知られていなかったが、役立つ可能性があり、かつ、自明でない情報をデータから抽出すること」、「データの巨大集合やデータベースから有用な情報を抽出する技術体系」などがある。 データマイニングは、通常はデータの解析に関する用語として用いられるが、人工知能という用語などと同様、包括的な用語であり、様々な文脈において多様な意味で用いられる。
出典:Wikipedia
具体的な解析手法としては以下の通りです。
解析手法 | 解説 | 代表的な手法例 |
---|---|---|
頻出パターン抽出 | データ集合の中から,高頻度で発生する特徴的なパターンを見つける。 | 相関ルール抽出、その他の頻出パターン、など |
クラス分類 | クラス分類は与えられたデータに対応するカテゴリを予測する問題。 | 単純ベイズ分類器、決定木、サポートベクターマシン、など |
回帰分析 | 与えられたデータに対応する実数値を予測する問題 | 線形回帰、ロジスティック回帰、サポートベクトル回帰、など |
クラスタリング | データの集合をクラスタと呼ぶグループに分ける。クラスタとは、同じクラスタのデータならば互いに似ていて、違うクラスタならば似ていないようなデータの集まり。 | ウォード法、K平均法、など |
さきやんも会社ではTableauを利用していますが、BIツールを使えば簡単にこういったデータマイニングを行うことができますが、あまりデータマイニングしているという風には思っていないケースが多いですねw
予測(シミュレーション等)とは、言葉としては以下の定義です。
シミュレーション(英: simulation)は、何らかのシステムの挙動を、それとほぼ同じ法則に支配される他のシステムや計算によって模擬すること。simulationには「模擬実験」や「模擬訓練」という意味もある。
出典:Wikipedia
上記だと漠然としすぎているため、具体的なデータ分析とBIツールの観点だと「what-if分析」がイメージしやすいかと思います。
What-If 分析ツールを使うと、すべての異なる結果を得るために、1 つ以上の式で数値の複数の異なる組み合わせを使用できます。
たとえば、[分析] What-Ifして、それぞれが一定の収益レベルを想定する 2 つの予算を作成できます。 または、数式で生成する結果を指定し、その結果を生成する値のセットを決定できます。 Excel、ニーズに合った分析の種類を実行するのに役立つさまざまなツールが提供されています。
出典:Microsoft
あとは当然ですが、機械学習なども予測に用いられ、Tableauの場合はEinstein Discoveryというサービスで機械学習による予測機能も強化されています。
Einstein Discoveryは利用料金も高額なので利用する機会は限られるのかなと思いますw
データクレンジングとは、データの品質(データクオリティ)を高めることで、定義は以下の通りです。
データクレンジングとは、破損したデータ、不正確なデータ、無関係のデータを特定して解決する手法を指します。データ処理におけるこの重要な段階は、データスクラビングまたはデータクリーニングとも呼ばれ、企業データの一貫性、信頼性、価値を向上させます。
一般的に、不正確なデータというのは、欠損値、誤った配置のエントリー、入力ミスを含みます。データクレンジングでは、特定の値を入力または修正しなければならない場合も、値をすべて削除しなければならない場合もあります。
これらのエラーや矛盾を含むデータは「ダーティデータ」と呼ばれ、様々な場面で問題をもたらします。Harverd Business Reviewによると、基本的な品質基準を満たすデータは3%にとどまり、米国企業では毎年3兆ドルを超えるコストがダーティデータによって発生していると推定されています。
出典:Talend
正確に理解しようとすると「データ品質」に関する知識が必要です。DMBOKやDAMAホイールなどで検索すると色々と情報が得られるかと思います!
ダッシュボードとは、「可視化」する手段で、前述の機能(I~M)で大量のデータを分析・可視化した集計表やグラフを1つの画面内にまとめて表示させたものです。
ただ可視化されるわけではなく、利用者がスライスやドリルダウン操作を行い、様々なグラフを様々な切り口で見ながら業務を実施・判断することが可能で、データドリブンに業務(経営)を進めることができます。
表示するデバイスとしてパソコンは当然ですが、最近ではスマートフォンなどのモバイルデバイスでもダッシュボードが閲覧できるようになっており、よりスピーディに意思決定や状況の把握をすることが可能になります。
さきやんの会社でも様々な情報がモバイルで閲覧できるようになっています!
レポーティングとは、広義の意味でいえばダッシュボードも含まれると思いますが、基本的にレポートとして出力する機能です。
「PDF」「Excel」「Word」「PowerPoint」「CSV」などの様々なファイル出力にも対応しているケースが多く、報告資料として使ったり、更にデータ加工・分析されて利用される場合もあります。
レポートとダッシュボードとの大きな違いとしては利用者がインタラクティブに操作してデータを閲覧できるかどうかです。当然ファイル形式で出力されてしまうと様々な切り口でデータを閲覧することはできませんが、様々な人に共有しやすいというメリットがあります。
さきやんの会社でもダッシュボードとレポートの使い分けは明確になっておらず、組織によって千差万別ですw
ちょっとNoteのまとめ方が雑ですみませんw
意思決定とは、イシューや論点、施策など、得られたデータから判断し、実行要否などを決定することです。
ビジネスパーソンの方だとこの辺りは自明かと思います。
社内稟議資料にデータを含めて定量的に纏めていくことも「活用」の1つだと思います。
アクションとは、意思決定された内容や施策などを確実に実施することです。
最も重要なことと言っても過言ではない、と思います。
BIツールでとても素晴らしいインサイト(示唆)が得られて施策になったとしても、会社内でその施策を実行する体制や予算などがなければ実行できません。
インサイトを得るだけでは全く意味のないものになってしまうため、基本的にBIツールで分析して何かインサイトを得たい場合はアクションのことも考えて計画・準備をしておくことが重要です。
少し脱線しますが、さらにアクションした結果を定量的に評価できるような仕組み・ロジックを考えておくことも重要です。
こちらはプロジェクト・マネジメントの領域ですね。
以上で一通りのBIツールの機能群に関する説明はおしまいです!
アメリカのガートナー社でBIツールベンダーの評価が定期的に行われています。まとめると以下の通りです。
上記の情報は今回とは別に記事化していますので、ご興味があれば以下の記事をぜひご覧ください!
さきやんの会社ではPower BIやTableau、DOMOなど利用されていますね!
1つの会社で全員が共通のツールを利用することは厳しく、結局ユースケースにより適したBIツールは違ってきちゃうんですよねw
さいごに、「いまさら聞けないBIツールとは?ビジネスパーソン向けにBIツールを理解するためのポイントを紹介」と題して紹介した記事についてまとめさせていただきます。
以上、本記事は終わりになりますので、ここまで読んでいただいた方は誠にありがとうございました!
今後もできれば色々とまとめていきたいと思いますのでよろしくお願いいたします!