データ分析
データ分析とは
データ分析とはデータの中から、目的に沿って判断する情報を得る事を指します。最近では、機械学習の手法にフォーカスが当てられ、その事自身をデータ分析考えられたりする事もありますが、多変量解析や機械学習はデータ分析を行うための手法です。 なので、狭義の意味では、多変量解析する事や機械学習モデルを作るなどのモデルの構築もしくはその前後の前処理の整理・変形・可視化を含めた内容を指します。広義の意味では、以下のようなフロー全体を指します。表にまとめてみると、以下のようになります。
ビジネス理解 | データ理解・準備 | モデリング | 評価 | 展開 |
---|---|---|---|---|
プロジェクトの立ち上げ ビジネス要件の整理 ソリューションの提案 |
必要なデータを収集 状態を可視化 データの整理 データの変形 特徴量エンジニアリング |
モデルの構築 | 結果の可視化 結果を考察 |
結果の資料化 クライアントへ結果の説明 システムへの組み込み |
この表でいうと、狭義の意味のデータ分析とは、モデリングの部分、もしくはデータ理解・準備〜評価の部分であり、広義の意味では全体を指すという事です。本書ではデータ分析とは、広義の意味でのデータ分析ということにします。
身につけておくべき知識・スキル
では、データ分析において身につけておくべきスキルとは何でしょうか? PythonやRによるデータの整理・特徴量エンジニアリングなどの前処理とモデリングするためのコーディング力だけで十分でしょうか?
データ分析のフェーズに合わせて考えていきましょう。 まず、どのフェーズに、いわゆるデータサイエンティストに必要な3要素のどんな知識・スキルが必要かの例をまとめました。
ビジネス理解 | データ理解・準備 | モデリング | 評価 | 展開 | |
---|---|---|---|---|---|
ビジネス力 | マネージメント力 言語化 明確化 |
ドメイン知識 | 説明する力 わかりやすい可視化 |
||
データサイエンス (知識) |
構造化する力 論理的思考 |
確率・統計 | 多変量解析 機械学習 |
評価手法 可視化 |
|
データエンジニアリング (コーディング力) |
収集 可視化 整理・変形などの前処理 特徴量エンジニアリング |
多変量解析 機械学習 |
可視化 | システムへの組み込み |
あくまでも例ですが、様々な知識・スキルが求められます。特に、チームでデータ分析を行う場合は、与えられた役割に応じて必要なスキルが変わります。例えば、リーダーとしてあるPJをまわすとなると、ビジネス力が問われることになります。そのため、モデリングだけを専門でやっていくだけのスキルがあるが、リーダーとして全体を回すとなった場合、ビジネス力が少ないためPJが失敗するといったような事もありえます。そのため、一通りの知識・スキルを身につけるために、データ分析の流れを知り、そのフェーズ毎にどのような知識・スキルが必要かを理解する事は重要と考えます。
本書では、データエンジニアリングを主なフォーカスとして扱うため、ビジネス力1、データサイエンス2については、その他の図書や資料を参考にしてください。