【今さら聞けない】データ分析の基本とは データ分析の目的や意味について解説

データ分析

こんにちは、かじつとむです。

皆さんはデータ分析というのはどのようなイメージをお持ちでしょうか?

データを使って何かしらの結果を見えるようにする、判断するといったことが挙げられると思います。

しかし、具体的にデータを使ってどのようにすることがデータ分析をしているということは、知らない人も多いと思います。

今回は、そんなデータ分析についての基本目的意味について解説します。

この記事を読むことで以下のことがわかります。

  • データ分析の基本、目的、意味について理解できる
  • データ分析の実施するための指標がわかる

なおこの記事は「データ分析に必須の知識・考え方 統計学入門 仮説検定から統計モデリングまで重要トピックを完全網羅」という本を参考にしております。

もしデータ分析の基礎から実際にデータ分析を行うときに使用する統計学をこの本から学びたい方は以下のリンクからどうぞ!

それではいってみましょう!

データ分析の基本とは:結論

データ分析の基本-結論

データ分析の基本は以下の3つとなります。

  1. データを要約する
  2. データの説明をする
  3. 未知のデータから予測する

それぞれの項目について説明します。

データ分析の基本 その1:データを要約する

データ分析とは-データの要約

データ分析の基本その1はデータを要約することです。

データを要約するということは、データの代表値を計算したりグラフ化することです。

データを要約しない、すなわち生データの羅列を人が見ても、何を示しているのか理解することができません。

そこで、平均値・分散・標準偏差といった代表値にまとめることで、データのおおよその傾向を掴むことができます。

他にも、データをヒストグラム化することで外れ値がないか、データが正規分布になっているかなど、データのばらつき具合を理解することができます。

データ分析とは-ヒストグラム

このようにデータを加工して要約することで、データの傾向や意味をわかるようにすることが、データ分析の第一歩となります。

データ分析の基本 その2:データを説明する

データ分析とは-データの説明をする

データ分析の基本その2はデータを説明することです。

データを説明することは、データ同士の関係性を理解することです。

データ同士の関係性を示し、その考察を行うことでデータの因果を説明することができます。

たとえば、車体重量と排気量のデータを散布図であらわすと、車体重量が大きくなればなるほど排気量を大きくなるといった関係(正の相関)を示していることがわかります。

このように一見無関係な2つのデータを散布図であらわすことでデータ同士を説明することができます。

データ分析の基本 その3:未知のデータを予測する

データ分析とは-未知のデータを予測

データ分析の基本その3は未知のデータを予測することです。

これは先ほどデータを説明できることから、モデルをつくることで新しいデータに対してもある程度予測することができます。

たとえば、先ほどの車体重量と排気量は、車体重量が大きくなるほど排気量は大きくなるという関係性でした。

この関係を直線であらわすことができるため、以下のように数式化することができます。
$$ 排気量(cc) = 2.1163 \times 車体重量(kg) – 442.41 $$
数式かできたら未知の車体重量のデータを与えることで、排気量の予測ができるようになります。

ただし、実際のデータと予測データではズレが生じでしまいます。

このズレを評価し、別のデータの要素を多数使用することでより高精度な予測が可能になります。

高精度な予測は統計的手法だけではなく、機械学習手法を使って行われることもあります。

このように元々与えらえれたデータから予測モデルをつくり、未知のデータを予測することもデータ分析の目的になります。

データ分析の基本とは:まとめ

いかがでしたでしょうか?以下まとめです。

  • データ分析の基本は、データを要約する、データを説明する、未知のデータを予測することである
  • データを要約することは、データから平均値や分散といった代表値にまとめることやグラフを作成し可視化することである
  • データを説明することは、一見関係なさそうな2つのデータから関係性を示し、データの因果を説明することである
  • 未知のデータを予測することは、データからモデルを作成し新しいデータに対しても予測を行えるようにすることである

皆さんもぜひデータ分析の基本や目的を理解して、データ分析に取り組んで見てくださいね!

データ分析やAIについて本格的に学びたい方へ

世界で37万人が受講 データサイエンティストを目指すあなたへ データサイエンス25時間ブートキャンプ

データ分析の基礎から機械学習手法、AIまで本格的に学びたい方におすすめなのがUdemyの「【世界で37万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜」です。

この講座は海外で非常に人気のデータサイエンスコースの日本語版となります。

25時間という非常にボリューミーの内容ながらアニメーションを使ったり、ハンズオン形式のため割とサクサクとデータ分析の基礎・統計学・機械学習・AIまで一通り学ぶことができます。

特にビジネスシーンでデータ分析をするときに、統計学や機械学習を扱う考え方についても理解できます。

データ分析を基礎から本格的に学びたい方にとってはこれ以上なく網羅的に学ぶことができるので、おすすめの講座となります。

皆さんもぜひデータ分析の基礎を学び、データの取り扱い方について学んでみましょう!

最後までこの記事を読んでいただきありがとうございました!

データ分析の基礎から、統計学・機械学習・SQLまでを勉強したい方はスタアカもおすすめ!

コメント

タイトルとURLをコピーしました