【いまさら聞けない!】データとは 統計学で使う意味や種類について解説

機械学習

こんにちは、かじつとむです!

突然ですが、みなさんはデータってどういうものを思い浮かべますか?

数字をイメージする人もいれば、曜日とか地域名とかもデータではないかと思う人もいるかもしれません。教養のある人なら音声や映像、画像もデータというかもしれません。

そんな広義的な意味を持つデータについて説明します。

この記事を読むと以下のことがわかります。

  • データについて理解することができる
  • データの種類について知ることができる
  • データの種類を知ることで、統計学や機械学習での処理のヒントになる

それではいってみましょう!

データとは

まずはデータについて調べてみると以下となります。

 物事の推論の基礎となる事実。また、参考となる資料・情報。「データを集める」「確実なデータ」

 コンピューターで、プログラムを使った処理の対象となる記号化・数字化された資料。

goo辞書 – データ

一般には2の記号化・数字化された資料というのがみなさんにはイメージがあると思いますが、実際は事実に基づいた資料や情報はすべてデータであることがわかります。

しかし、事実に基づいた資料や情報は読み解くことができなければ、新しい発見や価値を手に入れることができません。

そこで、これらの資料や情報を数値化したり表やグラフで表現することで、発見や価値を見出すことが重要になります。この数値化したり表やグラフで表現することをデータ処理といいます。

データ処理を行うためには、データの種類を理解する必要があります。
このデータの種類について説明します。

データの種類について

データの種類について以下の図でまとめます。

データは量的データ質的データに分別できます。

量的データとは数値であり、かつその数値に単位として意味があるものをさします。
たとえば温度、金額、個数などはすべて数値であらわされ、かつその数値に意味があります。
一方で、idは数値ではあるがその数値に意味がないので量的データではありません。

量的データはさらに2つの尺度に分別できます。それが間隔尺度比例尺度です。

間隔尺度とは、データの間隔には意味があるが、比率には意味のないデータとなります。すなわち、そのデータの差には意味があるが、割合には意味のないデータです。

間隔尺度の例は、西暦や温度、テストの点数などが挙げられます。
西暦にはその年数の大きさによって、過去か未来かの尺度を決めることができます。
また、西暦1000年は2000年の1000年前と言うように、足し算・引き算ができることも特徴です。

しかし、西暦1000年は2000年の半分の過去であるということはできず、西暦の比率は意味のデータとなります。

このように、数値の大きさの比較や足し算・引き算は可能であるが、その比率に意味がないのが間隔尺度の特徴です。

比例尺度とは、間隔尺度とは違い数値の比率にも意味のあるデータです。

比例尺度の例は、金額、個数、時間、距離などが挙げられます。金額にはその大きさによる大小比較はもちろん、1000万円は2000万円の半分の金額ともいうことができます。

このように、数値の大きさの比較が可能で、かつその比率に意味があるのが比例尺度の特徴です。

質的データとは、分類や種類、順序などを区別するためのデータです。
たとえば性別、曜日、順位が挙げられます。性別なら男女の種類、曜日なら1週間の分類、順位なら優劣の順序を区別することができます。

質的データも2つの尺度に分別できます。それが名義尺度順序尺度です。

名義尺度とは、分類するための名前を表すデータです。

名義尺度の例は、性別、名前、id、曜日などが挙げられます。性別は男と女を単なる分類の記号として扱っています。

順序尺度とは、分類の順番に意味があり大小比較ができるデータです。

順序尺度の例としては、順位やアンケートでの満足・不満足の優劣を表す結果などが挙げられます。順位は1位、2位、3位といったように優劣を比較することはできます。

しかし、間隔尺度のように3位 − 2位は1位であるといった計算はできません。

すなわち、大小の優劣のみを比較できるのが順序尺度の特徴です。

データのまとめ

今回はデータについて説明しました。まとめると以下の通りです。

  • データとは事実や参考となる資料や情報。
  • データは意味のある数値で表される量的データと、分類や種類等区別するための質的データに分別できる。
  • 量的データはそのデータの大小は比較できるが比率には意味がない間隔尺度と、そのデータの比率にも意味がある比例尺度に分別できる。
  • 質的データも単に分類するための名前を表す名義尺度と、分類や順番に意味のある順序尺度に分別できる。

みなさんも、いろいろなデータを見たらどんな種類のデータであるかわかるようにしましょう。
その上でどのようなデータ処理をすべきか考えていきましょう。

データ分析を実践的に学びたい方へ

データ分析を実践的に学びたい方におすすめのサービスがあります。

それはUdemy の「【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門 」という講座です。

【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門

この講座では、データサイエンスをこれから勉強したい人向けに、データサイエンスやデータ分析について実践的に学ぶことができます。

具体的には、データ分析の基礎やデータ分析のためのプログラミングを、実際のデータを用いて手を動かしながら学習できるのが特徴です。

プログラミングを使ったデータ分析って難しそうと思っている方でも、4行程度のコードを少しずつ書きながら分析を進めていくため、プログラミング初心者でも安心して学ぶことができます。

何よりも実際のデータを使って、データ分析の全体像を理解できるのがこの講座の魅力です。

時間はおおよそ8時間程度の動画講座で、セール時には1500円程度で購入できます。

データサイエンスに興味を持っている方、実践的なデータ分析の勉強をしたいと考えている方はぜひ以下のリンクからチェックしてみてください!

【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門

Udemyの講座を検討している方はこちら!

コメント

タイトルとURLをコピーしました