こんにちは、かじつとむです。
皆さん、母集団と標本について知っていますでしょうか?
統計を考える上でそのデータが母集団であるか、標本であるかはとても重要です。
今回はそんな母集団と標本について解説します。
この記事を読むと以下のことがわかります。
- 母集団と標本の違いについて理解できる
- 標本のデータをとる上での注意点がわかる
それではいってみましょう!
母集団と標本とは
母集団と標本を一言で表すと次のようになります。
- 母集団:調査対象のすべてのデータ
- 標本:調査対象から一部を抽出したデータ
「日本人全員の給料」を例に、母集団と標本を考えてみましょう。
母集団は調査対象のすべてのデータであるため、「日本人全員の給料」が母集団となります。
一方で、標本は調査対象、すなわち「日本人全員の給料」から一部を抽出したデータとなります。そのため、たとえば「日本人1000人の給料」「日本人20歳〜50歳の給料」「日本人女性全員の給料」は「日本人全員の給料」の標本といえます。
ここで「日本人全員の給料を分析するには、標本ではなく母集団を調べればいいのでは?」と思う人がいるかもしれません。次は調査対象を調べるのになぜ標本が必要なのかについて説明します。
なぜ標本が必要か?
調査対象を調べるのになぜ標本が必要なのでしょうか?
答えは、母集団を調べるには膨大な時間とコストがかかってしまうからです。
たとえば、日本人全員の給料を母集団として調査するには、文字通り日本人全員を調査する必要があります。しかし、日本人は2020年ではおよそ1億2173万人おり、そのすべてを調査することはとても困難なことだということがわかります。
そこで、標本の出番となります。標本を調査し解析することで母集団を推測することができます。このように標本から母集団を推定することを推測統計といいます。
しかし、ただ単に標本をとれば良いわけではありません。次は標本をとるときの注意点について説明します。
標本をとるときの注意点
標本をとるときの注意点は、標本に「代表性」があるかということです。
代表性とは、標本が母集団に対して偏りがなく正確にデータを反映できている状態をいいます。
たとえば、日本人全員の給料の標本をとるとき、男性ばかりのデータや50歳以上ばかりのデータではいけないということです。日本人全員には当然女性もいますし、50歳未満の人もいます。
このように偏りがある標本をとってしまうと、母集団である日本人全員の給料を正しく推測することができなくなってしまいます。
では、どのようにすれば代表性のある標本をとることができるのでしょうか?
答えはデータをランダムにとることです。
ランダムにデータをとるということは、法則性がなく偶然に起こった状態でデータをとるということです。
たとえば日本人全員の給料をランダムにとるということは地域・年齢・男女・日付などもすべて関係なくデータをとることが大切になります。
母集団と標本とは:まとめ
いかがでしたでしょうか?以下まとめです。
- 母集団とは、調査対象のすべてのデータ
- 標本とは、調査対象から一部を抽出したデータ
- 母集団を調査することは現実的ではなく、標本のデータを解析して母集団を推測する
- 母集団を推測する標本には代表性があることが重要
みなさんも、母集団と標本の違いを意識しながらデータを見てみてください。
統計学をもっと勉強したい方へ
統計学を初めて学ぶおすすめの書籍を紹介します。入門者におすすめなのは「完全独習 統計学入門」です。
この本では、データの特徴をあらわす記述統計学からデータの予測をする推測統計学まで一通り勉強することができます。
具体的には、データの分布を確認するヒストグラムや平均・分散・標準偏差といった基本統計量の算出方法や使い方、母集団と標本の違いや統計量を推定する方法までい一通り勉強することができます。
この本の特徴は、難しい数学や数式をほとんど使うことなく統計学を勉強することができます。
また、各講ごとに練習問題もありますので、こちらを解くことで統計学を体感することもできます。
統計学を初めて勉強したいと思った人や数学が苦手だけど統計学を学びたい方には、おすすめの一冊となります。
もしよろしければ、以下のリンクからどうぞ!
zぜひ、統計学にチャレンジして仕事の判断に活かしてみてくださいね!
最後までこの記事を読んでいただきありがとうございました!
統計学を動画で勉強したい方はこちら!
コメント