統計のトリック
支持率調査等、各種統計に関する調査や発表を目にすることございますよね。
皆様、そういった調査・統計を「信用」しますか?
私は基本「左から右」に聞き流します。
もし、その統計データが必要なものであれば、基本エクセル等の「サンプリング生データ」の所在を初めに確認します。
理由は元になる「生データ」が確認できない統計を理論的に信用できないからです。
それを「追試可能性」と社会科学では呼ぶそうです。
こちらの本から学びました。
「ランキングのカラクリ」です。
放送大学で統計学を学びましたが、基本「生データ」にはノイズがあります。
サンプリングされた生データの記載の仕方が一定でない場合や、明らかに分布から大幅に外れた?データがあるためです。
電算処理するために、これらに“加工”を行った後、統計処理を行います。
つまり全ての統計には「生データ」があるはずで、それにアクセスできない・追試のできない統計は学問上では「ゴミ」「たわごとの類い」であると著者は言われております。
まさにその通りであると思います。
そもそも生データの改ざんや、その統計の収集方法、サンプリング対象の偏り、サンプリングのサイズ、追試できる情報データがなければそれさえもわかりません。
ちなみに、無作為「固定電話」への通話サンプリングですが、最近の若年層・若年家族の家に「固定電話」あると思いますか?
加えて、オレオレ詐欺が蔓延する世の中、相手の見えない電話に素直に個人情報を答えますか?
はたまた、スマホサンプリング、年配者がスマホをがしがし利用されていると思われますか?
サンプリング方法一つとっても、適正な生データを獲得するのは難しいですね。