【ガチ比較】1人 vs 500人 - しゅれでぃんがーの、ぬこ。

この記事は、みんなのガチ比較 Advent Calendar 2023 24日目の記事です。（大遅刻）

adventar.org

導入
多様性予測定理
検証方法
はかりを発注
いざマックへ
500人からアンケートを取る
結果
考察

導入

ガチ比較の説明は1日目担当のAtriaくんの記事を参照してください。

ガチ比較の創設者やまま君とはバニーガール服の構造やブルアカの竜華キサキついて語り合ったり、以前から懇意にさせて頂いている仲であります。

そういうわけで今回は多様性予測定理を個人的に検証してみようと思いました。

1人 vs 500人をガチ比較してみます。

多様性予測定理

いわゆる「集合知」の話です。

細かい数式の説明はここでは省きますが、大まかに説明すると「集団全体の誤差は集団を構成する個人の誤差の平均を必ず下回る」という理論です。

$\text{集団の予測誤差} = \frac{1}{N} \times \text{個々の誤差} - \text{分散値（多様性）}$

有名な逸話があります。

イギリスの人類学者フランシス・ゴルトンがある家畜の品評会で実験を行った。彼は市場に来た人々に、展示されている牛の重量を当てるコンテストに参加するよう求めた。参加者は自分が考える牛の重量を書き留め、787人分の推測した重量が最終的に集計された。

面白いことに、個々の推測は大きくばらついており、中にはかなり正確なものもあれば、かなり外れたものもあった。しかし、ゴルトンが全ての推測の平均値を計算したところ1197ポンドで、その数値は牛の実際の重量である1198ポンドと1ポンドしか差がなかった。

これは集合知に関する示唆に富んだ事例として現代まで語り継がれています。

前述した数式にある通り、バラバラで多様な推測結果が集まった結果、個々の誤差を打ち消すことになり、正解の値に近づいたということです。

個人的な話になりますが、いまから約4年前にこの話を知ったことが統計学を真面目に取り組むきっかけになりました。

いつか自分でも検証してみたいなと思い続けて早4年、今回を機に検証してみます！

検証方法

検証するためには多くの人々から何かを推測してもらう必要があります。

しかし、集合知を検証するための題材は何でも良いというわけではありません。もし、推測する人が全く見当が付かない問題だった場合、集合知が働く可能性は低いと考えられます。（例えば、小学生1000人に株価の動向を予測させても、小学生は経済学や金融市場についての十分な知識を持っていないため、信頼できる予測結果を得るのは難しい。）

後述しますが、今回私は属性を問わないで無作為にアンケートを500人分取ろうと考えています。つまり、世代や性別などの属性を問わず、世の中の老若男女がある程度推測できるであろうと考えられるものを問題に設定する必要があります。

そうするとおぼろげながら浮かんできたんです...　ビッグマックの画像が。

おそらく日本国民ならほとんど誰もが行ったことであるだろうマクドナルド。

マクドナルドの商品なら、想像できる人が多いのではないでしょうか？

今回は「ビッグマックセットの重量をトレーの重さを含めて写真から推測する」を集合知が働くかどうかの検証に使います。

なぜビッグマックか、そしてなぜセット商品なのかというと

"ビッグマック指数"という用語があるように、国内のみならず世界中でほぼ同じ商品が売られており、集合知を検証する商品として相応しいから。
ビッグマック単体の重さ（217g）は公式情報として公開されており、調べたら答えが出てくるものは検証する上で問題があるから。
マクドナルドで店内飲食をしたことがある人であれば、トレーも含めたサイズ感や重量をそれなりに把握している考えられるから。

が主な理由です。

また、検証を行うにあたってのサンプルサイズですが、母集団100万人と仮定して許容誤差が5%の場合は、無作為抽出で384人から推測結果を得られればよいので、400人以上を目安に検証できれば理想かなっていう感じです。

はかりを発注

早速ビッグマックセットの計測＆写真を撮るために、はかりを持ってマックへ。

しかし、問題が発生。

マックのトレーが結構大きくて、家庭用の小さいデジタルはかりではトレーに完全に隠れてしまうことに気付きました。

仕方ない、モノタロウで大きいはかりを仕入れます。（−￥5598）

届いた、大きさは完璧。

いざマックへ

はかりを持ってマックへGo！

写真は撮れました。

トレーの重さ込みで1085gでした。

撮影中、後ろのテーブルの女子高校生2人組が「あの人何やってるの？」と小声で話していたのが聞こえてきましたが、グッと我慢。

はかりを何事も無かったかのようにリュックにしまい、ササッと食べて退店します。

500人からアンケートを取る

アンケートは日本最大級のクラウドソーシング「クラウドワークス」を使います。

crowdworks.jp

クラウドワークスではアンケート1件あたり最低5円から依頼することができます。

回答数を増やすには金額を上げたほうが良さそうですが、自分のアンケートは5円でも集まりそうな気がしたので最低金額の5円で設定。

前述で「無作為抽出のもとで400人以上を目安に検証できれば理想」と書きました。

今回はキリのいい数字という理由と自分の財布が耐えられる金額という理由から500人からアンケートを取っていきたいと思います。（−￥2500）

クラウドワークスのアンケートは無作為抽出扱いしていいのかという問題がありますが、属性を指定せずに広範囲のユーザーから回答を募るので無作為抽出と見なします。

仕事内容を設定して、クラウドワークスに発注します。

設定は簡単で数分で終わりました。

依頼タイトルは「写真から重量を推測してください」

数日で無事500人分の結果が集まりました。

こんなに手軽に回答が集まるのすごいですね...

早速集計してみましょう！

結果

実際の重量：1085g

平均の重量：759.96g

（最大2500g、最小50g、標準偏差348.82g）

あれっ？想定よりも実際の重量から外れている...

グラフはこんな感じです。（赤い線が実際の重量で、緑の線が平均の重量）

大体の予測が1000g以下でした。

ここまで大きく外れていると集合知が働いたとは言えませんね...笑

一応、多様性予測定理が成り立っているか確認

集団の予測誤差：325.04g

個々の予測誤差の平均：413.46ｇ

「集団の予測誤差 < 個々の予測誤差の平均」は成り立ってはいるみたいです。

うーん、中途半端な結果に。

考察

微妙な結果になってしまいましたが、最後に実際の重量から大幅にズレてしまった理由を考察して締めくくりたいと思います。

1. 画像1枚だけでは情報量が足りない

今回私はたった1枚の画像しか用意しませんでした。

実際に現物を確認したり、持ち上げたりすることができる環境で検証を行ったら、実際の重量により近づく結果になったかもしれません。

2. 何かしらの思い込みが存在する

集計していて感じたのが1000g付近に壁が存在するということでした。

いくらセットメニューとはいえ軽い印象があるファストフードは1kgを超えないだろうという思い込みが一定数あるのかもしれません。

3. 重量は思いのほか誰もが持っている普遍的なものさしではない

割とあり得るのかなと思いました。自分の体重ならまだしも、日常生活で何かしら重量を計測する場面って意外に起こり得ない気がします。

日頃、重量に全く敏感ではない人が推測した重量は当てにならないのかもしれません。

個人的に思いついた考察はこれくらいですね...

微妙な結果で終わってしまったので集合知のリベンジ検証をどこかのタイミングでやりたいです。