knanaoのメモ

たんなるメモ

私は数字が怖いという話

〜これはインターネット怪文書である〜

 

これを書く動機
先日下記のようなやり取りがあった。

 

「ネット広告よりテレビの効果の方がわかる」
俺「マジで言ってんの?!」
「過去のデータがたくさんあるので、わかります」


これについて私は何が私にとって「マジで?!」だったのか(決して馬鹿にしたかったわけではなく、完全に個人的な理由であり、以下に記す内容も個人的なものである)、ひいては調査の専門家たる(こういう言い方をすることは殆どないが、一応今でもそうだろう)私が何故そこから離れエンジニアをやっているのかについてほんの少し言及したのだが、思いのほかデータサイエンス界隈にぼんやりとした反響があったため、もしかするとこのトピックは私が認識していたよりも公共性のあることなのかもしれないと思いここに箇条書きする。

情報が溢れ誰もが全世界に向けて発信できる今、書くべき価値のある物事などそう多くはないが、さりとてこの種のトピックについて言及できる人間もそう多くはないように見受けられたため敢えて発信する。果たして読むに値するか否かは読者諸兄の明晰さに判断を委ねたい。

 

私は誰か
かつて私は○○姉妹さんのような不条理きらきらアカウントを創設すべく23歳丸の内OLとしてTwitterに颯爽と登場したのだが半年もたたぬ内に「ゴリラ」と呼ばれるようになりまたそれが不思議と心地がよかったため「ゴリラ」を名乗りその内だんだん自分がゴリラなのかゴジラなのか曖昧になってきたため最近は「丸の内ゴジラ」を名乗っている者である。

bioには月収20円や無職のキモオタや電通のデータサイエンティスト等と様々に自由奔放その時の気持ちで記載してきたがこの内唯一真なるのは「キモオタ」のみである。そのため私のことは何者でもないキモオタと思ってくれればそれで充分であるし正直それ以上のことを示したくない。

 

調査の専門家とはどういうことか
ここでいう専門家というのは定められた課程を経て試験を突破しある組織において専門家としての認定を受けた者という意味であるが、私は私の所属をここに記載するつもりはないため読者に信じることを強要するものではない。

 

具体的には何をやってきた、やっている人間か
私はかつて大学において心理実験や社会・市場調査の設計や実査や分析を行っていた者であり、その内には少しだけ噛んだものや、国から規模の大きい予算をいただいたものや、私自身が設計・調査したものまで含まれている。また現在データサイエンス界隈でエンジニア寄りの業務についているため、調査設計・データの収集加工・統計手法・機械学習・エンジニアリング等々について多少の見識はあると自認している。敢えて付け加えるとすれば前者はアカデミックで後者はビジネスに寄っている。

 

前提について
私は世の中の調査と名の付くものはごく少数の例外を除いてすべてうんこだと思っている。最近Twitterで社会調査の大半はゴミであるという新書が今さらのように話題になっていたが、私に言わせてみればゴミであるどころかうんこである。公衆衛生の問題なのである。私は日々生産される夥しい数のうんこに嫌気がさしてエンジニアになったのである。
そのためうんこを見せてくるマーケッター他のことを「何うんこ見せてきてんだこの野郎」と思っている。しかしそれはそのマーケッターの有能さや素晴らしい役割を否定するものではない。職能が違うのである。私はほとんどのマーケッターのことを、私よりずっと明敏で、尊敬すべき、素晴らしい能力のある人のことだと思って接してきたが、しかしそのこととその素晴らしい人が見せてくる調査結果を見て「うんこだ…」と思うことはまったく両立するのである。
どれだけ調査統計のことを罵ろうがそれは他者の職能・人格・価値を否定するものではないことを前提に置きたい。重ねて言うが職能が異なるだけである。私自身がデータに近い人間であるがために、極めて微かで取るに足らない彼らの些細な欠点――もしかすると針の穴のように――をあまりに重く受け止めているだけなのである。

 

何故調査、統計が嫌いなのか
私がここまで過激に調査を忌み嫌っているのは、それが単に無邪気さからくる誤りを大量に抱えているからではなく、にも関わらず凄まじい威力を持って時には人間を殺すことを正当化することすらあるからだ。これは比喩ではない。
いかに細心の注意を払おうとも統計が政治でなかったことなど一度もなかった。人間は数字を見れば意味を見出さずにはいられない。数字は嘘をつかない。でも人間は嘘をつく。しかも自分ですら嘘を自覚できないほどに巧妙に嘘をつく。
嘘に自覚的であるためには知識と訓練と技能が必要とされるがほとんどの人間は数字のことを舐めているのでまったく無知のまま数字を弄り倒してうんこを生産するのでありその上まったく反省もしないのである。

 

うんことは何か
ここでいううんことは調査者が主張していることと実際の統計にズレが生じている調査のことである。例えば青森県で降雪量を調査した結果を「日本の降雪量」とするならばそればそれは事実と乖離していると指摘せざるを得ない。これがうんこである。意図したものを完璧に示せる完璧な統計など存在しない。数字を公開するならばその数字が示し得る範囲について我々は誠実でなければならない。このズレは意図的な場合もあれば無知からくるものもある。
下記にいくつか事例を示そう。


・事例1
~ある朝のワイドショー~
「日本の女性は朝何を食べるのでしょうか?道行く女性100人に聞きました。なんと80%の人が朝食はトースト!」
うんこである。
まごうことなきうんこである。
ここでは日本に住む女性全体が対象になっているというのに実際に調査の対象となっているのはたまたま街頭をうろうろしていた100人なのである。これがうんこでなければ一体なんだというのだろうか。
調査にかかわるものであれば即座にこれをうんこと気が付けなければならない。いわばうんこ初級編である。え?何?簡単なお遊びだから?だったら初めから数字の権威を着ようとするな馬。

・事例2
上記はいい加減なテレビ番組のいい加減な数字だが、だったら調査会社の数字であれば信頼に値するのかと言えばそんなことはまったくない。それどころか調査会社が示す統計は時にやや入り組んでいるがために、上記のような素朴なものと違って誤りを指摘して理解してもらうのも面倒くさい上に、大抵調査会社にとって利益になるように数字が歪められているためより悪質である。非常に悪質である。
一つ事例を挙げたいと思うがどうしても冗長にならざるを得ないためかっこでくくりたいと思う。読みたい人は読めばいい。
(アドにおけるいわゆるブラックドメインの比率の調査であるがなんとその会社はアドが配信されたすべてのドメインを目視確認し、30%以上がブラックであり、事前にブラックを除外できる自社のサービスを使うべきとしていたのである。ドメイン毎配信量は多いものと少ないもので数百万も異なるというのにすべて並列に扱いあたかも「配信量の30%がブラックに配信されている」と印象操作しているのである。ブラックになるようなドメインはほとんどの媒体でNGになっており、仮に配信されたとしても極少数であることを意図的に隠蔽しているのである。また、すべてのドメインを100時間以上かけて目視確認したなどと自信満々に述べていることからこの会社は大学の学部生で習うような推測統計すら知らないことが分かる(最近では高校生も習うのかも知れない)。ちなみに私が計算したところ10分の1以下のドメインをランダムサンプリングして99%信頼区間で推定されるドメインの比率の変動はせいぜい±4%ほどであった)
このような数値を用いた悪質な印象操作は言語道断である。私の良心によりソースはここでは明かさないが上記の会社は上場していたこともある日本ではかなり規模の大きいリサーチ会社である。リサーチ会社ですらこのような悪質な行いを公然とするのである。ちなみに検索したらブラック企業と出てきたが悪質な上に上記のようなまったく無駄な作業をがんばってやってるから激務になるのである。

・事例3
上記は民間企業の場合であったがなら公的な調査であれば安心かと思えばそんなことはまったくない。
偉い人「これだけ母集団(数億)がおるけど全部にあたると予算上回るからここの人だけ切り取ってアンケート用紙バラまいたで~」
俺「(ほんの数万人ランダムサンプリングすれば高い精度で母集団の推定できる上に適当に人を決めるから結果としてサンプルが偏ってるしバラまいて回収率下がって更に偏るくらいなら謝金用意して確実に回収すべきやで、無茶なことするから金かかりすぎてんで)そうですか…」
これは事例2と比すれば悪意がないが結果として生産されるものがうんこであるという点では同じである。しかも投資される予算が比較にならないほど莫大である。たった一人でも意思決定層に調査の専門家がいればこのような設計にはならなかったはずなのに、そうはしなかったのである。つまるところ調査などというものは特に専門知識のいらないものでありなんとなくやればできるものだと思っているのだ。しかし私は主張したいが、なんとなくやったものはなんとなくな結果にしかならない。それはすさまじい金を投じてやるべきものであったのか今一度考えてほしい。

 

なぜエンジニアリングに転向したか

ここまで悪し様に罵ってきたが私は何も調査の有用性自体を否定したいわけではない。不可能に挑戦し厳密性に拘り抜いた方法の数々と数字への誠実さに触れる度に私は先人の苦労と偉大さに思いを馳せずにはいられなかった。
しかしそのような偉大な功績があるにも関わらず私(達)はそれの意図通り誠実な調査が果たしてできているのだろうか。それはほとんどの場合において否定せざるを得ない。たった3つの事例からも明らかだろう。マスコミでも企業でも公的機関でもそこに違いはない。意思決定者にそもそも何がうんこで何がそうでないのか判別がついていない場合が多すぎるのだ。
私がエンジニアに転向した理由はいくつかあるが、そのひとつが「コントロールできない変数が少ない」というものである。市場調査というものは多くの場合あまりにも大規模な組織、金が関わってくる。そこでは私のような小さきものが抵抗を試みたところでいかようにもできないことが多すぎるのである。しかしデジタルデータならどうか、多少はマシではないのだろうか?というのがその理由である。

 

果たして私はうんこを生み出さなかったか
あまりに長くなりすぎたのでそろそろこの辺にしよう。
エンジニアリグを初めて数年経過したがしかしやはり私もまた一介のうんこ製造者でしかないと認めなければならなかったことをここに記したい。データの分析を初めて10年が経過した。私はずっと悩み続けてきた。しかしなお私が生み出すものもまたうんこでしかなかった。ここへきて私は次の事実を悟るしか無い。きっと死ぬまでそうなのだろう。
しかし私は最後までうんこに争い続けたい。不可能だと分かりきっていても「誠実さとは何か」「私たちは数字の前にどのようにあるべきか」を問い続けたい。賢い皆さんは私をどうしようもない愚図だと笑ってすぐそばを駆け抜けて行ってしまう。そんなことにはまったく価値などないのだと。答えなどない問題に拘るのは馬鹿者だと。それでもまったく構わない。私は一人であっても闘いたいのだ。
そしてできれば、このような問題にまったく関心の無いみなさんにも、時々は思い出してもらいたい。数字は本当に人を殺すのである。悪気がなくても人は死ぬのである。たくさんの人殺しに数字は利用されてきた。その詳細をここに書くつもりはない。このような場所に書くにはそれはあまりにも辛く苦しい人類の負の歴史であるからだ。知りたい人はググればよい。

ただ、数字を見て反射的に「わかる」と思うことは、本当はとても怖いことなのだと言う事を、時々思い出していただければそれは私の喜びである。