データアーティスト
データサイエンティストという職業があるようですが、私は世間一般で使われるサイエンスという概念をあまり信用していません。
詳しくはこちらで述べています。
データサイエンティストたちの言動を眺めていると、この人達はサイエンティストではなくアーティストなのではないか?と疑念が浮かんだので少しここでまとめてみようと思います。
そもそもサイエンスの基本は実験と観測です。
これが科学者のやっていることのほとんどなのです。
あとは論文を書くぐらいです。
翻ってデータサイエンティストは何をしているのでしょうか?
実験をやっている気配はないですし、分析はやっているでしょうが観測はやっていなさそうです。
分析と観測は違います。
観測はデータを創造する作業で、分析はデータを加工する作業です。
このように書いてみるとデータサイエンティストは特に科学者っぽいことは何もしていないように見えます。
ではなぜサイエンティストを名乗るのか?
それはきっと自分のやっていることが統計学と同じだと思っているからです。
統計学はソーシャルサイエンスと呼ばれる経済学や経営学ほどではないですが、本来の科学に比べて再現性が低い学問です。
本来の科学(自然科学)は定理や法則が定義されれば、誰がどこでやっても100%同じ結果がでるものでなければなりません。
しかし、統計学は大まかな法則性を見出すことまでしかできません。
法則を定義しても、それが100%の再現性を保証するわけではないのです。
そういった意味で統計はあまり科学的でないとも言えます。
そしてデータサイエンティストの仕事は言ってしまえばコンサルです。
あくまでも商売なので何かしらの結果を出さなければなりません。
そもそも科学者とデータサイエンティストでは仕事に対するアプローチが違います。
科学者であれば「仮説→検証→証明」という業務フローですが、データサイエンティストの場合は「分析→仮説→説得」という業務フローになります。
仮説を証明するのではなく仮説を売り込むのがデータサイエンティストの仕事なのです。
よってこの人達はサイエンティストではないのです。
では彼らは何者なのか?彼らはアーティストなのです。
証明する人ではなく、表現する人なのです。
データと分析の仕方によって人それぞれ、いかようにも仮説(表現)を生み出すことができるのです。
分析データを恣意的に選択でき、分析の手法も表現の仕方も個人の裁量で好きにやっていいのであれば、いくらでも思い通りの仮説をでっち上げることができます。
ここで、数字やデータを根拠とした言説であるにも関わらず、その内容がいかに眉唾ものであるかを、いくつか事例をあげて紹介したいと思います。
- 阪神無敗巨人未だ未勝利
2020年6月17日時点で当年のプロ野球はまだ開幕していませんでした。
例年であればスタートダッシュの勢いが衰えをみせはじめ、そこに交流戦が重なりさらに負けがかさんでいる時期です。
しかし今年はコロナ禍の影響でまだ一試合もしていませんでした。
そこを利用して「阪神無敗のまま親会社の株主総会へ」というタイトルの記事がでて、それがバズりました。
たしかに試合を行っていないので阪神が無敗(0敗)であることも巨人が未勝利(0勝)であることも事実は事実なのです。
言い方を変えれば巨人無敗、阪神未勝利とも言えるし、それもまた事実を表現しています。
しかし「阪神無敗巨人未だ未勝利」という表現をみると阪神は勢いに乗っていて巨人は調子が悪いような印象を受けてしまいます。
ある一つの客観的なデータを元にしていても、表現の仕方によっていかようにも印象を変えられるという好例だと思います。
- 一番狙わる部分を強化すべきです
有名な小話で、爆撃機の装甲を厚くすべき箇所はどこか問題というのがあります。
帰還した爆撃機の被弾箇所を分析して、一番被弾している箇所の装甲を厚くすれば爆撃機の耐久力がまして、機体の損失を最小限に抑えられると考えました。
しかしこれは生存者バイアスの罠で、無事に帰還した爆撃機の被弾箇所は被弾しても無事に帰還できると分析するのが正しく、他の箇所に命中した爆撃機は墜落して帰還できなかったのです。
帰還した爆撃機が損傷を受けていない部位を補強することが正しい対応だったのです。
検証に値するデータがあったとしても分析が間違っていれば結果も間違ったものになってしまうという好例です。
- 次は裏に賭けるべきです
コイントスをしていて表がでるか裏がでるかを賭けていたとしましょう。
現在5回連続で表が出続けています。
そして次の6回目で表がでる確率はいくらでしょうか?
ここであなたはデータサイエンティストであり、勝負をしている人に対してアドバイスをする立場にあるとしましょう。
真っ当な人間であるのならば、5回連続で同じ目が出ていようが100回連続で同じ目が出ていようが次のコイントスの結果の確率は常に50/50なのです。(イカサマがないのであれば)
よって「次は50%の確率で表がでます」というのが正しいアドバイスです。
しかし、データサイエンティストであるあなたは顧客から料金を頂いているので「どっちに賭けても同じ確率ですよ」という無責任な態度は取れないのです。
それを言ってしまうと自分の存在価値がなくなってしまいます。
相手が求めているのは「どちらに賭ければ勝てるか?」なのです。
そこで、それっぽい理屈をつけて「5回連続で表がでているなら統計的にみても、次の目も表が出る確率のほうが高いでしょう」や「5回連続で表が出てしまっているので次のトスで表が来る確率は下がっているはずです、ですので裏に賭けるべきです」などといって相手に納得感を与えるのです。
- 20代や30代の若者の感染者が多い
とあるウイルス検査で20代と30代の陽性患者が多いというニュースが流れました。
50人近くの陽性者が検出されて、そのうち20代と30代の割合は80%近くあったそうです。
このニュースだけを聞くとなにか若者世代が悪いかのようなイメージを持ってしまいます。
しかし、検査の実態はどうだったのでしょうか?
ニュースでは新宿歌舞伎町の夜の街のお店の人たちを集中的に検査を行ったとも言っていました。
このことから推察するに、夜の繁華街で働いている人たちのほとんどは20代や30代の方々だと思われます。
そこを重点的に検査したのですから、陽性者も20代30代の方が多く検出される結果になるのは当然の帰結のようにも思えます。
母集団を恣意的に選択すればある程度、その結果も操作できるという好例のように思えます。
SNSのトレンドや新聞やテレビの世論調査もある程度母集団にバイアスがかかっている前提で解釈するのが懸命だと思います。
こういった例のように、数値を出したりデータを分析したからと言って、その結果が必ずしも真実を現しているとは言えないのです。
やはり彼らはサイエンティスト寄りの人間ではなくアーティスト寄りの人間と思っておいた方がしっくりきます。
真実を突き詰めるのが仕事ではなく相手の共感を得るのが仕事なのですから、これはもうアーティストの仕事です。
もはやアーティストを超えて占い師といってもいいくらいです。
占いだから当たることもあれば外れることもあります。
データの取捨選択と加工を元に、ある仮説からそれっぽい予言を生成しているのがデータサイエンティストと言えます。
ガラス玉やタロットカードがビッグデータや統計学に変わっただけで本質的にやっていることは占い師と同じなのです。
Tag: 仕事