分析の基本:相関と因果は違う

昨日の夜、とある人事業界の友人から、フェースブックのメッセージで、データ分析に関する質問をもらいまして。そこから始まった会話が、データ分析を語る上では基礎でありながら、結構大事な話だったので、備忘も兼ねて書いておこうと思います。

友人からのメッセージを引用すると、

https://blog.findy.us/saiyo-jikasougaku/

この考察は正しいのでしょうか。わかるようなわからないような。

(出典:筆者の友人)

で、このサイトが何をおっしゃっているのかというと、

成長を続けている会社というのはそのマーケットで勝ち切る人材がいる「採用に強い会社」であることが多いです。(中略)

古巣のレアジョブのケースでも150社くらい競合がひしめくマーケットで「なぜ一番に上場できたか?」「なぜ消える側の会社にならなかったのか?」というと、そこで働く人の差分、レベルが他社より高かったというのが大きな理由と感じています。

(出典:Findy社のウェブサイト。筆者はYamadaYuichiro氏)

と、いうわけで、「採用力が高い」→「企業としての成長力が高い」のではないか?という因果を仮説として提示されてます。この企業は、企業の採用を支援するビジネスを展開されていますので、動機としてはよくわかります。「採用を頑張れば成長力が上がります、だから採用に力を入れましょう(そしてうちのサービス使ってください)」という訳ですね。

で、この仮説を証明するために、自社のツールを使って求人票の質を分析し、求人票のクオリティと、時価総額の関係性をグラフにして表示されています。参考に、リンク先のサイトに載っている画像を引用しますね。

ただ、残念ながら、この分析には大きな問題があります。

 

a2be6fe59f20ad5550d69e606f64bd56-1

(出典:Findy社のウェブサイト。筆者はYamadaYuichiro氏)

 


この分析の問題点① 因果と相関は違う


 

まず一つ目は、相関と因果は違う、ということです。

統計を勉強すると必ず学ぶことですが、「AとBが相関としている」というのは「Aが高いとBも高い、Aが低いとBも低い」ということです。一方で、「AとBの間には因果関係がある」というのは、「Aが起きると、その結果、Bが生じる」あるいは、「Bが起きると、その結果としてAが起きる」ということを指します。

で、筆者の方は、「採用力が高い」→「企業としての成長力が高い」のではないか?という仮説を文中で提示されているのですが、そのあと、分析の段階になると、上の図にもあるように「採用力が高い=時価総額が高い」と、相関の分析をしてしまっています(あ、もちろん、時価総額が高いことと成長力が高いことは違う、という点も重要な問題点ですね。成長力を語るのであれば時価総額なり、売上、利益なりの増加率を見なければいけません)。

実際、グラフを見ると相関しているように見えますね。ただ、この相関を持って、「採用力が高い」→「企業としての成長力が高い」という因果は語れません。逆の相関があるからです。例えば、

「企業としての成長力が高い」→「採用数が多い」→「採用の経験が積める」

「企業としての成長力が高い」→「人がボトルネックになる」→「採用に力をいれる」

のように、「企業の成長力が高い」ことによって採用力があがる、という因果の流れはたくさんありえます。

なので、本当に「採用力が高い」→「企業としての成長力が高い」という因果を証明したいのであれば、相関からさらに踏み込んで、この向きの因果である、ということを示す分析をする必要があります。


この分析に潜む問題点② 因果とは本質的に時間差を含むもの


 

で、そのような分析をする上で考えなければいけないのが、因果というのは、本質的に時間差を含むものだ、ということです。

今回の例で言えば、「採用力が高い」と、「戦略にあった人が取れる」し、「競合よりいい人が取れる」ので、「人材がいい仕事をしてくれる可能性が高い」ために、「いいサービスが開発できたり、有効なマーケティング上のうち手を打ったり、効果的なコストダウン施策が打てる」ので、「成長力があがる」という話ですから、普通に考えれば、今この瞬間に「採用力が高い」ことが、企業としての成長力につながるためには、少なくとも数ヶ月単位の時間がかかりそうです(どれくらいの時間がかかるかは、企業の規模とか、意思決定の身軽さとかに影響を受けそうですが)。

なので、「採用力が高い」→「企業としての成長力が高い」ことを示す上では、今この瞬間の「採用力」と、「成長力」の関係を分析しても説得力が実はありません。少なくとも数ヶ月はずらしてデータをとって、その間の関係を分析する必要があります。

具体的にいえば、今日この瞬間の採用力を分析した上で、その後半年、あるいは1年、3年、という期間で見たときに、今この瞬間採用力が高かった企業が成長したのか、ということを分析しないと、「採用力が高い」→「企業としての成長力が高い」という仮説は検証できない、ということです。

なので、このサイトがこのデータをもとに結論として、

企業を成長させたい経営者ではあれば「採用力」は大事ですね。

と語っているのは、無理がある、と言わざるをえません。

 


補足


まあ、他にもいろいろ突っ込みどころはありまして、上にも書いた通り「成長力が高い」ことと「時価総額」は違いますし、「採用力がある」ということを測定するのに「求人票の質が高い」ことで測っていいのか、というのもあります。
さらに言えば、業界によって企業の実際の売上や利益と時価総額の関係にはかなりばらつきがあるし、ある瞬間の時価総額だけを切り取ると、その時の相場の状況の影響がすごく大きくなるのでは?という点も気になります。
が、そうした測定上のいろいろな問題点よりも、私としては、「相関」で「因果」を語ることの問題点がはるかに気になったので、上記の①②に焦点を当てて書いてみました。この手の記事は時々見かけますが、残念ながら統計分析のことを本格的に勉強したことがある人には問題があることが瞬間的にわかるので、気をつけたほうがいいかと。
ちなみに蛇足ですが、「採用も含めて、育成、評価、社内コミュニケーションなど、総合的に人事、組織作りをきちんとやっていると時価総額にプラスの影響がある」といいうことを示した研究は存在します。人事系の研究者であれば誰でも知っているのではないか、というくらい有名な論文で、Mark Huselid という研究者が1995年にAcademy of Management Journalに発表したものです(こちらからダウンロードできます)。
なので、総論として、質の高い人事を行うことが企業の成長に資する、という主張をするのであれば、それは根拠のある主張だと思います。ただ、個人的には、採用だけに論点を絞るのは、あまり筋がいい分析だとは言えないと思います。なぜならば、採用を頑張っても、とった人がそのあと活躍してくれないと成果に繋がらないからです。
広告

世界大学ランキングの調査票が送られてきた。

今朝メールボックスを開けてみると、Times Higher EducationのWorld University Rankingへの調査依頼メールが届いてました。
毎年、東大が何位、とか、日本からは何校がランキング、みたいにニュースになるあれです。
https://www.timeshighereducation.com/world-university-rankings
まあ、調査にお招き頂いたのは、一人前の研究者として認識されたのだと思うので、ありがたいことなのです。が、内容にちょっと驚きました。僕の専門分野の中で、

「世界で最も優れた研究をしている大学を15校」

「世界で最も優れた教育をしている大学を15校」

答えてくださいってことなんですが(加えて、あなたの国で、というのがさらに続きます)、正直言って真面目に考えれば考えるほど回答が難しい質問です。
研究であれば、論文には必ず筆者の在籍校が記載されているので、よくみる名前はさすがに数校くらいなら印象に残るのですが、とはいえ15校と言われると厳しいですし、そもそも研究者の名前は覚えていても、大学の名前まで注意を払っていないことが殆どです。
さらに、教育は正直言って判断する根拠が乏しいです。他の大学でやっている教育の内容を直接見る機会は無いし、リクルーターみたいに、いろいろな大学の卒業生にたくさん会うわけでも無いですしね。あるとすればPhDの採用でいろんな大学からの応募があるって感じですが、それ分かるのはPhD教育の質であって、より規模が大きい学部や修士の質は何もわかんないし・・・・
と、いうことで、総じて判断の根拠が乏しいのです。ベテランの先生ならもうちょっと情報量あるのかなあ、と考えましたが、多分程度問題でしょう。
こういう調査の結果は明らかで、「有名」で「好印象」な大学が選ばれやすくなります。
じゃあ、ランキングを上げるためにはどうすればいいか?

研究者の間での知名度と印象をあげればいいのです。

もちろんランキングはいろいろな要素で構成されているので、これだけの話では無いのですが、ランキングをあげよう、という大学の立場に立つと、結局のところ、上記の設問に答える研究者に純粋想起されるように、まずは研究者の間で名前を売れば単純に人気投票部分の点数は上がりますよね。
これで、学会で見かける、

「スポンサーになることで自校の名前を学会パンフに載せる」

「自校の名前をバッグに刷って学会で配る」

「学会会場でブレックファーストや夜のパーティを主宰する」

みたいな売名行為みたいな活動を、いろいろな大学がやってたのはこのためだったのか・・・と納得がいきました。
まあ、名前を認知してもらわないと、中身が何をやっているかも記憶に残らない、というのも理屈としてはよく分かるのですが・・・明らかに、大学の研究と教育という本業に直接寄与しない活動にお金を結構かけているわけで、ランキングに踊らされているといえば踊らされているような感もあり、なかなか微妙な気づきでありました。

国際比較調査にはご用心。

データを読み込み、理解する力は現代のビジネスにおいて重要な能力の一つと言っていいだろう。ビッグデータの様々なビジネス分野における活用や、データサイエンティストの活躍に見られるように、データドリブンのビジネス意思決定が広まっている。

昨日ちょうど出ていたニュース記事に、人事領域でのデータ活用についての記事があった。

TechCrunch – HR Technology Conferenceに見る人材領域イノベーションと日米温度差

表題の通り、日米での人事領域におけるデータ活用の違いについて語っているもので、内容自体は非常に興味深く読んだ。筆者が日本における人事領域でのテクノロジー活用の展開の遅さに警鐘を鳴らしていることは、筆者がまさに人事領域でのアプリケーションの提供をしていることを割り引いても、納得できる話だ。

新しいテクノロジーの導入に日本企業が慎重なことはこれまでにも様々な場で指摘されてきているので(例えば、ITメディア ー 日本人の生真面目さが企業をダメにする)、ここでもか、という印象である。

さて、しかしここで議論したいのはそこではない。筆者が記事の中で引用している日本企業におけるエンゲージメントの低さについての調査データだ。

エンゲージメントの高い社員は、比例してパフォーマンスが高くなると証明されているにも関わらず、アメリカ全体でエンゲージメントが高い社員は全体の三分の一以下に留まっているという。ちなみに日本はどうかというと、2013年のGallupの調査では7%とアメリカを大幅に下回る数字が出ている。調査会社により数字の違いはあるものの、Aon Hewittの調査でもダントツで世界最低水準となっている。

この手のデータはよく引用されており、日本の職場慣行について批判的に議論する上では使いやすいのだが、重大な落とし穴がある。実は、この手のサーベイ調査への回答の平均値を元に国際比較することには、かなり大きなハードルがある。

それは「項目の解釈」と「回答パターン」に関する問題だ。

事実を聞く質問(例えば、「あなたは通勤に何時間かけますか」)の場合は、世界中のどこで質問をしても、回答は比較的安定している。翻訳をしたとしても、質問が指し示す現象が劇的に変わることは無いし、事実を聞いているので、単純に事実を答えればいいからだ。この場合は、国際比較もしやすい。

それに対して、主観的な心理について聞く質問は、まったく違う問題を抱えている。まず、どんなに頑張って翻訳をしても、国、言語によって解釈に違いが生まれやすい。翻訳先の言語に、元の言葉の意味にちょうどぴったり対応する概念がない場合は特にそうだ。ここでいう、エンゲージメントはまさにそうだ。だからこそ、漢字やひらがなで表現できる日本語に翻訳がなされずに、そのままカタカナとして使われ続けている。もちろん、Gallupにせよ、 Aon Hewittにせよ、この問題は理解しており、慎重に翻訳をして、同じような意味の項目であることを担保していると思うが、それなりのチャレンジである、ということは改めて述べておきたい。

次に、よりこちらの方が大きな問題だが、国によってサーベイの回答パターンに違いがある。簡単に言えば、以下のような5段階の選択肢から、どれを選びやすいか、ということだ。

1. 全くそう思わない
2. あまりそう思わない
3. どちらとも言えない
4. そう思う
5. 全くそう思わない

日本人は相対的に見て、調査に回答する際に控えめに選択することが知られている。つまり、肯定的な回答をあまり選ばないのである。また、中庸な選択肢(この場合は3)を選びやすい傾向がある、と指摘する研究もある。

例えば、Anne-Wil Harzingは、様々な調査項目を含む、26カ国の調査データをもとにした分析で、各国の回答パターンについて報告している。肯定的な回答の選択率から否定的な回答の選択率を引いた値(相対的に肯定的に答えやすい度合いを示す)は、26か国中で日本が圧倒的に低い。

こうした、回答パターンの違いがあるため、エンゲージメントに関する調査回答の平均値に国間で差があったとしても、、果たしてその差違が、回答パターンの違いによるものなのか、それとも実際に感じていることが違うことによるものなのか、切り分けが難しいのである。データとして、日本人のエンゲージメントに対する回答が低いことは事実だとしても、それをすなわち「日本人はエンゲージしていない」と解釈するのは間違いかもしれない、ということだ。

まさに、冒頭の記事の筆者が書いている通り、データがReliable(信頼できる)かどうか、慎重に考える必要がある。特に、主観的な心理について聞く調査の回答についてはそうだ。そのまま文字通り国際比較をしても解釈をしてもいいのか、そうではないのか、用心した方が良い。

日本は本当に集団主義なのかという問い。

日本は、集団主義であって、欧米の個人主義とは違う、という論考は
よく耳にする主張だが(そして、自分自身もそれを前提に幾つかの記事を書き、発表してきたが)、今日はこのことについて改めて考えてみたい。

まず、個人主義と集団主義の定義だが、HofstedeやTriandisによれば、個人主義は、個人が独立した主体であり、個人の利害が集団の利害に優先する、という価値観や考え方のことであり、集団主義は、逆に、個人は他の人々とのつながりの中で生きる存在であり、集団の利害が個人の利害に優先する、という価値観や考え方のことを指す。

これは、「自己」を何に依拠して定義するか、という問題であり、人のあり方の根本に関わるものだ。

しかし、ここでいう「集団」はかなり曖昧な議論である。

いわゆる「家族」や「親族集団」のことを指すこともあれば「会社組織」のことを指すこともある。個人主義の立場から見れば、どちらも個人ではない集団である、という点では共通だが、生活を共にする家族と、社会における経済活動の主体である「会社」は、どう考えても帰属の対象としては別のものだ。

現代の日本の文脈で考えれば、ワークライフバランスは、ほぼすなわち、「家族」をとるか、「会社」をとるか、という話だ(どうも、日本では、ワークライフバランスの話はほぼ常に、家族持ちの家族に対する責任と、会社に対する責任の対立軸で語られ、家族とも会社とも切り離された、「個人」という文脈で語られることは、僕が知る限り全くない。まあ、これは欧米でも程度の差はあれ、似たようなものかもしれないが)。

「中国化する日本」で一躍有名になった歴史学者、与那覇氏によれば、日本はどちらかといえば血縁関係で繋がる「家族」よりもむしろ、「藩」や「お家」のような、バーチャルな、仕組みとして成り立った集団を重きに置くのに対し、中国は血縁および同じ姓でつながる縁戚関係(実際に血縁があるかどうかはともかくとして)や、個人的な信頼関係を重視する、ということだ。実際、日本に関して言えば「遠くの親戚よりも遠くの他人」という象徴的なことわざが存在する。

Brewerは、このあたりの個人主義ー集団主義の二項対立の枠組みを批判して、「個人主義」「人間関係主義」「集団主義」の3つからなる枠組みを提示している。人間関係主義は、個人同士のつながり、すなわち「人脈」「コネ」を重視する考え方であり、集団主義は集団に対する帰属、すなわち「メンバーシップ」を重視する考え方だ。

個人主義者は自分の能力や実績、何をしているかで自己を定義し、人間関係主義者は、誰とつながっているのか、誰と親しいか、どのような人間関係の網の中にいるか、で自己を定義する。集団主義者は、どのような集団に属しているか、で自己を定義するのである。人間関係はあくまでも顔の見える個人の網であるのに対し、集団は抽象的な存在である。国家や企業がそれにあたるだろう。

改めて考えてみると、日本の文化はどの形なのだろうか?僕には今のところ、答えがない。なんというか、従来の集団的なものが、徐々に変わってきているような感じもするし、そうでもない感じもする。もやもやな感じである。

僕の友人は、個人主義的な要素が強い人たちが多い。「会社に縛られるのではなく、自分で決めるのが大事だし、その上で会社が自分のやりたいこととあっていれば、会社で働けばいいじゃない」というような考え方の人間が多い。彼らの家族・親族との関係はよくわからないが、家族・親族のために自分を犠牲にする、という雰囲気はあまり感じない。

一方で、極端な例だが、今年前半に結構物議を醸していた、満員電車でのベビーカーに対する批判が、「満員電車で会社に行かないといけない人たちに対して迷惑」というあたりには、ある意味、自分勝手なように見えつつ、結局は意思決定の基準は他者であるあたりが、個人主義とは言い難い。

加えて、組織や集団内における行動において、自分の主張よりも、周りの人たちの主張や利害を考慮して、明確な対立にならないように探っていくというのも、広く一般的な行動のように思われる(残念ながら電車で出くわした人たちは気を使うべき他人の範疇にも入らない人もいるわけだが)。

さらに違う話をすれば、都市部に出て働く人たちとは別に、地元で昔からの友人たちとつるんで、その輪の中で生きて行くことを志向する人たちも昔から存在する。

散漫な例だが、それだけ、多様な行動のパターンが存在する、というわけだ。日本の中にも、個人を優先している集団もいれば、組織を優先している人たちもいて、関係を中心に生きている人たちもいるのが現実である。そうなると、「日本」という括りで考えることに非常に疑問が出てくるわけである。

国際経営論の世界では、文化や制度を総じて国単位で議論することが伝統的だが、もはや「国」という単位の議論は、文脈によってはあまり意味がないのかもしれない。日本の企業といえば、長期雇用の製造業だというわけでも、もはやないし。そうした「伝統的」企業の中の従業員の行動は、上述の通り、制度的な要因の影響を受けているわけで、それを「日本の文化」と言い切るのも、疑問を感じる昨今である。

調査データはどれくらい信頼できるか?

先日、朝日新聞デジタルにこんなニュースが出ておりまして、

ネット調査、「手抜き」回答横行か 質問文読まずに…

これはこれで若干煽り気味なタイトルの記事なのですが、さらに、それに反論する形で書いた、マクロミルの研究員によるブログ

ネット調査は「手抜き回答」が横行しているのは本当か?

が、これまたなかなか手前味噌というか、自分たちの商品を守りたい意図が見事に透けて見える内容で、率直に申し上げて、なかなか面白い論争気味なのです。

まあ、とはいえ面白がっていてもしょうがないので、最近僕が自分で行った調査のことにも触れながら、この、ネット調査の信頼性の問題、そして取りうる対策について書いておこうと思います。

結論から言うと、

ちゃんと自衛策を取った方がいい

と僕は思っております。

・・・・・

この記事の元になったのは、「社会心理学研究」という学会誌に発表された三浦&小林 (2015)による研究なのですが、なかなか面白い内容です。 

オンライン調査モニタのSatisficeに関する実験的研究

内容としては、ネット調査で回答者が設問をちゃんと読んでいるかチェックするための項目(いわゆる「アテンションフィルター」と呼ばれるもの)をサーベイに挿入してみたところ、驚くほどたくさんの人が、ちゃんと読まずに回答していたことがわかった、と言うものです。アテンションフィルターとは、例えば以下のようなものです。


以下のそれぞれの設問について、あなたの考えに当てはまる程度として、「そう思う」から「そう思わない」から最も当てはまるものを一つ選択してください。

そう思う ややそう思う あまりそう思わない そう思わない

昼ごはんといえばうどんだ   ⚪︎      ⚪︎        ⚪︎      ⚪︎

昼ごはんといえばカレーだ   ⚪︎      ⚪︎        ⚪︎      ⚪︎

「そう思う」を選んでください ⚪︎      ⚪︎        ⚪︎      ⚪︎

餃子といえばビールだ     ⚪︎      ⚪︎        ⚪︎      ⚪︎


はい、3つ目の設問ですね。あんまりよく読まずに回答している人は、うっかり「そう思う」ではないものを選んでしまうわけです。

他にも長文の設問の最後に「何も選ばずに次のページに進んでください」と書くものもあるのですが、いずれにせよ、きちんと一つ一つの設問に注意していない人を引っ掛けるように考えられた設問が、「アテンションフィルター」です。

上記の論文では、これらを調査票の中に組み込んでみたところ、実に数十パーセントの人が引っかかったと言うことを述べています。それで、「手抜き」回答横行か、という冒頭の記事タイトルになったわけですね。

・・・・・

ちなみに、僕も同じような項目を自分の調査に組み込んで、アメリカ、日本、中国で実施してみたのですが、なんと、日本が最も引っかかる率が高かったです。誤答率を比べてみると、以下のような感じです。

アメリカ 10%〜15%
日本   30%強
中国   20%弱

おそらく、この違いは、アメリカでつかったプラットフォーム(Amazon Mechanical Turk)の場合、発注側が回答をチェックして、きちんと完了していないと謝礼を支払わない、ということができる、なおかつ、ミスが多い人は評価が下がっていって調査に参加できなくなる、という風に、きちんと答えるインセンティブが組み込まれているからではないかと思います。

一方、日本のネット調査会社は、僕が利用した中で見聞きした限りでは、こういう形で途中でフィルターにひっかかったからといって謝礼を支払わない、というのはできないようです。このあたりは、不注意な参加者が出やすい構造なのかもしれないですね。

あとは、上記に加えて、アテンションフィルター自体が、アメリカの方がより一般的に使われている、ということもあるかもしれません。僕自身、調査の仕事をして長いですが、アテンションフィルターについて知ったのはここ最近のことなので。それだけ、日本では知られておらず、調査回答者も知らない、ということがあるのではないかと。

ま、それですら、アメリカでも10%以上が引っかかるわけですが。

マクロミルの研究員の記事では、いろいろと現状を擁護する説を展開されていますが、僕は率直に言って、あまり説得力がないと思います。項目を読まずに回答したデータに、価値があるわけがないからです。

もちろん、項目を読みたくなくなるような長い項目を設計する側の問題もあるので、一概に調査会社を批判するのは私の意図ではありません。が、信頼できるデータを欲しいのであれば、「項目設計」と同時に、「回答態度」にも気を配る必要がある、ということは明らかでしょう。

ちゃんと読んでない回答者の回答は除いて分析することができるように、回答者側が設計する必要があります。

・・・・・

ちなみに、アテンションフィルターのような、あからさまなやり方以外にも、いくつか怪しい回答者をピックアップする方法は存在します。

① 回答に要した時間を見る

調査会社によっては、回答にどれだけの時間がかかったか、納品データに入れてくれる会社がありますが、これは一つの参考になります。あまりにも短い時間で答えている人は、問題を読んでないのでは?ということですね。十分にサンプル数が取れている場合は、こういうデータは除いて集計してもいいでしょう。

② 広く知られた事実を聞く質問を入れる

項目の中に、比較的よく知られた事実を聞く質問を加えておくことで、そもそも質問を読んでいない人をピックアップすることが可能です。もちろん、その事実を知らなかった人がはじかれてしまうリスクはあるのですが。アテンションフィルターは、あまりにも回答者を疑っているのがあからさまなので、それがやりにくい場合にはは、このパターンが有効かもしれません。

特に、Amazon Mechanical Turkの場合は、人間の代わりにコンピュータープログラムで調査に適当に回答させてお金を稼ぐという、えぐい活動も行われているようで(日本はどうだかわかりませんが)、人間がちゃんと内容を考えて答えれば間違えないような質問を入れておくことを自衛策として推奨している論文を見たことがあります。

ちなみに、ここまでの話はほぼ、ネット調査の話なのですが、①は企業内で実施する意識調査でも使える方法ですね。今ちょうど、企業での調査もやっているので、この辺も分析の際には確認してみようかな、と思っています(流石にアテンションフィルターを入れるのは企業調査では少々はばかられますね)

・・・・・

と、いうわけで、ネット調査をやる機会はいろいろとあると思いますが、データで何かを語る際にはそもそもデータが信頼できるのか、という点も考えた方がいい、というお話でした。