adv.yomiuriトップページへ

ojoトップ  > コラム  > 数字を読む  > Vol.5 折笠秀樹

コラム数字を読む

(Mon Oct 06 12:36:00 JST 2014/2014年10・11月号 数字を読む)

Vol.5 折笠秀樹 富山大学大学院医学薬学研究部 教授

Hideki Origasa

1956年大阪府生まれ。78年東京理科大学応用数学科卒業後、88年ノースキャロライナ大学・バイオ統計学(博士)、94年富山医科薬科大学(現富山大学)医学部教授、現在、富山大学大学院医学薬学研究部教授。著書に『臨床研究デザイン—医学研究における統計入門』 (真興交易医書出版部)、『臨床試験とは何か』(南江堂)など多数。

Hideki Origasa

『どう読む? 新聞の統計数字』(ライフサイエンス出版)

「寝る子は育つ」は本当か

  「寝る子は育つ」──これは本当だろうか、それとも嘘(うそ)だろうか? 自分のことで考えたり、周りの友達で確かめたりすることだろう。自分がよく寝るほうだったとしよう。そして、すくすくと育ち、いまは大変健康だとしよう。だから本当だといえるだろうか? 1人確かめただけだから、これではふつうの人は信じないだろう。友達2人にも聞いてみたら、2人とも当てはまっていた。これではどうだろうか? つまり、3人中3人で正しければどうだろう? これでもまだ少ないと思う人は多いかもしれない。ではどうしてそのように感じるのだろうか?

確率を計算し、 偶然ではないか確認する

  ここで登場するのが「確率」だ。「寝る子は育つ」が正しいか嘘かは分からない。つまり、「寝る子は育つ」が正しいと思われる確率も、「寝る子は育つ」が嘘だと思われる確率も同じで、それは50%ずつだとしよう。つまり、偶然の状況を想定する。そこで、仮に「寝る子は育つ」が嘘だとして、「寝る子は育つ」を正しいとする事実が3人続けて出る確率を計算してみよう。それは、0.5×0.5×0.5=0.125、つまり12.5%になる。統計学では、通常5%を切るような事実が出てくれば変だ(専門用語では「有意(significant)」)とする。実際、5%を切るようなことが起きると、人間は変だなと不思議がるようなのだ。3人中3人とも「寝る子は育つ」という事実が得られても、「寝る子は育つ」は嘘だと思える可能性が12.5%もあるというのだ。5%を切っていないので、それは偶然の範囲、つまり不思議ではないということになる。だから、これくらいではまだ本当だと思わない。ちなみに5人中5人になると、「寝る子は育つ」は嘘だと思える確率は3.125%にまで低くなる。これは5%未満なので、「寝る子は育つ」は嘘であるときに、5人中5人が「寝る子は育つ」になることは変だと判断し、「寝る子は育つ」のほうが正しいと推測する。
  主張が正しいかどうかは頭で考えていただけではわからない。データを取ることが大切だということだ。そして確率を計算し、偶然という誤差なのかどうかを判断する必要がある。少数例や小さな効果であるときは、それは偶然ではないかとまず疑ってみることが大切だ。少数例というのは症例数で考えるのがふつうだが、イベント数が少数のときも同じことだ。たとえば、「青魚を食べるとがんが予防できる」を主張する研究データで、がんの発現例が10例未満しかないようなときは信用しないほうがよいだろう。「寝る子は育つ」の研究例では、5~18歳の290人が調べられていたので決して少数例ではないだろう。
  このように偶然誤差ではないかを考えることが、真偽を間違えない第一歩だといえる。さらにいえば、一つの研究データが偶然誤差ではないかを見るだけでなく、もう一つ考えておきたいことをあげたい。それは、「研究は1つだけですか?」と質問することだ。もし1つしかなければ、それはまだ本当だと考えないほうがよいだろう。1つだけでなく、同じような結論の研究は複数あるようなら、偶然ではないかという疑いをさらに払拭できるだろう。だから、「寝る子は育つ」ということを結論した研究は他にもないかを調べることが大切なのだ。

都合のよい処理だったのではないかを疑う

  1番目のチェックポイントは偶然誤差、つまりたまたまそういうデータが得られただけじゃないかを見抜くことだった。2番目には系統誤差を考える。系統誤差はバイアスとも呼ばれることがあり、3種類のバイアスが知られている(表)。都合よい対象だけ選んでいるというのが選択バイアスである。これを見抜くことは大変むずかしい。次に、都合よいデータを採用するのが情報バイアスである。自分の結論に合うようなデータを作っていたら大問題だ。昨今問題になっているデータ改ざんまで行かなくても、情報の取り方がばらばらだったりすると情報バイアスが入る。最後は交絡バイアスと呼んでいるものだが、都合よい解釈をしてしまっている誤りである。
  たとえば、「コレステロール値は高めのほうが長生きできる」という記事があったとしよう。たしかにデータを取りコレステロール値と寿命の関係を調べると、そのような結論が得られるだろう。しかし、だからといってそのままそれを結論にしてよいだろうか? 下図を見て考えてみよう。病弱の方や高齢者ではコレステロール値が低くなりがちだ。これらの人々では死亡率が高いのは当然でしょう。だからこそ、コレステロール値が高い人で長生きするという逆説的なデータが得られる。もっともらしい解釈だが、これは交絡バイアスだ。
  別の交絡の例を挙げよう。病院のデータを分析すると、「くすりを飲むほうが早く死亡する」という逆説的なデータが得られる。だから本当かというと嘘である。ではなぜそんなことになるのか? これも上と同じで、くすりを飲んでいる患者はより重症の人が多い。そして重症な人は死亡率が高くて当然なので、くすりを飲む人ほど死亡しやすくなる。図に示したような「魔の三角関係」、すなわち交絡因子が潜んでいないかをよく考えてもらいたい。

バイアスを疑う

  さて、「寝る子は育つ」で系統誤差は考えられないだろうか? 睡眠時間の長い子どもは脳の「海馬」が大きいとする研究結果が新聞記事で紹介されたことがある。「寝る子は育つ」に合うような対象だけ選んだかどうか、つまり選択バイアスの有無は記事では分からないことが多い。また、研究には「育つ」とは「海馬」が大きいことと書かれている。身体ではないのだ。身長や体重なら正しく測れると思うだろうが、脳の中心部にある「海馬」の測定はそう簡単ではないだろう。記事にはMRIで調べたと書かれているが、測定者により癖などあるかもしれない。つまり、情報バイアスの懸念はあるだろう。また、睡眠時間データを知ったうえで海馬の測定を行っていると、情報バイアスが入る可能性が高まる。睡眠時間が長い人ほど海馬の容積を大きくしたいと思うからだ。だから、睡眠時間データを見ずに海馬を測定したかどうかが大切になる。

  では、原因のほうの「寝る」についてはどのように定義したのだろうか? 研究記事を読むと「睡眠時間」を調査したと書かれている。このデータにも誤差が入る余地はあるだろう。睡眠時間は日によって違うかもしれない。今回は5~18歳という若い方が対象であったが、もし高齢者であったら夜中に何度も起きたりするだろう。そうすると睡眠時間をどう定義するかは、人によって異なる可能性がある。こうした情報バイアスはないかを確認しないと安易に信用すべきではない。
  よく寝る子は10%海馬が大きかったという記事なのだが、10%というのは海馬測定の誤差範囲かどうかも考えておきたい。海馬の測定誤差がどれくらいかはふつうの人では分からないだろうが、たとえば心拍数や睡眠時間などだとほぼ分かるだろう。心拍数なら同じ人でも7ビートくらいは変動するだろうし、睡眠時間も30分くらいは誤差範囲であろう。仮に心拍数が70ビートだとすると、測定誤差7ビートは相対的に10%相当だ。そこで仮に10%変化したといっても、それは誤差範囲だと分かる。測定誤差の値にもよるが、相対的に20%は変化しないと意味のある変動とはいえないことが多い。

データが取得される過程を考える

  このように偶然誤差や系統誤差が大きくないことを確認することは、情報を読む際には大切なことだ。特に、系統誤差の有無を判定するにはその分野の常識や経験がないと見抜けない。研究データが取られる過程について、もっと頭をめぐらせるようなトレーニングが必要だろう。大学時代に(私のゼミ指導教官だった)故増山元三郎先生から、「統計家は現場をよく見なさい」といわれたものだ。出てきたデータだけを扱っていては数字を扱う者として半人前だといえる。

News & Report

〈No.849 リーディングトレンド〉

月末の金曜日に退社時間を早める「プレミアムフライデー」が、いよいよスタートする。午後3時に退社し、余暇を楽しんでもらおうという取り組みは、クールビズのように新たなビジネススタイル、ライフスタイルとして定着し、ビジネスチャンスとなることを目指している。

〈No.849 ojo interview〉

砥川 直大さん(アサツー ディ・ケイ クリエイティブディレクター)

〈No.849 読み解き読者調査〉

新製品からロングセラーまで商品が多彩な食品ですが、生活者はその銘柄をどのように選んでいるのでしょうか。銘柄の選定状況や理由、食品ジャンル別の購入パターンを調べました。

インタビュー

第一三共ヘルスケア
小さな広告シリーズ500回記念で全面広告を掲載 4コマ漫画下の小枠広告の継続の力を実感