Seminar (Psychology)
統計用語:易?
出口研究室 > 演習室 > ゼミ室 > やさしい統計用語のお勉強 > 統計用語:易?


相関係数
(そうかんけいすう)
  Excelファイル

 私たちが数字を使う時は,ジュースは1本105円とか,国語のテストの点数は75点とかいうように,ある1つの「もの」の大きさや高さ,長さ,重さを表すことが多いと思います。

 しかし,相関係数は,これとはちょっと発想が違う数字です。この数字は,例えば,「『歌唱力』と『カラオケ屋さんでの練習時間』には,どのくらいの関係があるのかな?」という問題について考えるときに使用します。相関係数とは,簡単に言うと,ある事柄とある事柄との「関係」の「強さ」と「向き」を数字で示したものです。

 論文に,「学生100人の歌唱力とカラオケの練習時間を測定し,両者の相関係数を算出した結果,r =.55であった」と書いてあったら,「1日の練習時間が長いほど,歌唱力が高い」ということを意味します。なお,相関係数は+1〜-1の間の値しかとらないので,ふつうは1の位の「0」を省略して,小数点から記載します。「r =.55」というのは,「相関係数は+0.55です」という意味です。

   

 一方,もしも「r =-.55」というように,マイナスの数字が書いてあった場合は,「1日の練習時間が長いほど,歌唱力が低い」ということを意味します(練習のし過ぎで声がかれてしまったのかもしれません…)。
 そして,「1」や「−1」に近くなるほど(相関)関係が強く,「0」に近いほど(相関)関係が弱いことを示します(厳密に言うと,「相関関係があること」と「関係があること」は同じ意味ではありません。下記の「メモ」を参照してください)。

 相関係数は,非常に多くの研究で用いられています。ちなみに,ある研究では,外見的魅力に対する自己評価と他者評価との相関係数について論じられています(奥田, 1990)。興味のある人は読んでみて下さい。

  −メモ−
  • 相関係数とは,簡単にいうと,「事柄Aと事柄Bとの関係の強さと向きを示した数」です。論文中では「r 」で表されることが多いです。
  • 相関係数が,「+1」か「-1」の時に相関が最も強いことを,±0の時に最も相関が弱い(ない)ことを示します。
  • 正負の記号がプラスの時は,「事柄Aが高い(大きい)と,事柄Bも高い(大きい)」という関係を意味します。このような関係を「正の相関(関係)」といいます。
  • 逆にマイナスの時は,「事柄Aが低い(小さい)と,事柄Bは高い(大きい)」という関係を意味します。このような関係を「負の相関(関係)」といいます。
  • 一般に,相関係数の絶対値が.20〜.40未満を「弱い相関」,.40〜.70未満を「中程度の相関」,.70以上を「強い相関」といったりします。.20未満だと,ほとんど相関はないと考えます。
  • 多くの論文では,「r =.55 (p <.05)」というように,「p 」という記号(有意確率を示したものです)が一緒に書かれています。この記号の後の数字は相関係数ではありませんので,間違えないようにして下さい。ちなみに,相関係数の絶対値が.20以上であっても,「p 」が.05(0.05のことです)よりも大きい場合は,「相関がある」とは見なされないことが多いです。
  • とりあえずは,「相関がある」を「関係がある」と読み替えても大きな問題はないと思います。ただ,厳密に言うと,2つの事柄の間の相関係数が0であっても「関係」はある場合があります(U字,逆U字型の関係にある場合など)。また,相関はあっても,実際には関係のない場合(擬似相関)もあります。ここのあたりの問題に興味がある人は,『吉田寿夫 (1998). 本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本 北大路書房』を読んでみて下さい。なお,擬似相関については,偏相関係数に関する記述も参照してください。
  • 相関関係から,因果関係(原因と結果の関係)を推測する際には,かなりの注意が必要になります。カラオケの例であれば,「練習したから歌唱力が上がる」という因果関係だけでなく,「歌唱力が高いから,カラオケ屋さんで歌うのが楽しくなって,練習時間が増える」という因果関係も考えられます。この問題については,上の吉田(1998)などを参照して下さい。






独立変数と従属変数
(どくりつへんすう・じゅうぞくへんすう)
 
 「独立」「従属」に「変数」と,あまり耳慣れない言葉かもしれません。これは,実験について書かれた論文などでよく見かける用語です。

 例えば,肥料会社につとめているAさんが,朝顔にたくさんの花を咲かせるための「新しい肥料」を作ったとします。この肥料の効果を調べるために,Aさんは実験を行いました。
 実験では,ある朝顔には「新しい肥料」を与え,別の朝顔には,今まで使っていた「昔の肥料」(なんだか少々妙なネーミングですが…)を与えました。そして,「新しい肥料」を与えられた朝顔が咲かせた「花の数」と,「昔の肥料」を与えられた朝顔が咲かせた「花の数」を比較しました。

 このような実験において,「肥料の種類」(「新しい肥料」か「古い肥料」か)のことを「独立変数」,「花の数」のことを「従属変数」といいます。つまり,実験者(Aさん)によって,「こっちの朝顔には『新しい肥料』,こっちの朝顔には『古い肥料』を与えよう…」というように,「操作」される事柄のことを「独立変数」といいます。一方,「『新しい肥料』ないし『古い肥料』を与える」という実験の結果,「新しい肥料」や「古い肥料」を与えられた朝顔に咲いた花の数のことを「従属変数」といいます。

 なお,文献中で「独立変数」と書かれてあっても,必ずしも実験者によって操作されている事柄ではないこともあります。もしも,実験ではなく,相関的研究(「メモ」参照)に関する文献で「独立変数」「従属変数」という用語が出てきたら,「独立変数」を「原因とされる事柄」,「従属変数」を「結果とされる事柄」として読んでみてください。(一応,補足ですが,実験についての文献であっても,「独立変数」=「原因とされる事柄」,「従属変数」=「結果とされる事柄」と考えても,特に問題はないと思います。)

  −メモ−
  • 「相関的研究」とは,「原因」と考えられる事柄であっても,これを実験者が操作しないで行う研究のことです。年齢や性格のように,操作を行うことが難しい事柄の影響について検討する場合や,(比較的長期にわたる)子育ての仕方のように,操作をすることに倫理的な問題が伴う場合などに用いられます。






標準偏差
(ひょうじゅんへんさ)
  Excelファイル

 「偏差」という言葉を聞くと,受験生の時によく見た「偏差値」を思い出す人が多いと思います。そんな言葉に,さらに「標準」なんて文字が入ってくると,なんだかとても難しそうな感じを受けそうですね。しかし,大体の意味を理解することはそんなに難しくありません。
 標準偏差とは,分布の散らばり具合を数字で示したものです。とりあえず,以下の例を読んでみて下さい。

 2人のファッションデザイナーが,新しい洋服を創りました。デザイナーAさんは,わりと地味で保守的なデザインの服を創りました。一方,デザイナーBさんは,非常に派手で革新的なデザインの服を創りました。
 どちらの服を店に並べようか悩んだ店長さんは,お客さんに売れそうな服を判断するために,大勢の人たちを集めて,品評会を行うことにしました。参加者は,AさんBさんそれぞれの服の「デザインの良さ」を,100点満点で評価しました。
 その後,評価を集計してみたのですが,AさんもBさんも,平均点が60点前後になってしまいました。
   

…さてさて,このような時に,「Aさんが創った服と,Bさんが創った服は,どちらも同じような印象を参加者のみなさんに与えた」と考えていいのでしょうか?

 店長さんは,平均点だけで判断することはせず,参加者の評価を一人ひとり丁寧に見てみました。その結果,以下のようなことが分かりました。
 デザイナーAさんの服は,比較的地味で保守的であるため,ほとんどの人が60点に近い点数をつけていました。しかし,Bさんの服は,非常に派手で革新的なデザインです。その評価は,人によってかなり違いがでていました。派手さや革新的なデザインについていけず,40点程度の点数しかつけない人も少なからずいた一方で,大変な感銘を受け,80点前後の点数をつけた人も同じくらいいました。
 これだけAさんの服とBさんの服に対する参加者の評価が違っていても,平均点はどちらも60点くらいになってしまったのです。

 こんな時に,標準偏差という数字が役に立ってきます。最初に書いたように,標準偏差は,分布の散らばり具合を示す数字です。このデザイナーの例の場合,標準偏差は「デザインに対する評価の散らばり具合」を表します。ですので,Aさんに対する評価の標準偏差は小さく,Bさんに対する評価の標準偏差は大きくなります。平均値だけでは示すことが出来ないような情報(評価の散らばり具合)を,標準偏差は示すことができるのです。

 心理学の研究では,平均値だけでなく,必ずと言っていいほど標準偏差も記載されています。数値を読み取るときには,平均値だけでなく,標準偏差にも着目するようにしてみて下さい。なにか面白い発見があるかもしれません。

  −メモ−
  • 簡単にいうと,「分布の散らばり具合を示した数字」です。
  • 論文中では「SD 」で表されることが多いです。
  • 最低値は0(「みんな同じ値」であることを示します),最高値は特に決まっていません。
  • 例えば,ある試験の平均点が60点,標準偏差が10であれば,50〜70点の間に,受験者の得点の約7割弱が入ります。つまり,(正規分布をしていれば,)「平均値±1標準偏差」の間に,全データの7割弱(約68%)が入ることになります
  • 標準偏差や正規分布について詳しく知りたい人は,『大村 平 (1969). 統計のはなし−基礎・応用・娯楽− 日科技連出版社』などを読んでみて下さい。






標本の大きさ(N, n
(ひょうほんのおおきさ)
 
 これは,調査や実験でいえば,回答者や実験参加者の数になります。論文中では,「N」や「n 」で示されることが多いようです。
 文献に「…質問紙調査に対する回答をもとに,各項目の平均値と標準偏差を算出した(N =258)」と書いてあったら,「各項目の平均値と標準偏差の算出に使用したデータにおける回答者の人数は258名だった」ということを意味します。

  N =?

  −メモ−
  • 「標本の大きさ」(sample size)と「標本の数」(number of samples)とは,意味が異なるので注意してください。
  • N と統計的検定には,密接な関わりがあります。また,Nが非常に大きくなると,検定の結果を考える際に(検定を行う際にもですが…),ある種の注意を払う必要が出てきます。この問題については,『繁桝算男・柳井晴夫・森 敏昭(編著) (1999). Q&Aで知る統計データ解析−DOs and DON'Ts−心理学セミナーテキストライブラリ=3 サイエンス社』のp.75などを読んでみてください。






平均値と中央値
(へいきんち・ちゅうおうち)
   「クラスの期末テストの平均点」とか,「サークルの構成メンバーの平均年齢」とか,ある集団の特徴を説明するとき,私たちは「平均値」を利用することが多いと思います。しかし,場合によっては,平均値を使用するとちょっと困ってしまうこともあります。

 例えば,大学生仲良し5人組のひと月あたりの食費について調べたとします。すると,4人はだいたい3万円だったのですが,1人だけ大変裕福な人がいて,毎日キャビアや最高級のお寿司などを食べており,ひと月に88万円も使っていたとします。この場合,5人の食費の平均値は,なんと20万円になってしまいます。これでは,「私たちが1月に使っている食費の平均は20万円だよ」と言っても,あまり適切な説明になっていないですね。
   

 こんな時に「中央値」を使ったりします。中央値とは,文字通り「真ん中の値」のことです。上の例で,5人の食費は「3万・3万・3万・3万・88万」なわけですから,中央値は3万になります。
 このように,中央値を使用することで,その集団に,とてつもなく高い(低い)特徴を持っている人がいたとしても,それなりに適切な値を出して説明することができるようになります。

  −メモ−
  • 平均値は「mean」,中央値は「median」と表されることもあります。