PR
二項分布と正規分布の関係【例を使ってわかりやすく解説】
統計において、二項分布と正規分布はどちらも基本的な確率分布ですが、二つの間には深い関係があります。
この記事では、二項分布と正規分布の関係について説明していきます。
二項分布と正規分布の関係
…はい、じゃあ計算しといてください。
…いや、無理ですよ。この確率は面倒です。
自分で言い出したんじゃないですか、計算してくださいよ。
なにやってるんですか?
いや、さっきカタン(ボードゲーム。実際にあります。面白い、オススメ。)やってたんだけど。今回盗賊(2つのサイコロの目の和が7)があんまり…10回しか出なかったんだよね。で、「今の80回のサイコロ投げのうち、盗賊が10回以下しか出ない確率ってどのくらいだろう?」って言ったら、計算しろってこのオニ…先生が言うんだ。
…
最近個人的にハマってるオススメのボードゲーム「カタン」が出てきましたが、ボードゲームのルールは抜きにして、要はこういうことです。
(問)サイコロを2個投げたときの目の和を考える。2個のサイコロを80回投げたとき、目の和が7である回数が10回以下である確率を求めよ。
ちょっと考えたらすごく計算が大変だ、ということはわかると思います。
ちなみに、反復試行の確率で計算しないといけません。一回のサイコロ投げで目の和が7になる確率は\(\displaystyle \frac{6}{36}=\frac{1}{6}\)で、80回中10回以下(10回、9回、…、1回、0回)の確率を全て足さないといけないので、求める確率は
\(\displaystyle _{80}C_{10} \left( \frac{1}{6} \right)^{10}\left( \frac{5}{6} \right)^{70}+ _{80}C_{9} \left( \frac{1}{6} \right)^{9}\left( \frac{5}{6} \right)^{71}+\cdots + _{80}C_{0} \left( \frac{1}{6} \right)^{0}\left( \frac{5}{6} \right)^{80}\)
…太郎くんが「オニ」というのもわかります。
そこで正規分布の出番です!二項分布は試行回数が多ければ、正規分布とみなせるという性質があります。
ということで、正規分布とみなすことで、ガチンコ計算した値とほぼ近い値を求めることができます!
二項分布と正規分布の関係
二項分布\(B(n,p)\)は試行回数\(n\)が大きければ正規分布\(N(np,np(1-p))\)に近似することができる。
※補足:二項分布\(B(n,p)\)の期待値は\(np\)、分散は\(np(1-p)\)になります。よって、自然と正規分布を決定する2つの要素「平均(期待値)」と「分散」はそれぞれ、「\(np\)」と「\(np(1-p)\)」になります。
【どうでもいい話】
太郎くんが話してたカタン…めちゃくちゃ面白いですよ。
3〜4人で遊ぶボードゲームで、2個のサイコロを順番に投げて資源を獲得!街や道を発展させてポイントを競うゲームです!
話に出てきたオジャマ虫「盗賊」や、他のプレイヤーとの取引が醍醐味!運以外の駆け引き・戦略要素も大きく、公式競技として大会も行われるほど。
興味があったらやってみてね。
例題を使って二項分布で表される分布の確率を求めてみよう
先ほどの例を使って、実際に確率を求めてみましょう!
流れとしては、
「二項分布」→「正規分布に近似」→「標準化して標準正規分布表から確率を求める」
となります。正規分布から標準化して標準正規分布表を読む作業はこちらを参考にしてください。
(解答)
今回は、試行回数が80、目の和が7になる確率\(\displaystyle \frac{1}{6}\)なので、二項分布\(\displaystyle B\left(80,\frac{1}{6}\right)\)に従います。
よって、正規分布\(\displaystyle N\left(80 \times \frac{1}{6},80 \times \frac{1}{6} \times\frac{5}{6} \right)\)つまり正規分布\(\displaystyle N\left(\frac{40}{3},\frac{100}{9} \right)\)に従う、とみなせます。
このとき、10回以下である確率、
この部分の確率を求めていきます。
これを標準化すると、
\(\displaystyle Z=\frac{10-\frac{40}{3}}{\sqrt{\frac{100}{9}}} = -1\)
つまり、標準正規分布で\(Z \leq -1\)の確率を求めればよいのですが、標準正規分布表は\(Z \geq 0\)の確率しか与えられないので、対称性を利用して\(Z \geq 1\)を読みます。
.00 | … | .05 | … | .09 | |
0.0 | 0.5000 | … | 0.4801 | … | 0.4641 |
0.1 | 0.4602 | … | 0.4404 | … | 0.4247 |
… | … | … | … | … | … |
0.8 | 0.2119 | … | 0.1977 | … | 0.0823 |
0.9 | 0.1841 | … | 0.1711 | … | 0.0681 |
1.0 | 0.1587 | … | 0.1469 | … | 0.0559 |
… | … | … | … | … | … |
3.0 | 0.0013 | … | 0.0011 | … | 0.0010 |
よって求める確率は、0.1587。
※補足:
正直この近似はあまり精度がよくないです。
実際の二項分布で10回以下である確率を計算すると、0.2002くらいの値になります。これは、元の二項分布が離散型(飛び飛びの値)である一方、近似計算で使った正規分布は連続型であり、整数と整数の間が誤差を生むからです。
そこで、連続修正といわれる修正方法を使うと精度を上げることができます。
単純な発想ですが、\(P(X \leq a)\)を求めたいとき\(a+\frac{1}{2}\)を、\(P(X \geq a)\)を求めたいとき\(a-\frac{1}{2}\)を使って標準化して誤差を修正する、という方法です。整数と整数の間0.5まで考慮しよう、ということですね。
今回\(P(X \leq 10)\)を求めたいので、\(10+\frac{1}{2}=10.5\)で標準化します。
\(\displaystyle Z=\frac{10.5-\frac{40}{3}}{\sqrt{\frac{100}{9}}} = -\frac{17}{20}=-0.85\)
これで標準正規分布表を使って読むと0.1977となり、かなり精度が上がることがわかります。
まぁ、この誤差を気にするような問題はテストなどでは出ないと思いますが…多分。
まとめ
二項分布と正規分布の関係についてでした。
二項分布の面倒な計算が、正規分布(標準正規分布)を使って計算できるというのは面白いですよね。