PR
二項分布とは?期待値や分散についても丁寧に説明
二項分布は確率統計で出てくる、最初の「統計っぽい」話です。
ただ、教科書では省略している部分も多いので、ちょっと「?」となることもあります。
この記事では、統計の基本「二項分布」について、その基本的性質や期待値や分散がどうなるのか?について丁寧に説明していきます。
二項分布とは
…。せんせい。
はい、質問ですか?
そうです。二項分布の、特に期待値と分散がよくわかんなかったんですけど…。
…。
ん?なんですか?
いや、普通の質問だなぁって思って…。
失敬な!僕だって普通の質問くらいしますよ!
…なんかスイマセン。
二項分布とは、「それが起きるか、起きないか?」や「AかBか?」の二択の独立な試行を繰り返し、もしくは一度に複数個行う際の確率分布です。
例えば、
「コイン投げを5回繰り返して、表が出る回数」=表が出るか・出ないかの二択の試行を5回繰り返している。
「サイコロを3個投げて、1の目が出る個数」=1の目が出るか・出ないかの二択の試行を3個同時に行なっている。
こんな試行で作られる確率分布ですね。
一般的な話をする前に、例題を考えながら、雰囲気を掴んでください。
二項分布の例題
先ほどの例を、確率分布まで考えてみましょう。
例.コイン投げを5回繰り返して、表が出る回数。
う…結構面倒なのでは?
反復試行の確率で考えないといけないので、確かにちょっと面倒です。
コイン投げを5回繰り返して、表が出る回数を\(X\)とします。この\(X\)の確率分布と期待値、分散まで考えましょう。
(解)コイン投げを5回繰り返して、表が出る回数を\(X\)とします。
\(X\)の取りうる値は、0、1、2、3、4、5です。
それぞれの確率は、
\(X=0\)のとき、\(\displaystyle P(0) = \left( \frac{1}{2} \right)^{5} = \frac{1}{32}\)
\(X=1\)のとき、\(\displaystyle P(1) = _5C_1 \left( \frac{1}{2} \right)^{1} \left( \frac{1}{2} \right)^{4} = \frac{5}{32}\)
\(X=2\)のとき、\(\displaystyle P(2) = _{5}C_2 \left( \frac{1}{2} \right)^{2} \left( \frac{1}{2} \right)^{3} = \frac{10}{32}\)
\(X=3\)のとき、\(\displaystyle P(3) = _{5}C_3 \left( \frac{1}{2} \right)^{3} \left( \frac{1}{2} \right)^{2} = \frac{10}{32}\)
\(X=4\)のとき、\(\displaystyle P(4) = _{5}C_4 \left( \frac{1}{2} \right)^{4} \left( \frac{1}{2} \right)^{1} = \frac{5}{32}\)
\(X=5\)のとき、\(\displaystyle P(5) = \left( \frac{1}{2} \right)^{5} = \frac{1}{32}\)
よって、確率分布は次のようになります。
\(X\) | 0 | 1 | 2 | 3 | 4 | 5 | 計 |
\(P(X)\) | \(\frac{1}{32}\) | \(\frac{5}{32}\) | \(\frac{10}{32}\) | \(\frac{10}{32}\) | \(\frac{5}{32}\) | \(\frac{1}{32}\) | 1 |
ゆえに、期待値\(E(X)\)は
\(\displaystyle E(X)=0\cdot \frac{1}{32}+1\cdot \frac{5}{32}+2\cdot \frac{10}{32}+3\cdot \frac{10}{32}\)
\(\displaystyle \quad\quad +4 \cdot \frac{5}{32} +5\cdot \frac{1}{32}\)
(う…やっぱり面倒だな…。なんか授業で他のやり方習った気もするけど…とりあえず計算するか)
\(\displaystyle \quad = \frac{5+20+30+20+5}{32}=\frac{80}{32}=\frac{5}{2}\)…(答)
また、\(\displaystyle E(X^2)=0^2\cdot \frac{1}{32}+1^2 \cdot \frac{5}{32}+2^2 \cdot \frac{10}{32}+3^2 \cdot \frac{10}{32}\)
\(\displaystyle \quad\quad +4^2 \cdot \frac{5}{32} +5^2\cdot \frac{1}{32}\)
\(\displaystyle \quad = \frac{5+40+90+80+25}{32}=\frac{240}{32}=\frac{15}{2}\)
したがって、分散\(V(X)\)は
\(\displaystyle V(X)=E(X^2)-\{ E(X) \}^2=\frac{15}{2}- \left( \frac{5}{2} \right)^2\)
\(\displaystyle \quad = \frac{15}{2}-\frac{25}{4}=\frac{5}{4}\)…(答)
案外シンプルな答えになりましたね。
もちろんこうやって、ガチンコで考えても構いませんが、二項分布の期待値、分散はもっと簡単な計算方法があります。
二項分布の期待値と分散
ここからは二項分布の性質について説明していきます。
二項分布は、その確率分布を決定する要素が二つあります。それは、「回数(\(n\)回)」と「1回の試行でそれが起きる確率\(p\)」です。「起きない確率」は\(1-p\)で計算できるので、実質、その二つの要素で二項分布の確率分布が決定します。
そして、「回数(\(n\)回)」と「1回の試行でそれが起きる確率\(p\)」の二項分布を\(B(n,p)\)と書き、「二項分布\(B(n,p)\)に従う」と言います。
そして、特に二項分布の期待値、分散は\(B(n,p)\)の\(n\)と\(p\)を使って簡単に計算することができます。
二項分布
ある試行が二項分布\(B(n,p)\)に従うとすると、その期待値\(E(X)\)と\(V(X)\)は、
\(E(X)=np\)
\(V(X)=np(1-p)\)
で計算できる。
えー…めちゃくちゃ簡単に計算できるじゃないですか…。
授業ちゃんと聞いてないからですよ。
…。
二項分布の例
先ほどの
例.コイン投げを5回繰り返して、表が出る回数。
の期待値、分散を今の方法で計算してみましょう。
(解)
1回の試行で表が出る確率は\(\displaystyle \frac{1}{2}\)なので、この試行は、
二項分布\(\displaystyle B(5,\frac{1}{2})\)に従う。
よって、期待値\(E(X)\)は
\(\displaystyle E(X)=5 \cdot \frac{1}{2}=\frac{5}{2}\)…(答)
分散\(V(X)\)は
\(\displaystyle V(X)=5 \cdot \frac{1}{2} \cdot \left( 1-\frac{1}{2} \right)=\frac{5}{4}\)…(答)
簡単に計算できますね。…でもなんでこんなに簡単に計算出来るんですか?
証明
先ほどのコチラの性質を証明してみましょう。
二項分布
ある試行が二項分布\(B(n,p)\)に従うとすると、その期待値\(E(X)\)と\(V(X)\)は、
\(E(X)=np\)
\(V(X)=np(1-p)\)
で計算できる。
まずは、期待値が\(E(X)=np\)となることを示します。
コチラで説明した確率変数の和の期待値の性質を使います。
(証)
二項分布の確率変数\(X\)の意味は、
「その\(n\)回の試行でそれが何回起きるか?」です。つまり\(X\)は\(X=0, 1, 2, \cdots, n\)の値を取りうる、ということになります。
そして、重要な考え方は「\(X\)は1回目の試行から\(n\)回目の試行までのそれぞれの確率変数\(X_i\)(\(i=0, 1, 2, \cdots, n\)、それぞれの\(X_i\)が取りうる値は0か1です。)を足して作ることができる」ということです。
つまり、\(X=X_1+X_2+\cdots+X_n\)で表現できることがポイントです。
ここ、重要です!はっきり言って、ここが理解できればあとは難しくないです。
ここさえ納得できれば、
各\(X_i\)について、各期待値\(E(X_i)=0 \cdot (1-p) + 1 \cdot p = p\)となるので、
\(E(X)=E(X_1+X_2+\cdots+X_n)\)
\(\quad =E(X_1)+E(X_2)+\cdots + E(X_n)\)
\(\quad = p+p+\cdots + p=np\)(終)
となります。
続いて、分散\(V(X)\)についてですが、同様に、各\(V(X_i)\)について、
\(V(X_i)=E(X_i^2)-\{E(X_i)\}^2=0^2\cdot(1-p)+1^2\cdot p -p^2\)
\(\quad = p-p^2=p(1-p)\)
ここで、1回目の確率変数\(X_1\)、2回目の確率変数\(X_2\)、…、\(n\)回目の確率変数\(X_n\)は独立なので、こちらで説明した通り、
\(V(X)=V(X_1+X_2+\cdots +X_n)\)
\(\quad = V(X_1)+V(X_2)+\cdots+V(X_n)\)
が成り立ちます。ここで、各\(V(X_i)=p(1-p)\)なので、
\(V(X)=np(1-p)\)(終)
確率変数の和の期待値や分散についての性質がここで活かされるんですね。
そうですね。ですので、確率変数の和に対する期待値や分散、独立、といった性質をしっかり押さえておく必要があります。
まとめ
二項分布の基本について説明しました。
実は二項分布は回数\(n\)が大きくなるほど正規分布に近似できる、という性質があります。
実際の二項分布の計算は\(n\)が大きくなるほど面倒なので、正規分布で近似して計算する、などといった方法もあります。
二項分布は統計の最初に出てくる基本的な確率分布ですので、しっかりと押さえておきましょう。