二项分布(Binomial distribution)
二项分布是一种具有广泛用处的散伙型随机变量的概率分布,它是由贝努里始创的,以是又叫贝努里分布。
二项分布是指统计变量中仅有实质不同的两项群体的概率分布。所谓两项群体是按两种不同实质区分的统计变量,是二项实验的后果。即各个变量都可归为两个不同实质中的一个,两个观察值是对峙的。因此两项分布又可说是两个对峙事变的概率分布。
二项分布的剖析
二项分布用标记b(x.n.p),表现在n次实验中有x次告捷,告捷的概率为p。
二项分布的概率函数可写作:
式中x=0、1、2、3.....n为正整数
两项分布中含有两个参数n与p,当它们的值已知时,便可盘算出分布列中各概率的值。
例1 掷硬币实验。有10个硬币掷一次,或1个硬币掷十次。问五次正面向上的概率是几多?
解:依据题意n=10,p=q=1/2,x=5
以是五次正面向上的概率为0.24609
此题若问五次及五次以上正面向上的概率是几多?
解:此题要求出五次及五次以上正面向上的概率之和。正面有五次、六次、七次、八次、九次、十次。依公式5—9应为:
C105p5q10?5 + C106p6q10?4 + C107p7q3 + C108p8q2 + C109p9q1 + C1010p10q0
= 252/1024+210/1024+120/1024+45/1024+10/1024+1/1024
= 638/1024
= 0.623
五次及五次以上正面向上的概率为0.623
此题各项掀开式的系数,若用杨辉三角盘算也十分便利。读者:前方的杨辉三角写到(p + q)10。试比力五次及五次以—LK面向;的各项系数对否为252、210、120、45、10、1。
二项分布的实质
(一)二项分布是散伙型分布,概坦白方图是跃阶式的。由于x为不一连变量,用概率条图表现更切合,用直方图表现只是为了更外貌些。
1.当p=q时图形是对称的
例2 (p + q)6,p=q=1/2,各项的概率可写作:
p6 + 6p5q + 15p4q2 + 20p3q3 + 15p2q4 + 6plq5 + q6
= 1/64+6/64+15/64+20/64+15/64+6/64+1/64
= 1
2.当p≠q时,直方图呈偏态,p<q与p>q的偏斜朝向相反。假如n很大,即使p≠q,偏态渐渐低落,终极成正态分布,二项分布的极限分布为正态分布。故当n很大时,二项分布的概率可用正态分布的概率作为近似值。何谓n很大呢?平常划定:当p<q且np≥5,或p>q且nq≥5,这时的n就被以为很大,可以用正态分布的概率作为近似值了。
(二)二项分布的均匀数与标准差
假如二项散充满意p<q,np≥5,(或p>q,np≥5)时,二项分布接近正态分布。这时,也仅仅在这时,二项分布的x变量(即告捷的次数)具有如下实质:
μ = np (5—10a)
(5—10b)
即x变量具有μ = np ,
的正态分布。
式中n为独立实验的次数,
p为告捷事变的概率,q=1- p。 由于n很大时二项分布迫近正态分布,其均匀数,标准差是依据实际推导而来的,故用μ和σ而不必X和S表现。它们的含义是指在二项实验中,告捷的次数的均匀数μ = np ,告捷次数的疏散程
。比如一个掷10枚硬币的实验,显现正面向上的均匀次数为5次(μ= np=
),正面向上的分布水平为10×(1/2)×(1/2)= 1.58(次),这是依据实际的盘算,而在实践实验中,有的人可得10个正面向上,有人得9个、8个……,人数越多,正面向上的均匀数越接近5,疏散水平越接近1.58。
二项分布的使用条件
1.各察看单位只能具有互相对峙的一种后果,如阳性或阴性,活着或殒命等,属于两分类材料。
2.已知产生某一后果(阳性)的概率为π,其对峙后果的概率为1-π,实践事情中要求π是从多量察看中取得比力安定的数值。
3.n次实验在相反条件下举行,且各个察看单位的察看后果互相独立,即每个察看单位的察看后果不会影响到其他察看单位的后果。如要求疾病无影响性、无家属性等。
二项分布的使用
项分布在心思与教导研讨中,主要用于处理含天然遇实质的成绩。所谓机会成绩,即指在实行或观察中,实行后果约莫是由 ?推测而形成的。好比,选择标题标回复,划对划错,约莫完全由推测形成。凡此类成绩,欲区分由推测而形成的后果与真实的后果之间的界线,就要使用二项分布来处理。
例3有正误题10题,问答题者答对几题才干以为他是真会,大概说答对几题,才干以为不是出于推测要素?
此题p=q=1/2,即猜对猜错的概率各为0.5。np≥5,故此二项分布接近正态分布:
依据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。假如用原分数表现,则为
它的意义是,完全凭推测,10题中猜对8题以下的约莫性为95%,猜对8、9、10题的概率只5%。因此可以推论说,答对8题以上者不是凭推测,而是会答。但应该明白:作此结论,也仍旧有出错误的约莫,即那些完全凭推测的人也有5%的约莫性答对8、9、10道题。
此题的概率值,还可用二项分布函数直接盘算,亦得与正态分布近似的后果:
依据概率加法,答对8题及其以上的总概率为:45/1024+10/1024+1/1024=56/1024 = 0.0547 同理,可盘算8题以下的概率为 95%。(近似).
例4有10道多重选择题,每题有5个答案,此中仅有一个是准确的。问答对几题才干说不是猜的后果?
此题n=10,p=1/5 = 0.2,q = 0.8,np<5,故此题不接近正态分布,不克不及用正态分布盘算概率,而应直接用二项分布函数盘算猜时各题数的概率:
依据以上所盘算的猜对各题数的概率,可用概率加法求得猜对5题及5题以上的概率为0.03279,不敷5%,故可推论说答对5题以上者可算真会,作此结论仍有3.3%出错误的约莫。
若上例中题数增长到30题,则np>5,就可用正态分布的概率盘算:
因此可得结论,答对10题或10题以上,才干被以为是真会。作此结论出错误的概率为5%。
假如想使推论出错误的概率降为1%,则依据正态分布可求得此时的z=2.33,使用相反的盘算办法,只将2.33代替1.645,可求得临界的分数(或答对的题数)。
文章已取得作者受权
数据分析网(www.afenxi.com),国内抢先的大数据流派,旨在协助大数据从业人士、喜好者提供大数据讯息资讯、前沿武艺、业界看法的信息平台。
版权声明:本文来自互联网整理发布,如有侵权,联系删除
原文链接:https://www.yigezhs.comhttps://www.yigezhs.com/wangluozixun/31721.html