赵明睿
(兰州资源环境职业技术大学 基础教学部,甘肃 兰州)
关于条件概率计算问题是日常生活中常常会遇到的现实问题,要想解决这些问题并不容易,而贝叶斯公式正是为这些复杂的条件概率问题应用而生的,主要思路是复杂问题简单化。在使用贝叶斯公式计算复杂事件的概率时最重要的一步是是要找到样本空间的合适划分(完备事件组),用全概公式求出复杂事件的概率,再结合条件概率定义式和乘法公式得到所求复杂条件概率。本文主要给出全概率公式及贝叶斯公式在疾病诊断、产品检验和信号估计这三个方面的广泛应用,体现了贝叶斯公式在实际应用中的重要性。
本文主要是借助贝叶斯公式对于修正先验概率的应用。对于贝叶斯公式的介绍,很多教材讲得都比较少,并且所举的例子也是比较简单的,本文主要是对教材的讲解给予扩充和加深,同时体现了贝叶斯公式还有一个很好的用处就是对那些看似正确的结论可以进行理论检验。
定义1[1-2](样本空间的划分)若事件组B1,B2,…,Bn,满足以下两个条件:
(1) B1,B2,…,Bn,两两不相容;
则称B1,B2,…,Bn为一个完备事件组。
定理1 (全概率公式)设B1,B2,…,Bn是样本空间的一个完备事件组,A 是一个事件,当P(A)>0,P(Bj)>0,j=1,2,…,n,则
证明:因为
所以,上述等式两边求概率可得:
再根据乘法公式,就有:
全概率公式体现了“各个击破,分而食之”的解题策略,是在已知原因发生的概率,去求结果发生的概率,即是“知因求果”的过程。
定理2(贝叶斯公式)设B1,B2,…,Bn是样本空间的一个完备事件组,A 是一个事件,当P(A)>0,P(Bj)>0,j=1,2,…,n,则
此公式成为贝叶斯公式。
证明:根据全概公式得:
由条件概率的定义式得:
再由乘法公式得:
使用贝叶斯公式的基本思路是首先根据加法公式把复杂事件的概率化为多个简单事件的概率的和,再根据乘法公式得出在已知复杂事件作为结果已经发生的情况下,其中某个原因发生的条件概率,也就是所谓的“后验概率”,即是“知果索因”的过程。
利用贝叶斯公式,导致结果发生的诸多原因发生的概率可以根据已经发生的结果来求得,即“知果索因”的过程。在应用过程中,需要先分析导致结果发生的诸多原因,这些原因就自然而然是完备事件组,同时,找到在这些原因下结果发生的概率,最后把这些概率加起来,就会得到该结果发生的概率,然后利用条件概率的计算公式,得到在已知结果发生的条件下,所要探求的原因发生的条件概率。接下来,我们研究贝叶斯公式分别在传染病诊断,产品检验和信息筛查这些领域中的应用过程。在应用时,首先需要找到一个恰当的完备事件组,然后再利用贝叶斯公式求得所需条件概率。
2.1 疾病的诊断
众所周知,医生对疾病的有效控制,首先是确定疾病。而在对患者进行疾病诊断的过程是很复杂的,这时可以运用贝叶斯公式能够简化化验过程,能够达到较快地治愈患者的作用[3]。具体过程,样本空间是疾病的致病细菌全体,假设疾病是肝癌和美国艾滋病,具体使用贝叶斯公式进行诊断的过程如下例。
例1 诊断肝癌可以选择用甲胎蛋白法,被检验者患肝癌记为A 事件,判断被检验者患肝癌记为B 事件。已知P(B|A)=0.95,P(B|A)=0.90,P(A)=0.000 4。如果已有一位患者被诊断为患肝癌,由于诊断会存在误差,要求计算此人真的患肝癌的概率P(A|B)。
解:由题知:
根据贝叶斯公式可得:
题中已知的患肝癌的概率0.4% 是由以往的数据分析得到的, 叫做先验概率,而再检查结果为阳性的条件下真正患肝癌病的概率0.323 叫做后验概率,是对先验概率的校正。
例2 已知某种艾滋病的血液测试呈阳性的概率是95%,由于检测会有误差,健康的人检测为阳性的概率是1%。已知美国约有1/1000 的人患有这种艾滋病。为了预防这种疾病的快速传播,一些专家们提出建议新婚夫妇将这项检测加入婚检中,但是该方案提出后,出现了很多质疑,用贝叶斯公式来解释原因。
解:记A ={测试的结果呈现阳性反应}, B ={某人被确诊成了艾滋病患者},则由题知:
根据全概公式得:
再根据贝叶斯公式可得:
2.2 在产品检验中的应用
在实际的产品生产过程中,一批产品被生产出来之后,检验人员会在出厂前进行一次抽样检查,检查合格后才会被允许发货,于此同时卖家收到货之后,还会再进行简单的验货,因此想要保证卖家的验货合格,厂家就得对检验结果进行分析,作一定的概率计算,这里就可以使用到贝叶斯公式。
例3 某公司有两种生产方案生产同一型号的产品,已知方案1 生产的占总的40%,方案2 生产的占总的60%,方案1 和方案2 的次品率分别为0.3%和0.1%,从产品中随机抽取1 件,测试为次品,问此次品是哪种方案生产出来的可能性大?
解:设B={取到次品},A1={取到方案1 生产的产品},A2={取到方案2 生产的产品},则由题可知:
根据贝叶斯公式可得:
因此,方案1 可能性大。
例4 某工厂存在四个车间生产相同的一批完全相同的零件,已知这四个车间的产量依次占总产量的15%,20%,30%和35%,同时已知四个车间生产的次品率分别为0.04、0.03、0.02 和0.01.该工厂规定,若一旦发现了次品就一定会追究相关生产车间的经济责任。现在从该工厂生产的这批产品中任取一件,结果是次品,但这件次品是由哪个车间生产的代码已经脱落不见了,那么,此工厂方应该怎样处理这件次品会比较合理?
解:设B={取到的产品是次品},A1={取到的产品是由第i 个车间生产的},i=1,2,3,4
则由题知:
根据贝叶斯公式,可得:
通过以上计算过程,得到P(A1|B)=P(A2|B)=P(A3|B)>P(A4|B),因此,说明通过抽取得到的次品最有可能是由前三个车间生产的。
2.3 在信息筛查中的应用
目前,手机已经成为大家生活中的必需品了,而我们获取信息的主要途径是手机中的微信和短信。但平时手机上常常会出现很多的垃圾信息,好多新款手机可以过滤垃圾信息,只要从手机设置中开通此功能即可。事实上,这个功能的原理就是贝叶斯公式。
例5 若规定信息中含有“a”这个词,就会被识别为垃圾短信,已知某款手机在一般情况下识别短信为垃圾短信的概率为0.9,信息为垃圾短信时出现“a”的概率为0.9,短信正常时出现“a”的概率为0.9,计算在出现“ox”这个词的情况下短信是垃圾短信的概率。
解:设A={短信含有“ox”},B1={短信是垃圾短信},B2={短信不是垃圾短信},
则由题知:
根据贝叶斯公式可得:
筛选垃圾邮件常用的方法是统计出每个字符串在众多垃圾邮件中出现的概率,同时统计出每个字符在正常邮件中出现的概率,就可以根据贝叶斯公式计算出邮件中含某字串则为垃圾邮件的概率。
例6 已知在电子邮件当中,一般有50%的邮件是垃圾邮件,假设在3 000 份垃圾邮件含有中敏感词的邮件出现了400 次,在300 份正常的邮件中同时出现同样敏感词的有5 份邮件,求一份邮件出现这个敏感词时为垃圾邮件的概率?
解:设A={邮件含有"mortgage"},B1={短信是垃圾短信},B2={短信不是垃圾短信},
则由题知:
根据贝叶斯公式可得:
根据这个假设,我们可以搜集得到一批垃圾邮件和一批正常邮件,通过统计所有邮件中包含关键词的频率,垃圾邮件的出现频率和关键词在垃圾邮件中出现的频率。假设P(A)是垃圾邮件的出现频率,P(B)是关键词的出现频率,那么,P(BA)就表示垃圾邮件中的关键词出现的频率。根据贝叶斯公式就可以推算得出P(A|B),即可得到存在特定关键词时某封邮件是垃圾邮件的概率了。
自从贝叶斯公式提出至今,它的应用就一直非常广泛,随着现代社会的迅速发展,贝叶斯公式也将会更好的运用于其他领域和更多新的领域。
猜你喜欢垃圾邮件次品贝叶斯从“scientist(科学家)”到“spam(垃圾邮件)”,英语单词的起源出人意料地有趣 精读英语文摘(2021年10期)2021-11-22找次品小学生学习指导(高年级)(2021年6期)2021-06-19一种基于SMOTE和随机森林的垃圾邮件检测算法潍坊学院学报(2020年2期)2021-01-18贝叶斯公式及其应用数理化解题研究(2017年4期)2017-05-04巧妙找次品小学生学习指导(高年级)(2017年6期)2017-02-18基于贝叶斯估计的轨道占用识别方法铁道通信信号(2016年6期)2016-06-01基于支持向量机与人工免疫系统的垃圾邮件过滤模型现代计算机(2016年11期)2016-02-28一种基于贝叶斯压缩感知的说话人识别方法电子器件(2015年5期)2015-12-29找次品的窍门读写算(下)(2015年6期)2015-08-22IIRCT下负二项分布参数多变点的贝叶斯估计郑州大学学报(理学版)(2014年2期)2014-03-01