外行人对统计学作用的理解
朱头山 (2019-07-07 14:35:48) 评论 (1)除了部分学理工科的,大多数人在大学以后就不再接触数学了,数学知识也仅限于加减乘除。如果还有人能记得三角函数,已经很牛了,如果还能计算概率,那简直是大神了。相反,对迷信,或类似于迷信的东西,随着年龄的增长,信的人倒反而多起来了。为什么呢?因为随着经历的丰富,对世界的复杂性有了更深的感受,而人许多时候需要预测。但直觉常常不可靠,而知识在很多方面不够深入不够准确,因此只能求助于神灵!
但其实数学的一个分枝,统计学,是可以在很大程度上帮助人们作预测的,至少比万事依赖迷信占卜要强。
现代的统计学已经是一门很完整的科学了,也是应用数学最重要的部分。比如气象学,就是通过分析大量气象数据,通过统计预测,已经可以达到相当准确的结果了。如果三天内的天气预报说90%有雨,那你带上雨伞基本上没有错。
世上的事件,按发生可能性,可分为确定事件和概率事件。比如有人拿把枪,顶住你头开枪,枪响人亡几乎是100%肯定的,是确定性事件。如果他在100米外朝你开枪,是不可能保证命中的,神枪手概率大点,接近100%,菜鸟可能接近0%,但这只是概率,这样的情况叫概率性事件。影响事件发生的原因,也分两种,即系统性和随机性因素。有人从远处向你开枪时,有偏风,使得子弹固定朝一个方向偏,这就是系统性因素,是可以调整的;如果没有偏风,弹着点散落在不同的地方,这是随机性因素,是事件固有的,无法调整无法改变的。
确定性事件用不着预测了。但世界上大多数事件是概率性的,而概率是可以计算的,因此是可以预测的。最常用的统计方法, 就是通过计算以往类似事件的数据,从而为未来提供预测。比如计算某种飞机的失事率,你就能大致了解该飞机的安全性。通过抽样信息了解总体,也是常用的方法。比如一个批号的产品有几百万个,一个个检测不可行,就可以拿出少量的样品进行检测,通过检测结果推测总体状况。
在抽样时,有个必须遵循的原则是随机化。科学的随机不是闭上眼睛抓一把,这样不是真正的随机,而必须遵循科学的方法。比如,抓老鼠,就得把所有老鼠编上号,用电脑随机产生程序打出一串号,根据这些号选取相应的老鼠。否则,那些活跃的老鼠不容易抓到,而抓到的都是迟钝老实的,统计结果就会出现偏差。检测的数据也有讲究,如在民意测验中,问“你认为川普会当选吗?”,和“你会选他吗?”, 得到的结果是不一样的。因为选择问题不当,2016年美国大选预测完全失灵。
概率也是比较某些概率性事件是否有差别的判断参数。大多数药物都不是对所有人有效,A药有效率70%, B药20%, 但据此并不能决定A好于B。只有通过统计学计算,确定这种有效率差别是随机性的概率小于5%(P value), 才能说A药可能好于B药,但还有很小的概率,这个结论不成立。所以对于概率性事物,包括几乎所有的政治,军事,商业事务,和科学里的生物学,高等物理学,如果谁和你保证100%的成功率,别信他!
预测统计学也在进步。比如那种俄罗斯左轮枪赌博,如果转轮有6个储弹位,只有一颗已装弹,开始时中弹概率为1/6,以后每打一枪,概率就随之增加。应对这种概率不断变化的情况的计算法, 叫Bayesian方程,在实践中很有用。如寻找失踪人员,优化方法等。
前面提到的应用,通常有某种计算公式,和用于计算的参数。但世界上还有很多事物,无法计算,或计算过于复杂,超出了计算机的能力。最近人工智能的进展,使得对这一类情况的处理,有了突破性的进展。
Google的Alpha-Go项目组,开发出一种新的算法:学习。我的理解,学习算法就是不管要做的事有没有规律,只要跟着人做几遍,照样画葫芦,总结出人的步骤,形成程序,依样行事。这听上去不错,也和人类的行事方法相似。人类大多数事都是学会的,就是像性交这样的本能,一蹴而就的人不多,好男儿都是百炼成钢的,这就是为什么很多少女爱大叔的原因。
而且Google开发的算法是通用的,并不仅限于围棋,还发表在公开的科学杂志上,当然具体怎么运用就是各家自己的本事了,那属于专利了。就Alpha-Go的学习算法而言,是通过大量的练习,对每一步都优选了7-10种走法,练习得越多,优选的对策越好。虽然总计算量依然很大,但比国际象棋那种算法要好多了,现有电脑能力可以应付。Alpha-Go的成绩也很好,先是打败了欧洲冠军,然后挑战称霸世界围棋棋坛十余年的李世石,4:1, 李还赢了一盘,过了一年又挑战现霸主柯洁,5:0,柯洁根本没有机会。以后又出了第二代,在围棋网上摆擂台,人类选手根本不可望其项背。
这种学习算法在AI历史上是划时代的,从此AI的发展出现井喷现象,在很多没有规律,高度依赖经验的领域出现突破。其中中国的进展神速,原因之一是这种算法高度依赖于练习量,中国人多,又没很多限制私人信息使用的法律,因此就构成了优势。
AI可以用来下围棋,开汽车,发现罪犯,当然可以用来预测啦。比如谈恋爱,真的没规律没算法,但世上有情场高手。开发一种基于邓文迪个人直觉的二奶程序,那天下女人有福了。一扫就知道那个富豪有戏,以邓大师的应对手段,大多数富豪都能手到擒来,拿到一笔巨款,再找下一个,有钱了还能玩玩猛男小鲜肉,哇塞!
Knowledge is power, 绝对没错!如果有时间,把统计学放在你的学习priority吧!
评论 (1)
今天白天还在跟儿子聊起统计学话题,你的大作已发给他学习。下次让我儿子当面向大才子叔叔请教
朱头山 名博