植物百科网
当前位置: 首页 农业百科

统计学的基础知识总结(不得不学的统计学基础知识)

时间:2023-07-05 作者: 小编 阅读量: 1 栏目名: 农业百科

中心极限定理收敛至大数定律。然后把这m组抽样分别求出平均值。这些平均值的分布接近正态分布。中心极限定理指出,无论风向分布规律是什么,每个样本距离期望的位置的距离分布是符合正态分布的。A'被称为A的对立事件。

数据分析中的统计学

统计学是数据分析必须掌握的基础知识,它是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外,因此扎实的统计学基础是一个优秀的数据分析师必备的技能。统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识,对于具体的知识点,楼主就不一一介绍了,感兴趣的同学请参考书籍《深入浅出统计学》、《统计学:从数据到结论》,今天的分享主要会选取统计学中几个容易混淆的、比较重要的知识点进行分享。

PS:本部分知识点整理自《深入浅出统计学》以及网友们分享的博客、知乎等,转载的部分已经在原文加引同时在文末的参考链接部分已经标出,欢迎大家参读网友的原作。

01

方差、协方差、R、R2

1.方差、标准差以及标准差系数

(1) 方差:所有样本各自减平均数的差,平方后在累计求和,最后在除以样本个数。

(2) 标准差:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数,最后再开方。

(3) 标准差系数:所有样本各自减平均数的差,平方后在累计求和,再除以样本个数再开方,最后除以样本平均值。

2.协方差

协方差通俗的理解就是两个变量在变化过程中是同向还是反向?同向或反向的程度如何?

你变大,同时我也变大,说明两个变量是同向变化,这时协方差就为正;

你变大,同时我变小,说明两个变量是反向变化的,这时协方差为负

协方差的计算公式:

如果有X,Y两个变量,每个时刻的X与其均值之差’乘以‘Y与其均值之差’得到一个乘积,在对这时刻的乘积求和并求出均值。

3.相关系数R

相关系数分三种,spearman,pearson, kendall

协方差的值会随着变量量纲的变化而变化(covarianceis not scale invariant),所以,这才提出了pearson相关系数的概念:

相关系数(皮尔森相关系数):X,Y的协方差除以X,Y的标准差的乘积。

解释:自变量X和因变量Y的协方差/标准差的乘积。

*协方差:两个变量变化是同方向的还是异方向的。X高Y也高,协方差就是正,相反,则是负。

*为什么要除标准差:标准化。即消除了X和Y自身变化的影响,只讨论两者之间关系。

*因此,相关系数是一种特殊的协方差。

4.决定系数R2

下面来说决定系数,R方一般用在回归模型用于评估预测值和实际值的符合程度,R2的定义如下:

决定系数=回归平方和/总平方和=1-残差平方和/总平方和

02

极限中心定理和大数定理

大数定律讲的是样本均值收敛到总体均值,说白了就是期望。

中心极限定理告诉我们,当样本足够大时,样本均值的分布会慢慢变成正态分布。

中心极限定理收敛至大数定律。

1.中心极限定理

中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。

下图形象的说明了中心极限定理

当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布,如上图,这个正态分布的u会越来越逼近总体均值,并且其方差满足a^2/n,a为总体的标准差,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布的。

2、大数定律

大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。

ps:

1.总体的分布不要求是正态分布

2.抽取的样本要足够大(>=30)

3、数学理论

数学理论

我们假设有n个独立随机变量,令他们的和为:

那么大数定律(以一般的大数定律为例),它的公式为:

而中心极限定理的公式为:

注意:上面两个公式,一个是值为0,一直均值为0的正太分布;而左边极为相似!

4、区别

(1)随机变量的分布

大数定律:揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。

中心极限定理:说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。

(2)研究的内容不同

大数定律研究的是在什么条件下,这组数据依概率收敛于他们的均值。

中心极限定理研究的是在什么条件下,这些样本依分布收敛于正态分布。(卯诗松的概率论与数理统计上说)

(3)描述的问题不同

大数定律描述的是频率稳定性,就是我们所说的频率稳定在具体的一个数值,即为概率;

中心极限定理描述的是分布稳定性,指的是频率有很多,但是服从正态分布,XY轴中Y最高的那个正态分布数值即为概率。

(4)举个例子

大数定理是说样本足够大时,会接近期望,在样本无穷大时平均值是期望(一个值)。

中心极限定理说的是样本距离期望的涨跌偏差分布。(出现一种分布规律)

举个简单的例子,一滴水从高空落下,经过一个随机分布的风向后,落在地上。

大数定理指出,无论风向分布规律是什么,所有的点距离垂直落下的点的距离应该等于一个值,这个值就是期望。

中心极限定理指出,无论风向分布规律是什么,每个样本距离期望的位置的距离分布是符合正态分布的。

03

条件概率与贝叶斯公式

1.概率:度量某事发生几率的数量指标。

进一步理解:概率只是对事件发生可能性的一种表达,概率并非担保。

2.事件:有概率可言的一个结果或一件事。

计算公式:

,其中S称为概率空间,或样本空间。

3.概率的直观表现形式:

维恩图

概率树

4.对立事件: “A不发生”事件可以用A'表示。A'被称为A的对立事件。A'包含事件A所不包含的任何事件。P(A')=1-P(A)

5.互斥事件:事件A与事件B不同时发生。

6.相交事件:事件A与事件B会同时发生。

7.独立事件: 几个事件互相不影响。P(A|B)=P(A). 如果两个事件相互独立,则 P(A∩B)= P(A|B)P(B)=P(A)P(B)

8.穷举事件:表示两个事件的并为全集。

划重点

9.条件概率:P(A|B)=P(A∩B)/P(B)

10.全概率公式:根据条件概率计算一个特定事件的全概率。P(B)=P(A∩B) P(A'∩B)=P(A)* P(B|A) P(A')* P(B|A')

11.贝叶斯定理:提供了一种计算逆条件概率的方法,无法预知每种概率的情况下,非常有用。

贝叶斯定理:已知P(A),P(B|A),P(B|A');求P(A|B).

P(A|B) = P(A∩B) / P(B) = P(A)*P(B|A) / P(A)* P(B|A) P(A')* P(B|A')

公式:P(A∪B)=P(A) P(B)-P(A∩B)

12.相关事件:如果 P(A|B)不等于P(A),就说事件A与事件B的概率相互影响。

【贝叶斯定理例题解析—2020 Pdd学霸批笔试题】

设工厂A和工厂B的产品的次品率分别为1%和2%,现从由A和B的产品分别占60%和40%的一批产品中随机抽取一件,发现是次品,则该次品属A生产的概率是______.

【解析】

设事件:A={抽取的产品为A工厂生产的};事件:B={抽取的产品是B工厂生产的};事件:C={抽取的是次品};显然有:P(A)=0.6;P(B)=0.4P(C|A)=0.01;P(C|B)=0.02;根据全概率公式有:P(C)=P(A)P(C|A) P(B)P(C|B)=0.6×0.01 0.4×0.02=0.014.P(AC)=P(A)P(C|A)=0.6×0.01=0.006根据条件概率公式有:P(A|C)=P(AC)/P(C)

=0.006÷0.014=3/7

答案为:3/7

04

正态分布与偏态分布

1.正态分布与偏态分布的概念

正态分布(normal distribution)

偏态分布(skewed distribution)

左偏态:left skewed distribution,负偏态(negatively skewed distribution),以尾部命名,左偏态或者叫负偏态的尾部,主要在左侧;

右偏态:right skewed distribution,正偏态(positively skewed distribution),同样地,右偏态或者叫正偏态的尾部,则集中在右侧;

2.众数、中位数以及均值的关系

正态分布还是偏态分布(左偏态/右偏态)在函数图像上容易分辨,在统计数据上,也很容易分别,比如正偏态分布(右偏),mean > median>mode,对于负偏态(左偏),mean< median<mode。

3.正态分布的数字特征

4.偏态分布的偏态和峰度

(1)偏态与峰度分布的形状

(2)偏度系数(Skewness)

偏度系数(Skewness)用来度量分布是否对称。正态分布左右是对称的,偏度系数为0。较大的正值表明该分布具有右侧较长尾部。较大的负值表明有左侧较长尾部。偏度系数与其标准误的比值同样可以用来检验正态性。

偏态系数的计算公式如下:

划重点

1)偏态系数=0为对称分布

2)偏态系数>0为右偏分布

3)偏态系数<0为左偏分布

(3)峰度系数(Kurtosis)

峰度系数的概念:峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。

峰度系数(Kurtosis)用来度量数据在中心聚集程度。

峰度系数的计算公式:

划重点

1)峰度系数=3,扁平程度适中

2)偏态系数<3,扁平分布

3)偏态系数>3, 峰锋分布

在正态分布情况下,峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0,是因为已经减去3,这样比较起来方便)。

>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。

峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。

05

3δ原则

3δ原则简介

先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除就得出3δ。

在正态分布中δ代表标准差,μ代表均值。x=μ即为图像的对称轴。

3δ:数值分布在(μ-δ,μ δ)中的概率为0.6826;

数值分布在(μ-2δ,μ 2δ)中的概率为0.9544;

数值分布在(μ-3δ,μ 3δ)中的概率为0.9974;

可以认为,Y 的取值几乎全部集中在(μ-3δ,μ 3δ)]区间内,超出这个范围的可能性仅占不到0.3%。

3δ准建立在正态分布的等精度重复测量基础上,造成奇异数据的干扰或噪声难以满足正态分布。如果一组测量数据中某个测量值的残余误差的绝对值 νi>3δ,则该测量值为坏值,应剔除。

通常把等于 ±3δ的误差作为极限误差,对于正态分布的随机误差,落在 ±3δ以外的概率只有 0.27%,它在测量中发生的可能性很小,故存在3δ准则。

3δ准则是最常用也是最简单的粗大误差判别准则,它一般应用于测量次数充分多( n ≥30)或当 n>10做判别时的情况。

参考链接

https://www.zhihu.com/question/20852004

https://blog.csdn.net/theonegis/article/details/85991138#_5

https://www.jianshu.com/p/8aefd78be186

https://zhuanlan.zhihu.com/p/32335608

https://blog.csdn.net/u014755493/article/details/72118559

https://zhuanlan.zhihu.com/p/36259056

https://moluchase.github.io/2018/08/29/ml07/

https://www.cnblogs.com/sherial/archive/2018/03/07/8522405.html

点击关注

    推荐阅读
  • 空气含量中最多的气体(空气含量中最多的气体介绍)

    空气中含量最多的气体是氮气,氮气约占空气体积分数的百分比约为78%。通过实验测定,空气的成分按体积计算,氮气大约占78%、氧气占21%、稀有气体0.94%、二氧化碳0.03%、其他气体和杂质0.03%,也就是说空气中含量最多的物质是氮气。氮气化学性质很不活泼,在高温高压及催化剂条件下才能和氢气反应生成氨气;在放电的情况下才能和氧气化合生成一氧化氮;即使Ca、Mg、Sr和Ba等活泼金属也只有在加热的情形下才能与其反应。

  • 文思豆腐羹如何做好吃(文思豆腐羹用什么豆腐)

    文思豆腐是一道有名的淮扬菜,需要的就是精湛的刀工,这样做出的文思豆腐会有嫩滑的口感,打造入口即化的口感。文思豆腐羹如何做好吃文思豆腐羹材料和做法步骤一、文思豆腐羹材料准备好豆腐400克,鸡脯肉,火腿还有香菇,再有准备好生菜,冬笋,调料需要准备盐和味精。

  • 结构性存款可以买理财吗(结构性存款是存款吗)

    雪球产品就是今年年初监管向信托公司进行窗口指导,要求叫停的产品。简单的说,这是一种高风险的金融衍生品,它通过持有一定结构的金融衍生品,来实现在某一特定情况下获利。这样的投资结构就能保证我不论涨,还是跌,只要在一定幅度内都可以盈利。交易期权等金融衍生品,是非常高风险的投资。

  • 正言厉色意思(正言厉色的意思)

    下面内容希望能帮助到你,我们来一起看看吧!正言厉色意思正言厉色,汉语成语,拼音是zhènɡyánlìsè,意思是形容板着脸,神情非常严厉。出自《汉书·王莽传》。宝玉突然想出一个主意,一本正经地给她讲扬州黛山林子洞耗子精偷香芋的故事,黛玉见他正言厉色,以为真有其事,后来才发现原来是在取笑她。

  • 面谈调薪酬有什么技巧(跟老板谈调薪的技巧有哪些)

    如果你在老板心目中分量很大,一般老板都会给你加薪的。和老板谈加薪时目的一定要明确,让老板知道你只是为了加薪,而不是辞职走人。和老板谈加薪后,一定要给老板一个考虑的时间,不要咄咄逼人,逼着老板加薪。老板也要有足够的思考时间,来考虑你是否值得加薪,给你加薪后对公司有没有什么影响。不仅口头上要表示感谢,工作中要更加努力,让老板觉得给你加薪是值得的。

  • 杏花有没有香味(杏花闻起来会特别香吗)

    杏树是中国著名的观赏树木,可配植于庭前、墙隅、道路旁、水边,也可群植、片植于山坡、水畔,是春季主要的观赏树种。杏花直径2至3厘米,先于叶开放。花梗短,长1至3毫米,被短柔毛。花萼紫绿色,萼筒圆筒形,外面基部被短柔毛。萼片卵形至卵状长圆形,先端急尖或圆钝,花后反折。花瓣圆形至倒卵形,白色或带红色,具短爪。

  • 减肥减肚子的方法(怎么减肚子呢)

    减肥减肚子的方法食用健康食品:酸奶与发酵的牛奶能激活消化必须的物质,有助于改善肠道微生物系统,从而防止腹部隆起。走路、喝水、按摩:走路及喝水有利腹部扁平。

  • 新坑翡翠手镯多少钱(新坑翡翠手镯的价格)

    新坑翡翠手镯多少钱?新坑翡翠手镯多少钱翡翠手镯作为大件翡翠制品,用料特别多,只有大块、质量好的翡翠原石才能打造成手镯,因此翡翠手镯的价格都比较高,商家们拿到质量比较好的原石也尽可能打造成手镯。具体到新坑种翡翠,因为大多数新坑种翡翠透明度都不高,质地也不够细腻,因此种水一般都是以糯种或豆种为主,极少出现冰种或冰种以上的种水,这样的翡翠价格价格自然不会太高,一个品质比较好的糯种翡翠手镯大概在十万以内。

  • 宁波毛蚶做法水煮几分钟(毛蚶煮多长时间可以吃)

    宁波毛蚶做法水煮几分钟毛蚬是很多人喜欢吃的食物,不过建议大家在做之前都要先用开水煮以下。强精益气,提高精液质量,增强精子活力。适用于治疗肾阳虚所致的阳痿、腰痛、小便频数及补五脏之气不足。可治疗全身水肿,小便不利等。能软化和保护血管,有降低人体中血脂和胆固醇的作用。

  • 2022洛阳湿地公园最新名单 洛阳生态公园最新消息

    国家级湿地自然保护区河南黄河湿地国家级自然保护区,面积24000公顷。国家级湿地公园嵩县陆浑湖国家湿地公园,面积4222.39公顷伊川伊河国家湿地公园,面积1384.36公顷。