植物百科网
当前位置: 首页 农业百科

统计学数据分析的依据和方法(数据分析-需要掌握统计学的基本概念)

时间:2023-07-22 作者: 小编 阅读量: 1 栏目名: 农业百科

聚类的目标是使得同一簇内的点之间的距离较短,而不同簇中点之间的距离较大。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。K-Means是非监督学习,也就是不需要事先给出分类标签,而KNN是有监督学习,需要我们给出训练数据的分类标识。KNN中的K值代表K个最接近的邻居。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

统计学数据分析的依据和方法?在我们的日常的企业级App或者网站的数据中,通常会遇到一些问题、男女生点击率增加,总体为何减少?,我来为大家科普一下关于统计学数据分析的依据和方法?以下内容希望对你有帮助!

统计学数据分析的依据和方法

在我们的日常的企业级App或者网站的数据中,通常会遇到一些问题、男女生点击率增加,总体为何减少?

同事在处理数据时可能遇到各种疑问,协方差是什么?与相关系数的区别和联系是什么?等等一些灵魂性的拷问。本文将一些日常工作中零碎的细节做了整理。

以备学习理解使用。

1.男女生点击率同时增加,总体为何减少?

先看结论:因为男女的点击率可能有较大差异,同时低点击率群体的占比增大。

如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。即那个段子“A系中智商最低的人去读B,同时提高了A系和B系的平均智商。”

2.协方差与相关系数的区别和联系。

协方差:

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

相关系数:

研究变量之间线性相关程度的量,取值范围是[-1,1]。

相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

3.中心极限定理

中心极限定理定义:(1)任何一个样本的平均值将会约等于其所在总体的平均值。(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。中心极限定理作用:(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。(2)根据总体的平均值和标准差,判断某个样本是否属于总体。

4.什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤

(1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总(俗话说人以类聚,物以群分)

正式一点的:聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间的距离较短,而不同簇中点之间的距离较大。

(2)聚类方法主要有:a. 层次聚类层次法(hierarchical methods),这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。。具体又可分为“自底向上”和“自顶向下”两种方案。

b. 划分聚类:(经典算法为kmeans)划分法(parTITIoning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。

c. 密度聚类基于密度的方法(density-based methods),基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

经典算法:DBSCAN:DBSCAN算法是一种典型的基于密度的聚类算法,该算法采用空间索引技术来搜索对象的邻域,引入了“核心对象”和“密度可达”等概念,从核心对象出发,把所有密度可达的对象组成一个簇。这个方法的指导思想:只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。

d. 网格聚类基于网格的方法(grid-based methods),这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。经典算法:STING:利用网格单元保存数据统计信息,从而实现多分辨率的聚类

e. 模型聚类:高斯混合模型基于模型的方法(model-based methods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好地满足这个模型的数据集。

这样一个模型可能是数据点在空间中的密度分布函数或者其它数据。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。(3)k-means比较好介绍,选k个点开始作为聚类中心,然后剩下的点根据距离划分到类中;找到新的类中心;重新分配点;迭代直到达到收敛条件或者迭代次数。 优点是快;缺点是要先指定k,同时对异常值很敏感。

5.线性回归和逻辑回归的区别

线性回归针对的目标变量是区间型的, 逻辑回归针对的目标变量是类别型的。

线性回归模型的目标变量和自变量之间的关系假设是线性相关的 ,逻辑回归模型中的目标变量和自变量是非线性的。线性回归中通常会用假设,对应于自变量x的某个值,目标变量y的观察值是服从正态分布的。

逻辑回归中目标变量y是服从二项分布0和1或者多项分布的

逻辑回归中不存在线性回归中常见的残差参数估值上,线性回归采用最小平方法,逻辑回归采用最大似然法。

6、为什么说朴素贝叶斯是“朴素”的?

朴素贝叶斯是一种简单但极为强大的预测建模算法。

之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。

7、K-Means 和 KNN 算法的区别是什么?

首先,这两个算法解决的是数据挖掘中的两类问题。

K-Means 是聚类算法,KNN 是分类算法。

其次,这两个算法分别是两种不同的学习方式。

K-Means 是非监督学习,也就是不需要事先给出分类标签,而KNN 是有监督学习,需要我们给出训练数据的分类标识。

最后,K值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

8. 逻辑斯蒂回归和线性回归的区别

逻辑斯蒂回归的预测值是两元的,0或1;而线性回归的预测值是连续的。

9.数据建模

(1)描述logistic回归与线性回归的区别(2)简述有监督学习和无监督学习的区别与联系(3)请举出几个分类模型的评估指标,请举出几个回归模型的评估指标(4)简述工作的工作或者学校项目中,统计模型建模的基本流程(可结合分析项目说明)

10. PCA为什么要中心化?PCA的主成分是什么?

结论:因为要算协方差。单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是为了让投影后方差最大。

在统计学中,主成分分析(PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。

主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。

最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

11. 极大似然估计

利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

12.置信度与置信区间是什么意思?

置信区间是我们所计算出的变量存在的范围,置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。

举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里,那么在这里,95%是置信水平,而计算出的范围,就是置信区间。如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。

13.说出两种不同的参数估计方法,并详细介绍其中一种估计方法,对某未知参数,如何比较两个不同估计量的优劣。

极大似然估计,最小二乘估计(最小均方误差),矩估计(用样本 k 阶矩代替总体的 k 阶矩)。

矩估计法(也称数字特征法):

直观意义比较明显,但要求总体 k 阶矩存在。缺点是不唯一,此时尽量使用样本低阶矩。观测值受异常值影响较大,不够稳健,实际中避免使用样本高阶矩。估计值可能不落在参数空间

极大似然估计法:

具有一些理论上的优点(不变性、相合性、渐近正态性)缺点是如果似然函数不可微,没有一般的求解法则。

14.详细介绍一种非参数统计的方法,并叙述非参数统计的优缺点

非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。

机器学习:决策树,随机森林,SVM;假设检验:符号,符号秩,秩和检验

优点:非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。

缺点:由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。对于大样本,如不采用适当的近似,计算可能变得十分复杂。

15.谈谈对假设检验中,显著性水平,第一类错误,第二类错误,p值,真实水平的理解。

假设检验:是根据样本来推断总体的一些给定陈述是否成立的过程第一类错误(type I error):拒绝了正确零假设第二类错误(type II error):接受了不正确零假设显著性水平(level of significance) : 拒绝了正确零假设的最大概率(事先给定)检验功效(power) : 拒绝了不正确零假设概率检验的p-值:根据样本,在原假设成立的前提下,出现与样本相同或者更极端的情况的概率

16.余弦距离与欧式距离求相似度的差别。

1)欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。

余弦距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦距离对绝对数值不敏感)。

2)总体来说,欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。(1)例如,统计两部剧的用户观看行为,用户A的观看向量为(0,1),用户B为(1,0);此时二者的余弦距很大,而欧氏距离很小;我们分析两个用户对于不同视频的偏好,更关注相对差异,显然应当使用余弦距离。(2)而当我们分析用户活跃度,以登陆次数(单位:次)和平均观看时长(单:分钟)作为特征时,余弦距离会认为(1,10)、(10,100)两个用户距离很近;但显然这两个用户活跃度是有着极大差异的,此时我们更关注数值绝对差异,应当使用欧氏距离。

17.如何判断一个模型的好坏?

(1)是否具备清晰的概念、足够的准确性(2)计算效率与表现形式(3)可移植性(推广应用价值)(4)易用性

18.用全部的数据做线性回归,这样是什么错误?

过度拟合

希望本文的内容对大家的学习或者工作能带来一定的帮助,每天进步一点点,加油♥。

    推荐阅读
  • 突触名词解释(突触是什么意思)

    突触名词解释突触是指一个神经元的冲动传到另一个神经元或传到另一细胞间的相互接触的结构。突触是神经元之间在功能上发生联系的部位,也是信息传递的关键部位。在光学显微镜下,可以看到一个神经元的轴突末梢经过多次分支,最后每一小支的末端膨大呈杯状或球状,叫做突触小体。这些突触小体可以与多个神经元的细胞体或树突相接触,形成突触。从电子显微镜下观察,可以看到,这种突触是由突触前膜、突触间隙和突触后膜三部分构成。

  • 《守望先锋》对战局影响大招top一览 守望先锋对局战绩

    今天小编要为大家带来的是玩家“黑呦酱”分享的《守望先锋》对战局影响大招top一览,感兴趣的玩家赶紧一起来看看吧!守望先锋大招分为四类,控制类,自身BUFF类,辅助类以及伤害类,由于伤害类大部分使用大招时,本体无法进行有效杀伤,且控制类及自身BUFF类需要其他技能的配合,so,此间因素也要加入考量。

  • 运动后喝黑咖啡还能燃脂吗 运动时喝黑咖啡会加快燃脂吗?

    2、运动过程中身体脂肪会加速燃烧,从而具有一定减肥作用;而黑咖啡热量比较小,加上其中含有大量的咖啡因以及维生素、纤维素物质,适量喝可以促进人体肠胃蠕动,加速脂肪代谢分解,对减肥具有促进作用。

  • 斯威汽车质量怎么样(斯威质量好不好)

    2018年6月起,斯威“品质特工队”以四大火炉的重庆作为起点,途径海南、吐鲁番、格尔木三地,历时近一年进行了数十万公里极限环境适应性试验。极端干燥高温环境下,常见车内温度往往会狂飙到60℃以上,而在斯威G01的车厢里,却始终能够保持清新凉爽的状态。一整套严酷考验下来,斯威G01的性能表现完全得以充分认证。这样一算,斯威G01差不多完成了近百万公里的专业级严酷考验。

  • 春天兰花怎么养 春天兰花怎么养浇水

    白墨兰花哪个品种最好白墨兰花是墨兰的珍贵变异品种假鳞茎椭圆形,已有数百年栽培历史,流传至今,不下十数个品种,它叶色莹润、体态优雅、幽香静远、且抗病,白墨兰花比较好的品种一般分企剑和软剑两个品系。什么兰花开花最香兰花品种很多,按花香来排,在兰花界春兰居首,惠兰次之,随后便是建兰、墨兰和寒兰,春兰的花香味最正宗,持久性也极强。

  • 奔驰e300l前进挡总共有几个(你看了奔驰22款E300L升级这套原厂HUD抬头显示效果觉得怎么样)

    从行车安全的角度来考虑,加装一台HUD是非常有必要的。HUD的全称是HeadUpDisplay,中文翻译过来就是抬头显示器。今天星骏汇小陈通过以上的产品配件图了解,我们看到这台奔驰22款E300L升级HUD抬头显示所需要更换的配件有,抬显仪器,高配仪表盖板,高配仪表电脑,雨量传感器,空调管升级HUD抬头显示把仪表台上的那一块盖板换掉,换成高配的预留好显示器孔位的盖板,装上显示器,从而使仪表显示的内容投射到挡风玻璃上面。

  • 儿童葫芦丝表演(通城千人共奏葫芦丝)

    儿童葫芦丝表演香城都市报讯 10月27日,通城县隽水中学参加湖北省“黄鹤杯”美育节节目视频录制现场,七、八年级千名学生,同奏乐曲《龙的传人》。该校相关负责人介绍,本学期,每天下午预备铃响5分钟,七、八年级各班集体合奏葫芦丝。丝竹声声,已渐成校园一道靓丽的风景线。近年来,该校贯彻落实社会主义核心价值观,注重未成年人思想道德建设,坚持开设中华传统和特色民族特色教育课程,促进学生“德智体”全面发展。

  • 鸡娃时代孩子的成长之道(与其1岁就开始鸡娃)

    出生时大脑发育已经完成25%,1岁完成了50%,3岁完成了60%,6岁达到90%。现在小学虽然是零基础入学,取消了统一考试,但是它对学生的要求并没有降低。吃够了佛系养娃的亏,橙子家的老二断然不肯再佛系养了。北京卫视于2018年摄制的纪录片《起跑线》中,有一个7岁的北京女孩令人印象深刻。她的家庭,在北京三环内有一套房,一辆车。妈妈认为,孩子从小培养兴趣,靠的是父母的指引。

  • 环氧树脂的作用与用途(环氧树脂有什么作用与用途)

    环氧树脂的作用与用途具有优良的物理和电绝缘性能,强度高、收缩性低,耐腐蚀以及有高绝缘的优势,所以被称为万能胶。电器、电机绝缘封装件的浇注。从常压浇注、真空浇注已发展到自动压力凝胶成型。长时间接触胶水时,有人会有细微的皮肤过敏和细微瘙痒疼痛的情况,建议在运用时戴上防护手套,如果出现了这样的情况,需要用酒精擦洗,然后用清水冲洗干净。

  • 明月曾照江东寒剧情(明月曾照江东寒剧情介绍)

    明月曾照江东寒剧情剧情简介:美少女战清泓是武林副盟主战破敌之女,从小被父亲禁止涉及江湖事。十年一期的武林大会即将来临,战清泓瞒着家人偷跑下山,立志夺取武林盟主之位。战清泓与温宥也开始互生情愫,奈何最终被世俗礼法所阻碍。与此同时,江湖上风起云涌,战清泓发现自己自幼背诵的家训竟是人人趋之若鹜的第一神功《鹤羽剑法》。