统计学数据分析的依据和方法（数据分析-需要掌握统计学的基本概念）

聚类的目标是使得同一簇内的点之间的距离较短，而不同簇中点之间的距离较大。之所以称为朴素贝叶斯，是因为它假设每个输入变量是独立的。K-Means是非监督学习，也就是不需要事先给出分类标签，而KNN是有监督学习，需要我们给出训练数据的分类标识。KNN中的K值代表K个最接近的邻居。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

统计学数据分析的依据和方法?在我们的日常的企业级App或者网站的数据中，通常会遇到一些问题、男女生点击率增加，总体为何减少?，我来为大家科普一下关于统计学数据分析的依据和方法?以下内容希望对你有帮助!

统计学数据分析的依据和方法

在我们的日常的企业级App或者网站的数据中，通常会遇到一些问题、男女生点击率增加，总体为何减少?

同事在处理数据时可能遇到各种疑问，协方差是什么？与相关系数的区别和联系是什么？等等一些灵魂性的拷问。本文将一些日常工作中零碎的细节做了整理。

以备学习理解使用。

1.男女生点击率同时增加，总体为何减少?

先看结论：因为男女的点击率可能有较大差异，同时低点击率群体的占比增大。

如原来男性20人，点击1人；女性100人，点击99人，总点击率100/120。现在男性100人，点击6人；女性20人，点击20人，总点击率26/120。即那个段子“A系中智商最低的人去读B，同时提高了A系和B系的平均智商。”

2.协方差与相关系数的区别和联系。

协方差：

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。

如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

相关系数：

研究变量之间线性相关程度的量，取值范围是[-1,1]。

相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差。

3.中心极限定理

中心极限定理定义：（1）任何一个样本的平均值将会约等于其所在总体的平均值。（2）不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的平均值周围，并且呈正态分布。中心极限定理作用：（1）在没有办法得到总体全部数据的情况下，我们可以用样本来估计总体。（2）根据总体的平均值和标准差，判断某个样本是否属于总体。

4.什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤

（1）聚类分析是一种无监督的学习方法，根据一定条件将相对同质的样本归到一个类总（俗话说人以类聚，物以群分）

正式一点的：聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间的距离较短，而不同簇中点之间的距离较大。

（2）聚类方法主要有：a. 层次聚类层次法（hierarchical methods），这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。。具体又可分为“自底向上”和“自顶向下”两种方案。

b. 划分聚类：（经典算法为kmeans）划分法（parTITIoning methods），给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。而且这K个分组满足下列条件：（1）每一个分组至少包含一个数据纪录；（2）每一个数据纪录属于且仅属于一个分组（注意：这个要求在某些模糊聚类算法中可以放宽）；对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的纪录越远越好。

c. 密度聚类基于密度的方法（density-based methods），基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

经典算法：DBSCAN:DBSCAN算法是一种典型的基于密度的聚类算法，该算法采用空间索引技术来搜索对象的邻域，引入了“核心对象”和“密度可达”等概念，从核心对象出发，把所有密度可达的对象组成一个簇。这个方法的指导思想：只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去。

d. 网格聚类基于网格的方法（grid-based methods），这种方法首先将数据空间划分成为有限个单元（cell）的网格结构，所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。经典算法：STING：利用网格单元保存数据统计信息，从而实现多分辨率的聚类

e. 模型聚类：高斯混合模型基于模型的方法（model-based methods），基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好地满足这个模型的数据集。

这样一个模型可能是数据点在空间中的密度分布函数或者其它数据。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。（3）k-means比较好介绍，选k个点开始作为聚类中心，然后剩下的点根据距离划分到类中；找到新的类中心；重新分配点；迭代直到达到收敛条件或者迭代次数。优点是快；缺点是要先指定k，同时对异常值很敏感。

5.线性回归和逻辑回归的区别

线性回归针对的目标变量是区间型的，逻辑回归针对的目标变量是类别型的。

线性回归模型的目标变量和自变量之间的关系假设是线性相关的，逻辑回归模型中的目标变量和自变量是非线性的。线性回归中通常会用假设，对应于自变量x的某个值，目标变量y的观察值是服从正态分布的。

逻辑回归中目标变量y是服从二项分布0和1或者多项分布的

逻辑回归中不存在线性回归中常见的残差参数估值上，线性回归采用最小平方法，逻辑回归采用最大似然法。

6、为什么说朴素贝叶斯是“朴素”的？

朴素贝叶斯是一种简单但极为强大的预测建模算法。

之所以称为朴素贝叶斯，是因为它假设每个输入变量是独立的。这是一个强硬的假设，实际情况并不一定，但是这项技术对于绝大部分的复杂问题仍然非常有效。

7、K-Means 和 KNN 算法的区别是什么？

首先，这两个算法解决的是数据挖掘中的两类问题。

K-Means 是聚类算法，KNN 是分类算法。

其次，这两个算法分别是两种不同的学习方式。

K-Means 是非监督学习，也就是不需要事先给出分类标签，而KNN 是有监督学习，需要我们给出训练数据的分类标识。

最后，K值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

8. 逻辑斯蒂回归和线性回归的区别

逻辑斯蒂回归的预测值是两元的，0或1；而线性回归的预测值是连续的。

9.数据建模

（1）描述logistic回归与线性回归的区别（2）简述有监督学习和无监督学习的区别与联系（3）请举出几个分类模型的评估指标，请举出几个回归模型的评估指标（4）简述工作的工作或者学校项目中，统计模型建模的基本流程（可结合分析项目说明)

10. PCA为什么要中心化？PCA的主成分是什么？

结论：因为要算协方差。单纯的线性变换只是产生了倍数缩放，无法消除量纲对协方差的影响，而协方差是为了让投影后方差最大。

在统计学中，主成分分析（PCA）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。

主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上处理降维的一种方法。

主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Va（rF1）越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov（F1,F2）=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

11. 极大似然估计

利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

12.置信度与置信区间是什么意思？

置信区间是我们所计算出的变量存在的范围，置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。

举例来讲，如果我们有95%的把握，让真正的数值在我们所计算的范围里，那么在这里，95%是置信水平，而计算出的范围，就是置信区间。如果置信度为95%，则抽取100个样本来估计总体的均值，由100个样本所构造的100个区间中，约有95个区间包含总体均值。

13.说出两种不同的参数估计方法，并详细介绍其中一种估计方法，对某未知参数，如何比较两个不同估计量的优劣。

极大似然估计，最小二乘估计（最小均方误差），矩估计（用样本 k 阶矩代替总体的 k 阶矩）。

矩估计法（也称数字特征法）：

直观意义比较明显，但要求总体 k 阶矩存在。缺点是不唯一，此时尽量使用样本低阶矩。观测值受异常值影响较大，不够稳健，实际中避免使用样本高阶矩。估计值可能不落在参数空间

极大似然估计法：

具有一些理论上的优点（不变性、相合性、渐近正态性）缺点是如果似然函数不可微，没有一般的求解法则。

14.详细介绍一种非参数统计的方法，并叙述非参数统计的优缺点

非参数统计：对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。

机器学习：决策树，随机森林，SVM；假设检验：符号，符号秩，秩和检验

优点：非参数统计方法要求的假定条件比较少，因而它的适用范围比较广泛。多数非参数统计方法要求的思想与运算比较简单，可以迅速完成计算取得结果。

缺点：由于方法简单，用的计量水准较低，因此，如果能与参数统计方法同时使用时，就不如参数统计方法敏感。若为追求简单而使用非参数统计方法，其检验功效就要差些。这就是说，在给定的显著性水平下进行检验时，非参数统计方法与参数统计方法相比，第Ⅱ类错误的概率β要大些。对于大样本，如不采用适当的近似，计算可能变得十分复杂。

15.谈谈对假设检验中，显著性水平，第一类错误，第二类错误，p值，真实水平的理解。

假设检验：是根据样本来推断总体的一些给定陈述是否成立的过程第一类错误(type I error)：拒绝了正确零假设第二类错误(type II error)：接受了不正确零假设显著性水平(level of significance) : 拒绝了正确零假设的最大概率（事先给定）检验功效(power) : 拒绝了不正确零假设概率检验的p-值：根据样本，在原假设成立的前提下，出现与样本相同或者更极端的情况的概率

16.余弦距离与欧式距离求相似度的差别。

1）欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异。

余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦距离对绝对数值不敏感）。

2）总体来说，欧氏距离体现数值上的绝对差异，而余弦距离体现方向上的相对差异。（1）例如，统计两部剧的用户观看行为，用户A的观看向量为(0,1)，用户B为(1,0)；此时二者的余弦距很大，而欧氏距离很小；我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。（2）而当我们分析用户活跃度，以登陆次数(单位：次)和平均观看时长(单：分钟)作为特征时，余弦距离会认为(1,10)、(10,100)两个用户距离很近；但显然这两个用户活跃度是有着极大差异的，此时我们更关注数值绝对差异，应当使用欧氏距离。

17.如何判断一个模型的好坏？

（1）是否具备清晰的概念、足够的准确性（2）计算效率与表现形式（3）可移植性（推广应用价值）（4）易用性

18.用全部的数据做线性回归，这样是什么错误？

过度拟合

希望本文的内容对大家的学习或者工作能带来一定的帮助，每天进步一点点，加油♥。