爱美容
当前位置: 首页 美容百科

统计学从概念到数据分析(数据分析必备的统计学知识)

时间:2023-05-31 作者: 小编 阅读量: 1 栏目名: 美容百科

通常情况下,我们不希望好人被冤枉,所以显著性水平α通常比较小。显著性水平α是在每次统计检验之前人为规定的,通常取α=0.05或α=0.01。这表明,当做出拒绝原假设的决定时,其犯错误的可能性为α=0.05或α=0.01,而P值是根据实验结果计算得出的。利用已知的样本结果,反推最有可能导致这样结果的参数值。多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。

01写在前面

数据分析师的必备技能栈里,除了熟悉业务、掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识。

为什么对于数据分析师来说统计学那么重要?其实答案显而易见,数据分析的价值就是通过数据去洞察业务背后的信息,避免之前的“一拍脑袋决定,二拍胸脯保证,三拍屁股走人”的主观误判,一切用数据说话!数据怎么能说话呢,算出一个数据,怎么知道这个数据是好还是坏?有多好有多坏?两组数据呈现在你面前,怎么判断这两组数据是否有明显差异?要回答这些问题,就必须要用到统计学知识,而不是相信自己的眼睛,因为眼睛有时候也会说谎,你看到的“好”不一定是好,你看到的“没有差异”不代表没有差异。

但是很多刚入门的数据分析师在学习统计学知识时都很头疼(也包括我哈哈哈),因为统计学的书籍里都是写晦涩难懂的公式,真不是一般人能看懂的。其实,对于大部分数据分析师来说,我们并不需要掌握的那么全面和深入,我们只需要掌握部分知识点,理论看不懂,但是知道在什么场景下用就行,用起来你才会慢慢地搞懂!

所以为了让大家更容易学习掌握统计学的基础知识,这里整理了数据分析工作中最常见的一些统计学基础知识,尽量用简单白话的形式去解释,这样无论是在面试中还是以后的工作中,都能把统计学的知识用起来!

02数据分析中的统计学

Q1、如何理解假设检验中的P值和显著性水平α?

讲显著性水平α我们就得提到前面文章中提到的第一类错误和第二类错误,可以翻看系列文章:【数分面试宝典】数据分析必备的统计学知识(一)

我们还是举之前谈恋爱的栗子,面前有一个男生,我们有2个假设:

H0:一个真心爱你的男生H1:一个不是真心爱你的男生

如果H0实际上成立,而你凭经验拒绝了H0,也就是说,你拒绝了一个你认为不爱你而实际上真心爱你的男生,那么你就犯了第一类“弃真”错误,也称为α风险,错杀了好人;

如果H0实际上不成立,而你接受了H0,同样的道理,你接受了一个你感觉爱你而实际上并不爱你的男生,那么你就犯了第二类“纳伪”错误,也称为β风险,放走了坏人。

第一类错误和第二类错误这两个错误概率互相制约,你大我就会变小,你小我就会变大,基于保护零假设的原则,我们一般把一类错误概率固定住,让第一类错误概率不超过某个阀值(也就是α值),也就是我们常说的“显著性水平α”,即代表好人被冤枉的概率。通常情况下,我们不希望好人被冤枉,所以显著性水平α通常比较小。

显著性水平α是你冤枉好人的可能性,然而,每个人在这一点上是有分歧的,有的人希望α大一点儿,有的人希望α小一点儿(α越大,意味着检验越严格,我们冤枉好人的概率就越大)。

在这种情况下,我们就期望回答一个问题:对于面前的这个男生,我们不会冤枉他的最严格的检验水平,即最大的α是多少呢?得到了这个问题的答案,我们就可以轻松完成在任意严格程度上的检验了,即如果α大于这个值,那么我们就认为该男生不喜欢你,反之亦可。

而这个最大的α,就是我们的P值。只是这2个概念是有明显的区别的。显著性水平α是在每次统计检验之前人为规定的,通常取α=0.05或α=0.01。这表明,当做出拒绝原假设的决定时,其犯错误的可能性为α=0.05或α=0.01,而P值是根据实验结果计算得出的。如果计算出来的概率(P值)小于这个标准(显著性水平α),就说明拒绝原假设错误的可能性很小,那就可以放心地拒绝原假设,认为这个男生确实是不爱你的;反之,大于这个标准则说明拒绝原假设错误的可能性较大,那还是接受原假设,也就是没有充足的证据,认为这个男生还是爱你的

Q2、如何理解置信度与置信区间?

置信区间是我们所计算出的变量存在的范围,置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。

举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里,那么在这里,95%是置信水平,而计算出的范围,就是置信区间。

如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。

Q3、如何理解极大似然估计?

利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。“似然”是“像这个样子”的意思。

极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”

假如有一个黑箱子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道箱子中白球和黑球的比例,但我们不能把箱子中的球全部拿出来数。现在我们可以每次任意从已经摇匀的箱子中拿一个球出来,记录球的颜色,然后把拿出来的球再放回箱中。这个过程可以重复,我们可以用记录的球的颜色来估计箱中黑白球的比例。假如在前面的一百次重复记录中,有70次是白球,请问箱子中白球所占的比例最有可能是多少?

很多人马上就有答案了:70%。而其后的理论支撑是什么呢?

我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,70次是白球的,30次为黑球事件的概率是P(样本结果|Model)。

如果第一次抽象的结果记为x1,第二次抽样的结果记为x2....那么样本结果为(x1,x2.....,x100)。这样,我们可以得到如下表达式:

P(样本结果|Model)

= P(x1,x2,…,x100|Model)

= P(x1|Model)P(x2|Model)…P(x100|Model)

= p^70(1-p)^30.

好的,我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数,也就是求的式中的p。

那么我们怎么来求这个p呢?

不同的p,直接导致P(样本结果|Model)的不同。

好的,我们的p实际上是有无数多种分布的。如下:

那么求出 p^70(1-p)^30为 7.8 * 10^(-31)

p的分布也可以是如下:

那么也可以求出p^70(1-p)^30为2.95* 10^(-27)

那么问题来了,既然有无数种分布可以选择,极大似然估计应该按照什么原则去选取这个分布呢?

答:采取的方法是让这个样本结果出现的可能性最大,也就是使得p^70(1-p)^30值最大,那么我们就可以看成是p的方程,求导即可!

那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。

我们想办法让观察样本出现的概率最大,转换为数学问题就是使得:

p^70(1-p)^30最大,这太简单了,未知数只有一个p,我们令其导数为0,即可求出p为70%,与我们一开始认为的70%是一致的。其中蕴含着我们的数学思想在里面。

Q4、详细介绍一种非参数统计方法,并叙述其优缺点

非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。

机器学习:决策树,随机森林,SVM;

假设检验:符号,符号秩,秩和检验

优点:

非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。

多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。

缺点:

由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。

对于大样本,如不采用适当的近似,计算可能变得十分复杂。

Q5、如何简单理解过拟合?如何防止过拟合?

好比你想找个女朋友。

你可能会先找你表妹问她喜欢什么,表妹说她喜欢阳光干净的男生,还说她喜欢王力宏,喜欢火锅,喜欢日料,七七八八合计一百个爱好。你规规矩矩地按照这个标准学训练自己,终于符合表妹的一切要求,完美零误差,训练完成,超级自信准备出去试试追个妹子。

可是换了个妹子,发现学到的完全没用。第二个妹子只要你阳光干净。剩下的她都不care,她甚至讨厌王力宏,那后面的那些只会增加误差。这就事过拟合了。

怎么防止过拟合呢?应该用cross validation,交叉比对。解释起来就是,你在你表妹那儿学到的东西,在你表姐那儿测试一下对不对。在你表姐那儿学到的,在你女同学那测试一下。来来回回用不同的测试对象和训练对象做交叉比对。这样学到规律就不会过拟合啦。

以上就是【数分面试宝典】系列—统计学基础知识第3篇文章的内容,部分历史文章请回翻公众号,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和点在看哈~

    推荐阅读
  • 融劵是什么 融资融券是啥意思

    融券是指接受做空交易可以使证券公司赚取反方向交易佣金,同时可以使投资者锁定多仓风险。证券公司将自有股票或客户投资账户中的股票借给做空投资者,投资者借证券来出售,到期返还相同种类和数量的证券并支付利息。

  • 反问句的特点(关于反问句的特点)

    接下来我们就一起去研究一下吧!反问句的特点反问句是对陈述句的修饰,强调语气。相比之下,前一句话的语气要强烈得多。加强语气,更明显的表达出自己所要表达的东西。那些经常使用反问句的人在语言上更具攻击性,有很强的自我保护意识。这可能是自卑的表现,尤其是在与异性的交流中。这在择偶过程中也会产生负面影响。因此,建议在日常生活中不要经常使用反问句。

  • 2023佛山新生儿入户办理条件(2023佛山新生儿入户办理条件及流程)

    父母双方或一方为本市户籍居民所生育的小孩,自愿选择随父随母登记入户;同一市内夫妻一方户口为家庭户、一方户口为集体户的,所生子女应当随家庭户一方申报出生登记;父母离婚的小孩跟随抚养权属方登记入户。

  • 文艺说说大全简短(林下漏月光疏疏如残雪)

    得之我幸,失之我命,如此而已。霜雪吹满头,也算是白首。每个女孩子都是由糖香料以及一切美好的东西做成的,仅比天使差一点眼里藏着十年春秋与西北。四方食事,不过一碗人间烟火。昨日种种,皆成今我。天可补,海可填,南山可移。宇宙山河浪漫,生活点滴温暖。我不晓得将去何方,但我已在路上。夏日里的遗憾一定会被秋风温柔化解。春花、秋月、夏日、冬雪。即许一人以偏爱,愿有余生之慷慨。小池塘边跌坐看鱼,挑眉烟火过一生。

  • 华莱士店铺一年能赚多少(华莱士开万店捞金)

    正是这家快餐店,却先后遭到有关部门的处罚。尤其是今年华莱士后厨卫生事件,更是深受外界所诟病。针对此问题,华莱士虽第一时间出来道歉,华莱士霍营店也被相关部门处罚20多万元。在9月份,华莱士北京南站店工作人员没有健康证明。但其暴露出的问题也不断增多,尤其是旗下门店的后厨卫生条件多次被相关部门罚款。

  • 辉煌腾达的意思(辉煌腾达的解释)

    辉煌腾达的意思是形容骏马奔腾飞驰比喻骤然得志,官职升得很快,接下来我们就来聊聊关于辉煌腾达的意思?以下内容大家不妨参考一二希望能帮到您!辉煌腾达的意思辉煌腾达的意思是形容骏马奔腾飞驰。

  • 乡村爱情电视剧有哪些(大家可以了解一下)

    我们一起去了解并探讨一下这个问题吧!乡村爱情电视剧有哪些《乡村爱情》是于2006年至2019年赵本山主演的系列电视剧。截至2020年,目前共11部。《乡村爱情11》于2019年1月26日在优酷独家播出。延续了前几部的故事,讲述了以刘能、广坤、赵四为首的象牙山村民在新时代背景下,就“精准扶贫”“招商引资”等国家惠农政策的误解,与新到任大学生村官杜小双以及到象牙山投资的神秘富豪,发生的一系列依旧搞笑无解的故事。

  • 世界ol大刀战士技能加点(世界ol大刀战士技能加点推荐)

    我们一起去了解并探讨一下这个问题吧!世界ol大刀战士技能加点天无相神功加满,飞天御剑流加5,武器大师加5,精通破甲加5,圣灵力魄加满,武器娴熟加五,熊象巨力加十,战争艺术加十,基础刀法加满,轩辕惊天决加十,强化训练加满,统御之力加满,攻守兼备加十,五气朝元加满,精通重击加满。这些都是很使用的技能,建议加满。技能主动英勇开始学到十二就可以打四个,被动,娴熟,刀法,大师,剑流,必满,前期可以先点到十。

  • 鱼工念什么(鱼工读什么)

    下面内容希望能帮助到你,我们来一起看看吧!鱼工念什么鱼工念魟读音。〔魟鱼〕身体扁平,略呈圆形或菱形,软骨无鳞,胸鳍发达,如蝶展翅,尾呈鞭状,有毒刺。种类很多,常见的有尖嘴魟、赤魟、燕魟等。鱼名,泛指属于魟科及其他有关科的许多种,在其鞭形的尾的基部旁边有一根或数根带倒钩的又大又尖的背棘,能重创敌人,有时它们能长得很大,其中有些种类对牡蛎危害很大。

  • 许昌带状疱疹怎么治?可以预防吗?(带状疱疹能不能根治?)

    部分患者会发生带状疱疹后神经痛,此类患者除了药物治疗和其他辅助治疗措施外,必要时还需要联合心理治疗与行为调节。预防措施带状疱疹疫苗是目前有效的预防途径。接种疫苗后可预防带状疱疹的发生,降低带状疱疹后神经痛的发生率,缩短带状疱疹的持续时间。带状疱疹疫苗属于自愿、自费接种的非免疫规划疫苗,有意接种者可以咨询居住地附近社区卫生服务中心预防接种门诊,预约接种。