机器学习中统计概率分布大全（Python代码）-九游app会员登录

新闻中心

2024-02-15 06:23

　　本文将讨论我们经常遇到的概率分布，希望能从概念层面帮助大家建立总体认知。

　　如果实验可能的结果是可数的，那么它被称为离散随机变量。例如，如果你抛硬币 10 次，你能得到的正面数可以用一个数字表示。或者篮子里有多少苹果仍然是可数的。

　　这些是不能以离散方式表示的值。例如，一个人可能有 1.7 米高，1米 80 厘米，1.6666666...米高等等。

　　返回离散随机变量等于的值的概率。所有值的总和等于 1。PMF 只能用于离散变量。

　　它类似于连续变量的 PMF 版本。返回连续随机变量 X 在某个范围内的概率。

　　我们有一个线)的结果。假设我们接受正面为真（我们可以选择正面为真或成功）。那么，如果正面朝上的概率是，相反情况的概率就是。

　　伯努利分布是针对单个观测结果的。多个伯努利观测结果会产生二项式分布。例如，连续抛掷硬币。

　　现在这次车刀，你有一枚欺诈硬币。你知道这个硬币正面向上的概率是 0.7。因此，p = 0.7。

　　，是在指定时间间隔内预期发生的事件次数。它是在该时间间隔内发生的事件的已知平均值。是事件在指定时间间隔内发生的次数。如果事件遵循泊松分布，则：

　　在泊松分布中，事件彼此独立。事件可以发生任意次数。两个事件不能同时发生。

　　最著名和最常见的分布（也称为高斯分布）概率密度函数，是一种钟形曲线奇异位置。它可以通过均值和标准差定义。正态分布的期望值是均值。

　　曲线对称。均值、中位数和众数相等。曲线%的值落在一个标准差范围内。~95% 落在两个标准差范围内，~98.7% 落在三个标准差范围内。

　　计算每个数据点的 z 分数并对其进行排序，然后在 y 轴上表示它们。X 轴表示值的排名的分位数。

　　尾巴是分布的长而窄的部分，离群值就位于其中。当一侧尾巴不同于另一侧时，就称为偏斜。下图是长尾分布的 QQ 图。

　　t 分布是具有较厚尾部的正态分布。如果可用数据较少（约 30 个），则使用 t 分布代替正态分布。

　　在 t 分布中，自由度变量也被考虑在内。根据自由度和置信水平在 t 分布表中找到关键的 t 值。这些值用于假设检验。

　　我们在 Poisson 分布中研究了在一定时间间隔内发生的事件。在指数分布中，我们关注的是两个事件之间经过的时间。如果我们把上面的例子倒过来，那么两个电话之间需要多长时间？

　　它是指时间间隔是可变的而不是固定的情况下使用的指数分布的扩展。在 Weibull 分布中，时间间隔被允许动态变化。

　　是形状参数，如果是正值，则事件发生的概率随时间而增加，反之亦然。是尺度参数。importmatplotlib.pyplot

　　指与第 n 个事件发生所需的时间有关的分布，而指数分布则与首次事件发生的时间有关。

　　当我们从人群中收集足够大的样本时，样本的平均值将具有正态分布，即使人群不是正态分布。

　　我们可以从任何分布（离散或连续）开始，从人群中收集样本并记录这些样本的平均值。随着我们继续采样，我们会注意到平均值的分布正在慢慢形成正态分布稳定运转阶段。

　　平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。

XX财富金融集团