描述性统计(GNU Octave(版本9.1.0))

下一个数据滑窗统计上级统计数字[目录][指数]

26.1描述性统计¶

描述性统计的一个主要目标是简明地表示警报数据集的本质。Octave提供了平均值、中值和模式函数,所有这些函数都用一个对应于数据中心趋势的数字来总结数据集。

: m = mean (x) ¶

: m = mean (x, dim) ¶

: m = mean (x, vecdim) ¶

: m = mean (x, "all") ¶

: m = mean (…, nanflag) ¶

: m = mean (…, outtype) ¶

计算的元素的平均值x.

如果x是一个向量,那么意思是x)返回中元素的平均值x定义为

意思是x)=总和_ix(i) /N

这里的N是中的元素数x.

如果x是一个数组,那么意思是x)计算的第一个非单例维度的平均值x.

可选变量dim军队意思是操作指定的维度,该维度必须是一个正整数值。在中指定任何单例维度x,包括任何超过ndims(x),将得到等于的平均值x.

将尺寸指定为vecdim,一个非重复维度的向量,将返回从定义的数组切片上的平均值vecdim如果vecdim索引的所有维度x,那么它相当于参数全部的。中的任何尺寸vecdim大于ndims(x)被忽略。

将尺寸指定为全部的将强制意思是操作的所有元素x,相当于意思是x(:)).

可选输入outtype指定返回的数据类型。outtype可以采用以下值:

默认:输出类型为double,除非输入为: single,在这种情况下输出为single类型。
double:输出类型为double。
native:输出与返回的输入类型相同: 通过类x)),除非输入是逻辑的,在这种情况下输出是double类型。

可选变量南旗指定是使用前面指定的任何输入参数组合在计算中包括NaN值还是排除NaN值。的默认值南旗是包括南其在计算中保持NaN值。若要排除NaN值,请设置的值南旗到omitnan。如果x从操作维度中的所有NaN值组成。

详见: 中值的, 模式, movmean.

: m = median (x) ¶

: m = median (x, dim) ¶

: m = median (x, vecdim) ¶

: m = median (x, "all") ¶

: m = median (…, nanflag) ¶

: m = median (…, outtype) ¶

计算的元素的中值x.

当的元素x排序,比如s分类x),中位数定义为

|  s(ceil(N/2))N奇数中值(x) = |             | (s(N/2)+s(N/2+1))/2 N偶数

如果x是一个数组,那么中值的x)沿着的第一个非单例维度操作x.

可选变量dim军队中值的操作指定的维度,该维度必须是一个正整数值。在中指定任何单例维度x,包括任何超过ndims(x),将导致中值等于x.

将尺寸指定为vecdim,一个非重复维度的向量,将返回从定义的数组切片上的中值vecdim如果vecdim索引的所有维度x,那么它相当于参数全部的。中的任何尺寸vecdim大于ndims(x)被忽略。

将尺寸指定为全部的将强制中值的操作的所有元素x,相当于中值的x(:)).

中值的outtype)使用前面语法中的任何输入参数,返回具有指定数据类型的中值。outtype可以采用以下值:

默认: 输出类型为double,除非输入为single,在这种情况下输出类型为single。
double: 输出类型为double。
native.: 输出与输入类型相同(类x)),除非输入是逻辑的,在这种情况下输出的类型是double。

详见: 意思是, 模式, movmedian.

: m = mode (x) ¶

: m = mode (x, dim) ¶

: [m, f, c] = mode (…) ¶

计算数据集中最频繁出现的值(模式)。

mode确定沿着第一非单重维度的值的频率,并返回具有最高频率的值。如果两个或更多个值具有相同的频率mode返回最小值。

如果可选参数dim给定,沿此维度操作。

返回变量f是模式在数据集中的出现次数。

元胞数组c包含具有最大频率的所有元素。

详见: 意思是, 中值的.

仅使用一个数字(如平均值)来表示整个数据集可能无法提供准确的数据图片。表征拟合的一种方法是测量数据的离散度。Octave提供了几种测量色散的函数。

: [s, l] = bounds (x) ¶

: [s, l] = bounds (x, dim) ¶

: [s, l] = bounds (…, "nanflag") ¶

返回输入数据的最小值和最大值x.

如果x是一个向量,边界是在的元素上计算的x如果x是一个矩阵,为每列计算边界。对于多维数组,边界是在第一个非单例维度上计算的。

如果可选参数dim给定,沿此维度操作。

可选参数南旗默认为omitnan其在结果中不包括NaN值。如果参数包括南如果给定,并且存在NaN,则两个最小的结果(s)和最大的(l)元素将是NaN。

边界是数据集离散度的快速计算度量,但精度低于iqr如果存在外围数据点。

详见: 范围, iqr, 疯狂的, std.

: y = range (x) ¶

: y = range (x, dim) ¶

返回范围,即输入数据的最大值和最小值之间的差值。

如果x是一个向量,范围是在的元素上计算的x如果x是一个矩阵,范围是在的每列上计算的x.

如果可选参数dim给定,沿此维度操作。

该范围是对数据集离散度的快速计算度量,但精度低于iqr如果存在外围数据点。

详见: 界限, iqr, 疯狂的, std.

: Z = iqr (x) ¶

: Z = iqr (x, dim) ¶

: Z = iqr (x, "ALL") ¶

返回的四分位间距x,定义为的第25个百分位数和第75个百分比值之间的距离x计算使用:分位数(x,[0.25 0.75])

如果x是向量,iqr(x)将对中的数据进行操作x.

如果x是矩阵,iqr(x)将独立操作中的每列x返回行向量Z.

如果x是n维数组,iqr(x)将依赖于中的第一个非单例维度进行操作x,返回数组Z形状与相同x其中非单体二聚体被还原为1。

可选变量dim可以用来强迫iqr在指定的维度上进行运算。dim可以是标量维度,也可以是要操作的非重复维度的向量。无论哪种情况dim必须是正整数。一个向量dim连接所有指定的维度以进行独立操作iqr.

指定尺寸全部将强制iqr操作的所有元素x,相当于iqr(x(:))类似地,指定一个向量维度,包括的所有非单重维数x相当于iqr(x, 全部).

如果x是标量,或者仅为指定了单例维度dim,输出将为零(大小(x)).

作为离散度的衡量标准,四分位间距受误差的影响比任何一个都小范围或std.

详见: 界限, 疯狂的, 范围, std, 百分位数, 分位数.

: m = mad (x) ¶

: m = mad (x, opt) ¶

: m = mad (x, opt, dim) ¶

: m = mad (x, opt, vecdim) ¶

: m = mad (x, opt, "all") ¶

计算元素的平均值或中值绝对偏差(MAD)x.

平均绝对偏差定义为

疯狂的=平均值(abs(x意思是x)))

中值绝对偏差定义为

疯狂的=中位数(绝对值(x中值的x)))

如果x是向量,计算疯狂的对于中的每个元素x如果x是在第一个非单例维度上执行计算的数组。

疯狂的从计算中排除NaN值,类似于使用奥米南中的参数var, 意思是和中值的.

可选参数opt确定是否计算平均值或中值绝对偏差。默认值为0,对应于平均绝对偏差;值1对应于中值绝对偏差。传递空输入[]默认为平均绝对偏差(opt= 0).

可选参数dim军队疯狂的以沿着指定的尺寸进行操作。在中指定任何单例维度x,包括任何超过ndims(x),将导致0的输出。

将尺寸指定为vecdim,一个非重复维度的向量,将返回疯狂的在从定义的数组切片上vecdim如果vecdim索引的所有维度x,那么它相当于参数全部的.中包含的任何尺寸vecdim大于ndims(x)被忽略。

将尺寸指定为全部的将强制疯狂的操作的所有元素x,相当于疯狂的x(:)).

作为色散的度量,疯狂的受异常值的影响小于std.

详见: 界限, 范围, iqr, std, 意思是, 中值的.

: y = meansq (x) ¶

: y = meansq (x, dim) ¶

计算向量元素的均方x.

均方定义为

平均平方(x)=1/N总和_ix(i) ^2

这里的N是的长度x向量。

如果x是一个矩阵,返回一个行向量,其中包含每列的平方均值。

如果可选参数dim给定,沿此维度操作。

详见: var, std, 片刻.

: s = std (x) ¶

: s = std (x, w) ¶

: s = std (x, w, dim) ¶

: s = std (x, w, vecdim) ¶

: s = std (x, w, "ALL") ¶

: s = std (…, nanflag) ¶

: [s, m] = std (…) ¶

计算向量元素的标准偏差x.

标准偏差定义为

std(x)=sqrt((1/(N-1))*SUM_i((x(i) -平均值(x2.

这里的N是的元素数x.

如果x是一个数组,计算沿的第一个非单例维度的标准偏差x.

可选参数w确定要使用的加权方案。有效值为:

0[默认值]:: 规格化为N-1(总体标准偏差)。这提供了标准偏差的最佳无偏估计量的平方根。
1.: 规格化为N(样本标准偏差)。这提供了二阶矩在平均值附近的平方根。
向量:: 使用非负权重计算加权标准偏差。的长度w必须等于的大小x在操作尺寸中。中允许NaN值w,将与中的关联值相乘x,并且可以被排除在外南旗参数
一个数组:: 类似于向量权重,但是w必须与大小相同x.如果操作尺寸提供为vecdim或全部的和w不是标量,w必须是相同大小的数组。

笔记w在指定以下任何尺寸参数之前,必须始终指定。使用的默认值w您可以传递一个空的输入参数[]。

可选变量dim军队std操作指定的维度,该维度必须是一个正整数值。在中指定任何单例维度x,包括任何超过ndims(x),将导致0的标准偏差。

将尺寸指定为vecdim,一个非重复维度的向量,将返回在定义的数组切片上计算的标准偏差vecdim如果vecdim索引的所有维度x,则它等效于参数全部的。任意维度vecdim大于ndims(x)被忽略。

将尺寸指定为全部的将强制std操作的所有元素x,相当于std(x(:)).

可选的第二个输出变量m包含的元素的平均值x用于计算标准偏差。如果v是加权标准偏差,那么m也是加权平均值。

详见: var, 界限, 疯狂的, 范围, iqr, 意思是, 中值的.

除了知道分散体的大小之外,了解数据集的形状也是有用的。例如,数据点是集中在均值的左边还是右边？Octave提供了几种常用的度量来描述数据集的形状。Octave还可以计算力矩,从而开发任意的形状测量。

: v = var (x) ¶

: v = var (x, w) ¶

: v = var (x, w, dim) ¶

: v = var (x, w, vecdim) ¶

: v = var (x, w, "all") ¶

: v = var (…, nanflag) ¶

: [v, m] = var (…) ¶

计算向量元素的方差x.

方差定义为

var(x)=(1/(N-1))*SUM_i((x(i) -平均值(x2.

这里的N是的元素数x.

如果x是一个数组,计算沿的第一个非单重维数的方差x.

可选参数w确定要使用的加权方案。有效值为:

0[默认值]:: 规格化为N-1(总体方差)。这提供了方差的最佳无偏估计器的平方根。
1.: 规格化为N(样本方差)。这提供了二阶矩在平均值附近的平方根。
向量:: 使用非负权重计算加权方差。的长度w必须等于的大小x在操作维度上。中允许NaN值w,将与中的关联值相乘x,并且可以被排除在外南旗参数
一个数组:: 类似于向量权重,但是w必须与大小相同x.如果操作尺寸提供为vecdim或全部的和w不是标量,w必须是相同大小的数组。

笔记w在指定以下任何尺寸参数之前,必须始终指定。使用的默认值w您可以传递一个空的输入参数[]。

可选变量dim军队var操作指定的维度,该维度必须是一个正整数值。在中指定任何单例维度x,包括任何超过ndims(x),将导致方差为0。

将尺寸指定为vecdim,一个非重复维度的向量,将返回在定义的数组切片上计算的方差vecdim如果vecdim索引的所有维度x,则相当于参数全部的。中的任何尺寸vecdim大于ndims(x)被忽略。

将尺寸指定为全部的将强制var操作的所有元素x,相当于var(x(:)).

可选的第二个输出变量m包含的元素的平均值x用于计算方差。如果v是加权方差,那么m也是加权平均值。

详见: std, 意思是, 冠状病毒, 偏斜, 峰度, 片刻.

: y = skewness (x) ¶

: y = skewness (x, flag) ¶

: y = skewness (x, flag, dim) ¶

计算的元素的样本偏斜度x.

样本偏度定义为

意思是x意思是x)).^3) 偏斜(十、) = ------------------------.                      std(x).^3.

可选参数旗帜控制使用哪种规范化。如果旗帜等于1(默认值,用于旗帜省略或为空),返回上面定义的样本偏斜度。如果旗帜等于0,则返回调整后的偏斜度系数:

sqrt(N*(N-1))平均值((x意思是x)).^3) 偏斜(十、, 0) = -------------- * ------------------------.                      (N-2)标准(x).^3.

这里的N是的长度x向量。

通过将样本二次和三次中心矩替换为它们的偏置校正版本来获得调整后的偏斜度系数。

如果x是一个矩阵,或者更一般地说是一个多维数组,返回沿第一个非单例维度的偏度。如果可选dim给定参数,沿此维度操作。

详见: var, 峰度, 片刻.

: y = kurtosis (x) ¶

: y = kurtosis (x, flag) ¶

: y = kurtosis (x, flag, dim) ¶

计算的元素的样本峰度x.

样本峰度定义为

意思是x意思是x)).^4) k1=------------------------标准(x).^4.

可选参数旗帜控制使用哪种规范化。如果旗帜等于1(默认值,用于旗帜省略或为空),返回如上定义的样本峰度。如果旗帜等于0,返回“已校正的偏差峰度系数:

N-1k0=3+---------------*((N+1)*k1-3*(N-1))(N-2)(N-3)

这里的N是的长度x向量。

通过用样本的无偏版本替换样本的第二和第四中心矩来获得经偏置校正的峰度系数。这是对正常人群峰度的无偏估计。

如果x是一个矩阵,或者更一般地说是一个多维数组,沿着第一个非单例维度返回峰度。如果可选dim给定参数,沿此维度操作。

详见: var, 偏斜, 片刻.

: m = moment (x, p) ¶

: m = moment (x, p, type) ¶

: m = moment (x, p, dim) ¶

: m = moment (x, p, type, dim) ¶

: m = moment (x, p, dim, type) ¶

计算-向量的第th个中心矩x.

这个-的第th中心矩x定义为:

1/N SUM_i(x(i) -平均值(x))^</p>

这里的N是的长度x向量。

如果x是一个矩阵,返回包含-每个柱的中心力矩。

如果可选参数dim给定,沿此维度操作。

可选字符串type指定要计算的力矩类型。有效参数包括:

c

中心力矩(默认值)。

a

ac

绝对中心力矩。关于均值忽略符号的时刻定义为

1/N总和_i(abs(x(i) -平均值(x)))^</p>

r

原始时刻。关于零的力矩定义为

片刻x)=1/N总和_ix(i)^</p>

ar

绝对原始力矩。关于零忽略符号的力矩定义为

1/N总和_i(abs(x(i) ))^</p>

如果两者都有type和dim如果给定,它们可以以任何顺序出现。

详见: var, 偏斜, 峰度.

: q = quantile (x) ¶

: q = quantile (x, p) ¶

: q = quantile (x, p, dim) ¶

: q = quantile (x, p, dim, method) ¶

对于样品,x,计算分位数,q,对应于中的累积概率值。的所有非数值(NaN)x被忽略。

如果x是一个矩阵,计算每列的分位数,并将其转换为矩阵,这样的第i行q包含(i) 的每列的第th个分位数x.

如果未指定,返回的分位数[0.00 0.25 0.50 0.75 1.00]。可选参数dim确定计算分位数的维度。如果dim如果省略,则默认为第一个非单例维度。

可用于计算样本分位数的方法是R所使用的九种方法(https://www.r-project.org/). 默认值为方法5..

不连续样本分位数方法1、2和3

方法一:经验分布函数的逆。
方法2:类似于方法1,但在不连续处取平均值。
方法三:SAS定义:最接近偶阶统计量。

连续样本分位数方法4到9,其中(k) 是关于每种方法的代表性cdf的线性插值函数。

方法4:(k) =k/N。也就是说,经验cdf的线性插值,其中N是的长度P.
方法5:(k) =(k-0.5)/N。也就是说,分段线性函数,其中节点是经验cdf步骤的中间值。
方法6:(k) =k/(N+1)。
方法7:(k) =(k-1)/(N-1)。
方法8:(k) =(k-1/3)/(N+1/3)。从此返回的分位数估计值近似为中值,无需考虑的分布x.
方法9:(k) =(k-3/8)/(N+1/4)。如果x是正态分布的。

Hyndman和Fan(1996)推荐了方法8。Maxima、S和R(2.0.0之前的版本)使用7作为默认值。Minitab和SPSSuse方法6。MATLAB使用方法5。

参考文献:

Becker,R.A.、Chambers,J.M.和Wilks,A.R.(1988)《新S语言》。Wadsworth&Brooks/Cole。
Hyndman,R.J.和Fan,Y.(1996)样本分位数不稳定包,美国统计学家,50361–365。
R: 统计计算的语言和环境;https://cran.r-project.org/doc/manuals/fullrefman.pdf.

示例:

x=randi(1000,[10,1]);#创建1-1000q=分位数(x,[0,1])范围内的经验数据;#返回分布的最小值、最大值q=分位数(x,[0.25 0.5 0.75]);#返回分布的四分位数

详见: 百分位数.

: q = prctile (x) ¶

: q = prctile (x, p) ¶

: q = prctile (x, p, dim) ¶

对于一个样本x,计算分位数,q,对应于累积概率值,,单位为%。

如果x是一个矩阵,计算每列的百分位数,并在矩阵中返回,这样的第i行q包含(i) 每列的百分位数x.

如果未指定,返回的分位数[0 25 50 75 100].

可选参数dim确定用于计算百分比的尺寸。如果dim如果省略,则默认为第一个非单例维度。

编程说明:的所有非数值(NaN)x被忽略。

详见: 分位数.

可以使用快速生成数据集的摘要视图统计数字作用

: stats = statistics (x) ¶

: stats = statistics (x, dim) ¶

返回具有向量元素的最小值、第一个四分位数、中值、第三个四分位、最大值、平均值、标准差、偏度和峰度的向量x.

如果x是一个矩阵,计算第一个非单维上的统计量。

如果可选参数dim给定,沿此维度操作。

详见: 最小, 最大值, 中值的, 意思是, std, 偏斜, 峰度.