P值是怎么来的
从某总体中抽样所得的样本,其参数会与总体参数有所不同,这可能是由于两种原因:
⑴、这一样本是由该总体抽出,其差别是由抽样误差所致;
⑵、这一样本不是从该总体抽出,所以有所不同。
如何判断是那种原因呢?统计学中用显著性检验赖判断。其步骤是:
⑴、建立检验假设(又称无效假设,符号为H0):如要比较A药和B药的疗效是否相等,则假设两组样本来自同一总体,即A药的总体疗效和B药相等,差别仅由抽样误差引起的碰巧出现的。⑵、选择适当的统计方法计算H0成立的可能性即概率有多大,概率用P值表示。⑶、根据选定的显著性水平(0.05或0.01),决定接受还是拒绝H0。如果P>0.05,不能否定“差别由抽样误差引起”,则接受H0;如果P<0.05或P <0.01,可以认为差别不由抽样误差引起,可以拒绝H0,则可以接受令一种可能性的假设(又称备选假设,符号为H1),即两样本来自不同的总体,所以两药疗效有差别。
统计学上规定的P值意义见下表
|
P值
|
碰巧的概率
|
对无效假设
|
统计意义
|
|
P>0.05
|
碰巧出现的可能性大于5%
|
不能否定无效假设
|
两组差别无显著意义
|
|
P<0.05
|
碰巧出现的可能性小于5%
|
可以否定无效假设
|
两组差别有显著意义
|
|
P <0.01
|
碰巧出现的可能性小于1%
|
可以否定无效假设
|
两者差别有非常显著意义
|
理解P值,下述几点必须注意:
⑴P的意义不表示两组差别的大小,P反映两组差别有无统计学意义,并不表示差别大小。因此,与对照组相比,C药取得P<0.05,D药取得P <0.01并不表示D的药效比C强。
⑵ P>0.05时,差异无显著意义,根据统计学原理可知,不能否认无效假设,但并不认为无效假设肯定成立。在药效统计分析中,更不表示两药等效。哪种将“两组差别无显著意义”与“两组基本等效”相同的做法是缺乏统计学依据的。
⑶统计学主要用上述三种P值表示,也可以计算出确切的P值,有人用P <0.001,无此必要。
⑷显著性检验只是统计结论。判断差别还要根据专业知识。
显著性检验的手段
t检验
t检验有其应用条件,那就是数据基本符合常态,且两组方差(标准差的平方值)大致相齐,否则不宜采用t检验。
方差是否相齐
所谓方差不齐,是指两组的标准差相差太大。两组均数的显著性检验时,除要求资料数据符合常态分布外,还有另一前提条件,即两总体的方差(标准差的平方)要相近,因而对数据要进行方差齐性检验。
方差齐性检验的方法
1公式法
取S较大者为S1 ,n1;小者为S2 ,n2。通过查“F值方差齐性检验表”或经过公式计算出F0.05值,若F≥F0.05,表示两组方差之差异有显著意义,也就是两组方差不齐。
2简单方法
若两组资料标准差相差超过一倍时,可以肯定两组方差不齐。
数据可视化
data
译者按:看老外的报告,我最欣赏的地方就是那些数据图。有的做的的确是精彩绝伦。比我们的数据图更能说明问题。草草看了几遍,就开始翻译。翻译后才发现,这些方法在科研中也有用到,只没有表现的这么漂亮罢了。然后向以往一样,不得不佩服老外的思路和方法,还有艺术表现力(看看我整理的艺术教育类站点吧)。刀还是那把刀,只是主人换了。
数据可视化,数据处理的一种。就是用数据,通过一定的统计分析手段,得到更能说明问题的图。或者说以图形的方式表示数据。
下面这幅图片,就是对数据进行处理得到的。看起来是不是很奇幻?数据可视化有的时候就类似一种奇幻之旅,让我们开始吧。
———————下面开始————————
阅读全文…
数据可视化
interest rates, visualization
1、主成分分析(principal component analysis,PCA)
英文学习网站:http://www.dcs.gla.ac.uk/~mc/1stYearReport/2.6_PCA.htm
主成分分析适用情况:多变量大样本分析中,变量间存在共线性,增加了分析的复杂性。若分别分析各个指标,分析有可能是孤立的,而不是综合的;盲目地减少指标又有可能损失很多信息,得出错误结论。欲采用较少指标,反映原资料大部分信息,可采用主成分分析和因子分析。也可以这样讲,任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。
主成分分析概念: PCA是将分散在一组变量上的信息,集中到某几个综合指标(主成分)上的一种探索性统计分析方法。它利用降维的思想,将多个变量化为少数几个互不相关的主成分,从而描述数据集的内部结构。

主成分分析的几何意义:参见上面数据表1例中的的数据点是六维的;也就是说,每个观测值是 6 维空间中的一个点。我们希望把 6 维空间用低维空间表示。
先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点 阵(这在变量的二维正态的假定下是可能的),那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有 在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。
当坐标轴和椭圆的长短轴平行,那么代表长轴的变 量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变 换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆 (球)的长短轴相差得越大,降维也越有道理。
对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。
首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。
注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分 (principal component) 。
正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。
选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约 85% 即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。
数据可视化
statistical
今天有学生问我,RSD与SD是什么意思,解释下:
RSD即Relative Standard Deviation.叫相对标准偏差,也称变异系数(CV),RSD=标准差/平均值*100% ,一般来说,RSD越小,测定值之间的接近程度越好的,也就是平常所说的精密度。
SD即Standard Deviation,叫标准偏差,也就是我们说的s。
计算公式如下:

数据可视化
Atom Absorption, Se, 测定