1. 如何分析两组数据的相关性
你是想告诉你怎么操作,还是帮你做呢?
先和你说下怎么操作吧,当你两组数据时连续数据(如果不是的,或不知道的,可以再详细说下你的是什么数据)。你有装spss软件吧,打开spss,把两组数据录入。点analyze--correlate--bivariate,在弹出框里,把两个变量选择过去,点ok即可出结果。结果里,pearson correlation对应的系数就是相关系数了。如果sig值小于0.05就是显著相关,小于0.01就是极其显著,系数上面会有两个**。
希望对你能有所帮助。
2. 相关分析法
相关分析法是一种统计学方法,主要用于水文地质勘探试验资料不足,但是地下水动态资料较多的地区,建立不同变量之间的相关关系,如抽水量与降深、岩溶管道流量与降水量等,求解地下水均衡要素。根据变量的数量可分为二元相关(两个变量)和多元相关(多个变量),按相关方程式的性质分为线性相关和非线性相关。在地下水数量评价中经常用到的是二元回归,下面以抽水量与降深之间的关系为例,讨论相关分析法的一般过程。
(一)确定相关曲线类型
根据抽水试验资料,将一系列抽水量(Qi,i=1,2,…,n)与降深(Si,i=1,2,…,n)点到Q-S坐标图上(如图3-11所示),根据散点的分布趋势,确定曲线类型。常见的曲线类型如表3-5所示。
表3-5 常见的抽水量(Q)-降深(S)曲线类型
图3-11 Q-S散点分布趋势图
(二)建立相关方程
建立相关方程,也就是确定表3-3中的待定系数(a,b)。一般可根据抽水实验获得的资料,采用最小二乘法计算a,b。
实际上表3-4中的各种曲线方程都可以通过坐标转换,化为Y=aX+b型的线性关系。下面以直线型为例说明求解待定系数和相关系数的方法。
设有n组抽水试验资料,记为(Qi,Si)i=1,2,…,n。在Q-S坐标系中呈直线分布,设其方程为
Q=aS+b (3-45)
则任一实测值(Qi,Si)与该直线的偏差可以表示为
δi=Qi-(aSi+b) (3-46)
若所有实测点与该直线的偏差的平方和(记为Δ)为最小,则所得的直线就是最佳拟和直线。即要求:
区域地下水功能可持续性评价理论与方法研究
因Qi和Si的数据已知,所以可视Δ为a和b的函数。要使函数取最小值,则令Δ对a和b的偏导数等于零即可。即
区域地下水功能可持续性评价理论与方法研究
令
区域地下水功能可持续性评价理论与方法研究
联立式(3-50)和式(3-51)即可求出a和b:
区域地下水功能可持续性评价理论与方法研究
将式(3-52)代入式(3-45)即可得到所求的直线方程。
相关系数(γ)可用下式求得:
区域地下水功能可持续性评价理论与方法研究
相关系数反映的是两个变量之间关系的密切程度,0≤|γ|≤1。相关系数愈接近1,说明关系愈密切,方程的实用价值愈大;反之,相关系数愈接近0,说明联系愈差,方程的实用价值愈小;当相关系数等于0时,说明两变量之间不存在联系。
(三)相关系数显著性检验
究竟相关系数要达到多大时,所建立的相关方程才有实用意义呢?这就要求进行显著性水平检验。表3-6给出了不同抽样数(N,即所拥有的实测数据数)在两种显著性水平(a)分别等于0.05和0.01时,对相关系数的最小要求。
表3-6 相关系数(γ)显著性检验表
注:此表摘自《概率论与数理统计》P244~245,朱玉仙、崔晓光,长春:东北师范大学出版社,1989。
所谓显著性水平是指,做出显著结论时,可能发生错误的概率。当a=0.05时,表示判断错误的可能性不超过5%;当a=0.01时,表示判断错误的可能性不超过1%。由表3-6可见,当抽样数一定时,a愈小,要求的相关系数就愈大;当显著性水平一定时,抽样数愈小,要求的相关系数就愈大。下面举例说明表3-6的用法。
如果抽样数为17组,则N-2=15,若|γ|≥0.482,可以说这个相关系数在a=0.05的水平上是显著的,但在a=0.01的水平上不显著,只有当|γ|≥0.606时,才可以说它在a=0.01的水平上是显著的。如果不满足显著性水平的要求,说明所求的相关方程的实用意义不大。
(四)预报误差估计
经过显著性检验后的方程即可用来外推一定抽水量下的降深或一定降深下的出水量,这时,我们所关心的问题是要知道预报的精度。严格说来,我们无法精确知道这个精度,但可以根据实测资料做出大概的估计。一般以实测值(Qi)与计算值(
区域地下水功能可持续性评价理论与方法研究
剩余标准差愈小,则外推预报的精度愈高。根据概率理论可知,任一观测值可能落在
由式(3-54)可见,要提高预报精度,一方面提高观测的精度;另一方面增加观测次数。
利用所建立的相关方程,外推求取一定抽水量下的降深或一定降深下的出水量。
(五)适用条件
相关分析法适用于水文地质资料缺乏,而地下水动态资料较多的地区。如有多年开采动态的老水源地的扩建评价、有多年岩溶管道流量与大气降水观测地区的地下水数量评价等,也可用于补给充足而需水量不大的供水评价。
利用抽水试验资料进行相关分析时,为保证相关关系的准确性,要求不同降深的抽水试验资料愈多愈好,但最少不少于3次降深(落程);抽水降深不能过小,否则会影响曲线的类型;相关外推法是建立在稳定井流基础上的,非稳定抽水资料不适用。
3. 二元线性相关分析预报涌水量
以归一化到井径为219mm,抽水降深10m的涌水量 作为因变量y,含水层厚度H和归一化的含水层电阻率ρ作为自变量xH、xρ进行回归分析。
地球物理找水方法技术与仪器
式中:ρ为含水层电阻率;NH为黏性土厚度;ZH为含水组厚度(QH-h);H为含水层厚度; 为测区内黏性土的平均电阻率值; 为测区内含水层的平均电阻率值。
图2-4-2显示了涌水量的对数 对ρ、H的回归散点图。
图2-4-2 对ρ、H的回归散点图
根据二元线性相关模型:
地球物理找水方法技术与仪器
利用最小二乘原理,待定常数由下列方程组求得:
地球物理找水方法技术与仪器
选取该测区18个有代表性的钻孔,进行二元回归计算得到:
地球物理找水方法技术与仪器
复相关系数R为正值,说明了 与选择的影响因素ρ、H之间具有正相关关系;R值接近于1,显示 与ρ、H之间的直线相关关系是密切的,具有二元直线相关分析条件。
根据计算得到的 值,可勾出电测预报涌水量平面图,见图2-4-3。
图2-4-3 电测预报涌水量平面图
以上介绍了几种计算潜水位、基岩顶板埋深和电测计算(预报)井位涌水量的方法,当条件具备时,可采用多种方法计算取其算术平均值为最终值的方案列入报告中,这样做效果最佳。
4. 求大神帮我分析这个二元变量的相关性输出结果,急急急!
上面那个是简单的统计描述。mean是指变量的均值,std deviation是标准差。n是多少个观测值。269.67是指月消费套餐流量的平均数是26,9.67,月消费套餐流量的标准差是255.538.
pearson correlation是指皮尔逊相关,例如0.336 就是指月消费套餐流量与月耗费wifi流量的皮尔逊相关系数是0.336,就是有点相关,在统计学上是这么说的。
covariance是指方差。例如76332.893是指月耗费wifi流量与月消费套餐流量的协方差为76332.893、而 790586.549是指月耗费的wifi流量的方差为790586.549.记住方差与协方差不一样哦。
sum of squares and cross-proct、,这个按字面意思是交叉乘积项的平方和。我也不太清查,不懂你私信我吧。。
5. 相关分析与回归分析的区别和联系是什么
一、回归分析和相关分析主要区别是:
1、在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;
2、相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;
3、相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制.
二、回归分析与相关分析的联系:
1、回归分析和相关分析都是研究变量间关系的统计学课题。
2、在专业上研究上:
有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关分析和回归分析。
3、从研究的目的来说:
若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析.
(5)二元简单相关分析扩展阅读:
1、相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。
例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。
2、回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析
6. 如何对两组数据进行相关分析
这个在电脑上没办法具体的说啊,但是推荐你去看一下概率论与数理统计类的书
7. 二元逻辑回归之前要做相关性分析吗
可以不用做的
逻辑回归本身就属于相关分析的一种,直接进行logistic回归就可以了
专业论文分析
8. 什么是二元logistic回归分析法
二元Logistic回归主要分为三类:
1、一种是因变量为二分类的Logistic回归, 这种回归称为二项logistic回归。
2、一种是因变量为无序多分类得logistic回归,这种回归称为多项式logistic回归。
3、还存在具有有序多类因变量的logistic回归。 例如,疾病的严重程度为高,中,低等。这种回归也称为累积logistic回归或序次logistic回归。
(8)二元简单相关分析扩展阅读:
二元logistic回归中“变量选择方法”如下:
1、向前选择(条件)
逐步选择方法,其中进入检验是基于得分统计量的显著性,移去检验是基于在条件参数估计基础上的似然比统计的概率。
2、向前选择(似然比)
逐步选择方法,其中进入检验是基于得分统计量的显著性,移去检验是基于在最大局部似然估计的似然比统计的概率。
3、向前选择 (Wald)
逐步选择方法,其中进入检验是基于得分统计量的显著性,移去检验是基于 Wald 统计的概率。
4、向后去除(条件)
逐步向后选择。移去检验基于在条件参数估计的似然比统计量的概率。
9. 二元线性回归方程相关系数
回归系数越大表示x 对y 影响越大,正回归系数表示y 随x 增大而增大,负回归系数表示y 随x 增大而减小.
回归方程式^Y=bX+a中之斜率b,称为回归系数,表X每变动1单位,平均而言,Y将变动b单位.
一元线性回归分析中,相关系数为1,就没什么意义了相关系数是变量之间相关程度的指标.样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值范围为[-1,1].|r|值越大,误差Q越小,变量之间的线性相关程度越高;|r|值越接近0,Q越大,变量之间的线性相关程度越低.
10. spss的二元logistic回归分析,怎么判断两个变量之间是否有关系告诉我具体的分析步骤,叩谢高手!
是否有统计学意义主要看sig 如果这个值小于0.05那么就是相关的,在此基础上看第一列B值,负号代表负相关。你的例子中性别不对因变量产生影响。
另外logistic回归中Exp(B)值即为OR值也是非常有参考意义的值,你可以参考一下相关教科书,不同的案例解释内容不同。