200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > Python回归分析五部曲(二)—多重线性回归

Python回归分析五部曲(二)—多重线性回归

时间:2021-09-15 12:21:48

相关推荐

Python回归分析五部曲(二)—多重线性回归

基础铺垫

多重线性回归(Multiple Linear Regression)

研究一个因变量与多个自变量间线性关系的方法

在实际工作中,因变量的变化往往受几个重要因素的影响,此时就需要用2个或2个以上的影响因素作为自变量来解释因变量的变化,这就是多重线性回归;

多重线性回归模型

1.模型

y=α+β1x1+β2x2+...+βnxn+e数据分析部落公众号:shujudata方程式中:y−因变量xn−第n个自变量α−常数项(回归直线在y轴上的截距)βn−第n个偏回归系数e−随机误差

2.模型关键词解析

偏回归系数

多重线性模型中包含多个自变量,它们同时对因变量y发生作用,如果要考察一个自变量对因变量y的影响,就必须假设其他自变量保持不变;因此,多重线性模型中的回归系数称为偏回归系数,偏回归系数β_1是指在其他自变量保持不变的情况下,自变量x_1每变动一个单位,引起的因变量y的平均变化;β_2到β_n依次类推;

回顾-回归分析步骤

根据预测目标,确定自变量和因变量

绘制散点图,确定回归模型类型

估计模型参数,建立回归模型

对回归模型进行检验

利用回归模型进行预测

案例实操-金融场景

下面,jacky通过一个金融场景的案例,开始我们的分享:某金融公司打算新开一类金融产品,现有9个金融产品的数据,包括用户购买金融产品的综合年化利率,以及公司收取用户的佣金(手续费);如下表所示,产品利率为11%,佣金为50,我们需要预测这款金融产品的销售额

import pandasdata = pandas.read_csv('file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK')

第一步 确定变量

根据预测目标,确定自变量和因变量

因变量:销售额

自变量:利率、佣金

第二步 确定类型

绘制散点图,确定回归模型类型

从散点图和相关系数结果表可以看出,产品利率和销售额是强正相关;佣金与销售额是强负相关;因此,我们可以使用多重线性模型来解决这个问题;

我们对自变量和因变量绘制散点图,因为需要绘制多个变量两两之间的散点图,在这里介绍一个更先进的绘图方法scatter_matrix:我们把自变量和因变量从data中选取出来,然后设置好对应的参数。第一个是图片的大小,如果变量太多,我们就要把图片的尺寸设置的足够大才能够展示出来;第二个参数diagonal是变量与变量本身的绘图方式,我们选择kde,是绘制直方图,这个参数是什么意思,我们执行代码就知道了,代码如下:

import matplotlibfrom pandas.tools.plotting import scatter_matrixfont = {'family':'SimHei'}matplotlib.rc('font',**font)scatter_matrix(data[["百分比利率","抽取用户佣金","金融产品销售额"],figsize =(10,10),diagonal = 'kid')data[["百分比利率","抽取用户佣金","金融产品销售额"]].corr()x = data[["百分比利率","抽取用户佣金"]]y = data[["金融产品销售额"]]

第三步 建立模型

估计模型参数,建立回归模型

多重线性回归模型参数的估计方法与简单线性回归模型参数的估计方法是相同的:都是采用最小二乘法进行估计(对最小二乘法更详细的解析,请参见Python回归分析五步曲(一)—简单线性回归)

#建模from sklearn.linear_model import LinearRegressionlrModel = LinearRegression()#训练模型lrModel.fit(x,y)

第四步 模型检验

对回归模型进行检验

判定系数=相关系数R2=ESSTSS=1−RSSTSS 调整判定系数=相关系数R¯2=1−RSS/(n−k−1)TSS/(n−1)其中,数据分析部落公众号(shujudata)TSS=∑(Yi−Y¯)2总离差平方和ESS=∑(Yi−Y¯)2回归差平方和RSS=∑(Yi−Y¯)2残差平方和n样本个数k自变量个数jacky解析:拟合完方程的参数之后,我们就要对回归模型进行检验,在简单线性回归的分享中,我们用判定系数来验证方程的拟合程度,而在多重线性回归中,如果在模型中增加一个自变量,模型中R平方往往也会相应增加,这就会给我们一个错觉:要使得模型拟合的好,只要增加自变量即可。因此,使用判定系数R平方来验证方程的拟合程度是不够科学的,需要自变量个数进行修正和调整,也就是调整判定系数;以上,我们只要理解原理即可,公式记不住也不要紧,知道多重线性模型需要用调整判定系数来判定方程的拟合程度,会用Python看结果就可以了。

第五步 模型预测

利用回归模型进行预测

根据已有的自变量数据,预测需要的因变量对应的结果

#预测lrModel.predict([11,50])#查看参数lrModel.coef_#查看截距lrModel.intercept_

总结-完整代码

#---author:朱元禄---import pandasdata = pandas.read_csv('file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK')import matplotlibfrom pandas.tools.plotting import scatter_matrixfont = {'family':'SimHei'}matplotlib.rc('font',**font)scatter_matrix(data[["百分比利率","抽取用户佣金","金融产品销售额"],figsize =(10,10),diagonal = 'kid')data[["百分比利率","抽取用户佣金","金融产品销售额"]].corr()x = data[["百分比利率","抽取用户佣金"]]y = data[["金融产品销售额"]]#建模from sklearn.linear_model import LinearRegressionlrModel = LinearRegression()#训练模型lrModel.fit(x,y)#预测lrModel.predict([11,50])#查看参数lrModel.coef_#查看截距lrModel.intercept_

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。