200字范文 > python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析

python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析

时间：2019-01-16 16:16:55

#-04-06 13:52:30 April Friday the 14 week, the 096 day SZ SSMRpython数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析 1.朴素贝叶斯数学原理知识2.naive_bayes用法及简单案例3.中文文本数据集预处理4.朴素贝叶斯中文文本舆情分析朴素贝叶斯（Naive Bayesian）是基于贝叶斯定理和特征条件独立假设的分类方法，它通过特征计算分类的概率，选取概率大的情况，是基于概率论的一种机器学习分类（监督学习）方法，被广泛应用于情感分类领域的分类器。1.什么是基于概率论的方法？通过概率来衡量事件发生的可能性。概率论和统计学是两个相反的概念，统计学是抽取部分样本统计来估算总体情况，而概率论是通过总体情况来估计单个事件或部分事情的发生情况。概率论需要已知数据去预测未知的事件。2.条件概率若Ω是全集，A、B是其中的事件（子集），P表示事件发生的概率，则条件概率表示某个事件发生时另一个事件发生的概率。假设事件B发生后事件A发生的概率为：3.全概率公式设Ω为试验E的样本空间，A为E的事件，B1、B2、....、Bn为Ω的一个划分，且P(Bi)>0，其中i=1,2,...,n，则：P(A) = P(AB1)+P(AB2)+...+P(ABn)= P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(Bn)全概率公式主要用途在于它可以将一个复杂的概率计算问题，分解为若干个简单事件的概率计算问题，最后应用概率的可加性求出最终结果4.贝叶斯公式设Ω为试验E的样本空间，A为E的事件，如果有k个互斥且有穷个事件，即B1、B2、....、Bk为Ω的一个划分，且P(B1)+P(B2)+...+P(Bk)=1，P(Bi)>0（i=1,2,...,k)，则：P(A)：事件A发生的概率；P(A∩B)：事件A和事件B同时发生的概率；P(A|B)：事件A在时间B发生的条件下发生的概率；意义：现在已知时间A确实已经发生，若要估计它是由原因Bi所导致的概率，则可用Bayes公式求出。5.先验概率和后验概率先验概率是由以往的数据分析得到的概率，泛指一类事物发生的概率，根据历史资料或主观判断未经证实所确定的概率。后验概率而是在得到信息之后再重新加以修正的概率，是某个特定条件下一个具体事物发生的概率。6.朴素贝叶斯分类贝叶斯分类器通过预测一个对象属于某个类别的概率，再预测其类别，是基于贝叶斯定理而构成出来的。在处理大规模数据集时，贝叶斯分类器表现出较高的分类准确性。假设存在两种分类：1) 如果p1(x,y)>p2(x,y)，那么分入类别12) 如果p1(x,y)<p2(x,y)，那么分入类别2其中，x、y表示特征变量，ci表示分类，p(ci|x,y)表示在特征为x,y的情况下分入类别ci的概率，因此，结合条件概率和贝叶斯定理有：1) 如果p(c1|x,y)>p(c2,|x,y)，那么分类应当属于类别c12) 如果p(c1|x,y)<p(c2,|x,y)，那么分类应当属于类别c2贝叶斯定理最大的好处是可以用已知的概率去计算未知的概率，而如果仅仅是为了比较p(ci|x,y)和p(cj|x,y)的大小，只需要已知两个概率即可，分母相同，比较p(x,y|ci)p(ci)和p(x,y|cj)p(cj)即可。7.示例讲解假设存在14天的天气情况和是否能打网球，包括天气、气温、湿度、风等，现在给出新的一天天气情况，需要判断我们这一天可以打网球吗？首先统计出各种天气情况下打网球的概率，如下图所示8.优缺点•监督学习，需要确定分类的目标 •对缺失数据不敏感，在数据较少的情况下依然可以使用该方法•可以处理多个类别的分类问题•适用于标称型数据 •对输入数据的形势比较敏感•由于用先验数据去预测分类，因此存在误差二. naive_bayes用法及简单案例scikit-learn机器学习包提供了3个朴素贝叶斯分类算法：•GaussianNB(高斯朴素贝叶斯)•MultinomialNB(多项式朴素贝叶斯)•BernoulliNB(伯努利朴素贝叶斯)1.高斯朴素贝叶斯调用方法为：sklearn.naive_bayes.GaussianNB(priors=None)。下面随机生成六个坐标点，其中x坐标和y坐标同为正数时对应类标为2，x坐标和y坐标同为负数时对应类标为1。通过高斯朴素贝叶斯分类分析的代码如下：# -*- coding: utf-8 -*-import numpy as npfrom sklearn.naive_bayes import GaussianNBX = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])Y = np.array([1, 1, 1, 2, 2, 2])clf = GaussianNB()clf.fit(X, Y)pre = clf.predict(X)print (u"数据集预测结果:", pre)print (clf.predict([[-0.8, -1]]))clf_pf = GaussianNB()clf_pf.partial_fit(X, Y, np.unique(Y)) #增加一部分样本print(clf_pf.predict([[-0.8, -1]]))2.多项式朴素贝叶斯多项式朴素贝叶斯：sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)主要用于离散特征分类，例如文本分类单词统计，以出现的次数作为特征值。参数说明：alpha为可选项，默认1.0，添加拉普拉修/Lidstone平滑参数；fit_prior默认True，表示是否学习先验概率，参数为False表示所有类标记具有相同的先验概率；class_prior类似数组，数组大小为(n_classes,)，默认None，类先验概率。3.伯努利朴素贝叶斯伯努利朴素贝叶斯：sklearn.naive_bayes.BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True,class_prior=None)。类似于多项式朴素贝叶斯，也主要用于离散特征分类，和MultinomialNB的区别是：MultinomialNB以出现的次数为特征值，BernoulliNB为二进制或布尔型特性Sklearn机器学习包常用的扩展类。#监督学习sklearn.neighbors #近邻算法sklearn.svm #支持向量机sklearn.kernel_ridge #核-岭回归sklearn.discriminant_analysis #判别分析sklearn.linear_model #广义线性模型sklearn.ensemble #集成学习sklearn.tree #决策树sklearn.naive_bayes #朴素贝叶斯sklearn.cross_decomposition #交叉分解sklearn.gaussian_process #高斯过程sklearn.neural_network #神经网络sklearn.calibration #概率校准sklearn.isotonic #保守回归sklearn.feature_selection #特征选择sklearn.multiclass #多类多标签算法#无监督学习sklearn.decomposition #矩阵因子分解sklearn.cluster # 聚类sklearn.manifold # 流形学习sklearn.mixture # 高斯混合模型sklearn.neural_network # 无监督神经网络sklearn.covariance # 协方差估计#数据变换sklearn.feature_extraction # 特征提取sklearn.feature_selection # 特征选择sklearn.preprocessing # 预处理sklearn.random_projection # 随机投影sklearn.kernel_approximation # 核逼近三. 中文文本数据集预处理假设现在需要判断一封邮件是不是垃圾邮件，其步骤如下：•数据集拆分成单词，中文分词技术•计算句子中总共多少单词，确定词向量大小•句子中的单词转换成向量，BagofWordsVec•计算P(Ci)，P(Ci|w)=P(w|Ci)P(Ci)/P(w)，表示w特征出现时，该样本被分为Ci类的条件概率•判断P(w[i]C[0])和P(w[i]C[1])概率大小，两个集合中概率高的为分类类标四. 朴素贝叶斯中文文本舆情分析# -*- coding: utf-8 -*-import numpy as npimport pandas as pdimport jieba#/eastmount/article/details/50323063#/eastmount/article/details/50256163#/lsldd/article/details/41542107##################################### 第一步读取数据及分词#data = pd.read_csv("data.csv",encoding='gbk')print data#取表中的第1列的所有值print u"获取第一列内容"col = data.iloc[:,0] #取表中所有值 arrs = col.values#去除停用词 stopwords = {}.fromkeys(['，', '。', '！', '这', '我', '非常'])print u"\n中文分词后结果:"corpus = []for a in arrs:#print aseglist = jieba.cut(a,cut_all=False)#精确模式 final = ''for seg in seglist:seg = seg.encode('utf-8')if seg not in stopwords: #不是停用词的保留final += segseg_list = jieba.cut(final, cut_all=False) output = ' '.join(list(seg_list)) #空格拼接print outputcorpus.append(output)##################################### 第二步计算词频#from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformervectorizer = CountVectorizer() #将文本中的词语转换为词频矩阵 X = vectorizer.fit_transform(corpus) #计算个词语出现的次数 word = vectorizer.get_feature_names() #获取词袋中所有文本关键词 for w in word: #查看词频结果print w,print ''print X.toarray() ##################################### 第三步数据分析#from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import precision_recall_curve from sklearn.metrics import classification_report#使用前8行数据集进行训练，最后两行数据集用于预测print u"\n\n数据分析:"X = X.toarray()x_train = X[:8]x_test = X[8:]#1表示好评 0表示差评y_train = [1,1,0,0,1,0,0,1]y_test = [1,0]#调用MultinomialNB分类器 clf = MultinomialNB().fit(x_train, y_train)pre = clf.predict(x_test)print u"预测结果:",preprint u"真实结果:",y_testfrom sklearn.metrics import classification_reportprint(classification_report(y_test, pre))最后补充一段降维绘制图形的代码，如下：#降维绘制图形from sklearn.decomposition import PCApca = PCA(n_components=2)newData = pca.fit_transform(X)print newDatapre = clf.predict(X)Y = [1,1,0,0,1,0,0,1,1,0]import matplotlib.pyplot as pltL1 = [n[0] for n in newData]L2 = [n[1] for n in newData]plt.scatter(L1,L2,c=pre,s=200)plt.show()

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。