200字范文 > 【NLP】中文文本分类数据增强方法：EDA 与代码实现

【NLP】中文文本分类数据增强方法：EDA 与代码实现

时间：2018-06-19 22:44:01

数据增强可以算作是做深度学习算法的一个小trick。该介绍主要出自论文：EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

论文中的中文文本分类数据增强的代码实现可参考EDA_NLP_for_Chinese，当然在实际使用中可以根据具体情况再做修改。文中介绍的代码是我个人对该源码的根据我个人书写习惯进行的修改。

论文简介

主要内容

这篇论文中作者提出所谓的简单数据增强(Easy Data Augmentation， EDA)，包括了四种方法：同义词替换、随机插入、随机交换、随机删除。作者使用了CNN和RNN分别在五种不同的文本分类任务中做了实验，实验表明，EDA提升了分类效果。作者也表示，平均情况下，仅使用50%的原始数据，再使用EDA进行数据增强，能取得和使用所有数据情况下训练得到的准确率。

文中作者提出通用的NLP数据增强技术，命名为EDA。同时作者表示，他们是第一个给数据增强引入文本编辑技术的人。EDA的提出也是一定程度上受计算机视觉上增强技术的启发而得到。下面详细介绍EDA的四个方法：

对于训练集中的每个句子，执行下列操作：

同义词替换(Synonym Replacement, SR)：从句子中随机选取n个不属于停用词集的单词，并随机选择其同义词替换它们；随机插入(Ran

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。