李安昊
沈阳化工大学 110142
摘要:
近年来,许多NLP任务的神经网络模型变得越来越复杂,使得训练和调用更加困难,最近的一些论文质疑了像这种具有复杂结构的框架必要性,并发现执行良好、更简单的模型是相当有效的。我们发现了一个情况:在对几个最近的神经模型的大规模重现性研究中,我们发现一个简单的通过适当的正则化的BiLSTM架构产生的精度和F1在四个标准基准数据集上都具有竞争力或超过了最新的水平。令人惊讶的是,我们的简单模型能够在没有注意机制的情况下取得这些结果。
引言:
神经结构的最近发展为广泛的NLP任务可以被描述为一个驱动越来越复杂的网络组件和建模技术。令人担忧的是,这些新模型伴随着标准基准数据集上越来越小的效率改进,这让我们怀疑观察到的改进是否是“真实的”, 然而,有充足的证据表明事实恰恰相反。Melis等人(2018)报告说,标准的LSTM架构在经过适当调优后,表现得比最近的模型更好。Vaswani et al. (2017) s等。(2017)表明,简单的基于RNN和cnn的模型在知识图的简单问题回答方面的准确性可以与更为复杂的体系结构相媲美。像上面引用的论文一样,我们质疑过于复杂的神经结构的必要性,重点关注文档分类的问题。首先,我们对几个最近的神经模型进行了大规模的可重复性研究,我们发现一个简单的双向LSTM (BiLSTM)架构,加上适当的正则化会产生很好的结果。
1. 背景及相关工作
在过去的几年中,深度神经网络在文档分类方面已经达到了最先进的水平。一个流行的模型是层次注意网络(HAN),它使用单词和句子级别的注意来对文档进行分类(Yang等,2016)。虽然这个模型很好地抓住了在句子中建模单词序列应该与句子层次的篇章建模分开处理的直觉,但人们怀疑这样复杂的架构是否真的有必要,特别是考虑到目前可用的训练数据的规模。已经RNN以及他的一些变种BiRNN,BiLSTM,GRU等,都很好的应用于文本分类当中。
(1) Regularizing RNNs
有人尝试将dropout (Srivastava et al., 2014)从前馈神经网络扩展到递归神经网络。不幸的是,直接应用dropout在隐藏单位的RNN在经验上损害了其保留长期信息的能力(Zaremba等,2014)。然而,成功地将类似退学的技术应用于规则化用于语言建模的RNNs,在多个数据集上实现竞争词级的困惑。受此启发,我们采用了它们的两种正则化技术,嵌入dropout和参数丢弃LSTMs
(2) Weight-dropped LSTM
LSTMs由8个输入隐藏和隐藏权重矩阵组成;在丢弃权重中,Merity等人(2018)用正则化四个隐藏矩阵DropConnect 。每个序列只应用一次操作,使用相同的每个序列只应用一次操作在丢弃掩码的时候。它允许操作者能快速的使用。
(3)Emnedding dropout
在Gal和Ghahramani(2016)成功地应用于神经语言建模(Merity et al., 2018)embedding dropout对整个单词的嵌入执行了dropout,在每次训练迭代时有效地去除了一些单词。因此,该技术保证了模型对缺失输入的鲁棒性;对于文档分类,这阻止了模型依赖于输入词进行预测。
2.BiLSTM
首先,我们将文档的单词embeddings w1:n提供给单层的BiLSTM,提取连接的前向和后向单词级上下文向量。随后,我们最大池跨时间的h1:n产生文档向量d请参见图1,标签a–f。
最后,根据任务类型是多标签分类还是单标签分类,我们将d馈入标签上的S形或softmax层中。
与现有技术相反,我们的方法避免了注意,层次结构和序列生成,每种都会增加模型的复杂性。 首先,层次结构需要句子级标记和多个RNN。另一方面,序列生成使用编码器-解码器体系结构,从而减少了计算并行性。这三种方法都增加了模型的深度。 我们的方法改为使用单层BiLSTM,其中包含琐碎的最大池化和串联-运算,可以简化实施并节省资源。
图1BiLSTM
3.训练与超参数
为了确保公平的比较,我们调整了所有基线模型的超参数。 对于 HAN,我们在所有数据集上使用 32 的批处理大小,路透社的学习率为 0.01,其余的为0.001。 为了训练 XML-CNN,我们选择了一个动态池窗口长度为 8,学习率为 0.001,输出通道为 128, 单个标签和多标签数据集的批处理大小分别为 32 和 64。 对于 KimCnn,我们使用的批量大小为 64, 学习率为 0.01。 为了在路透社上训练 SGM,我们使用作者提供的源代码 2 并在他们的论文中遵循相同的超参数(Yang 等人。,2018)。 对于 LR 和 SVM 模型,我们在 Scikit 学习中使用默认的超参数集。
对于 LSTMreg 和 LSTMbase,我们使用 Adam 优化器,在 Reuters 上的学习速率为 0.01,在其余的数据集上为 0.001,对于多标签和单标签任务,分别使用 32 和 64 的批处理大小。 为 LSTM 重新 我们还应用时间平均(TA) 从随机逼近中减小了最近参数估计中的泛化误差和随机噪声。 我们将月ema的默认指数平滑系数设置为 0.99。 我们为 BiLSTM 模型选择 512 个隐藏单元,其最大池输出被正则化,dropout率为 0.5。我们还使用嵌入dropout和体重下降对输入隐藏和隐藏隐藏 BiLSTM 连接进行了正则化,dropout率分别为 0.1 和0.2。
4.结果与讨论
在本文中,我们质疑现有的神经网络结构用于文档分类的复杂性。 为了证明适当的正则化和优化的有效性,我们在训练简单的 BiLSTM 模型时应用嵌入丢失、权重下降和时间平均,在多个数据集上建立竞争或最先进的结果。这项工作的一个潜在扩展是进行一项全面的消融研究,以确定每个正则化和优化技术的相对贡献。此外,将这些技术与最近在深层语言表示模型(如语言模型中的嵌入)中的研究进行比较将是有趣的。和预先培训的变压器最后,所研究的正则化和优化方法也值得在其他 NLP 任务中进行探索。
参考文献:
Chidanand Apte, Fred Damerau, and Sholom M Weiss. ′ 1994. Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 12(3):233–251.
陈玉波,徐立恒,刘康,曾道建,赵军。 2015. 通过动态多池卷积神经网络进行事件提取。
计算语言学协会第53届年会和第7届国际自然语言处理联合会议记录(第1卷:长论文),第1卷,第167-176页。
杨鹏程,孙旭,李玮,马树明,吴炜和王厚凤。 2018.SGM:用于多标签分类的序列生成模型。 第27届国际会议论文集《计算语言学》,第3915–3926页。
Stephen Merity,Nitish Shirish Keskar和RichardSocher。 2018年。规范化和优化LSTM语言模型。 在国际学习代表大会上