本文最后更新于:星期二, 八月 2日 2022, 9:32 晚上

当你写东西或讲话的时候,始终要想到使每个普通工人都懂得,都相信你的号召,都决心跟着你走。要想到你究竟为什么人写东西,向什么人讲话。——《反对党八股》

在上一章节,我们使用传统机器学习算法来解决了文本分类问题,从本章开始我们将尝试使用深度学习方法。与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。

本次学习我们主要介绍FastText。

fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:
1、fastText在保持高精度的情况下加快了训练速度和测试速度
2、fastText不需要预训练好的词向量,fastText会自己训练词向量
3、fastText两个重要的优化:层级 Softmax、N-gram

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, verbose=2, minCount=1, epoch=25, loss="hs")

val_pred = [model.predict(x)[0][0].split('__')[-1] for x in df_train.iloc[-5000:]['text']]
print(f1_score(df_train['label'].values[-5000:].astype(str), val_pred, average='macro'))
0.8256254253081777

notes      Deep Learning Datawhale Classification FastText

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!