本文最后更新于:星期二, 八月 2日 2022, 9:32 晚上

文本分类问题,收集用户问诊信息,需要分别将一段提问就问诊类型(20种)和疾病类型(60种)进行分类。类别包含较多缺失值,trick较多。笔者用到了Tfidf+Logistic回归作为Baseline,然后使用Pytorch训练RoBERTa用作第一版提交模型,最终根据数据的特征,取得了XX(排名)。

比赛地址:
https://challenge.xfyun.cn/topic/info?type=disease-claims-2022&option=ssgy

baseline地址:
https://mp.weixin.qq.com/s/KiozLF7FaJ_CVx74J3KNWA


notes      Datawhale Data Mining

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!