【学习笔记】李宏毅ML-HW7-使用BERT解决答案提取问题

本文最后更新于：星期日, 十一月 20日 2022, 3:58 下午

李宏毅老师主讲的机器学习MOOC课程的笔记，本篇会试着完成作业 7，以及分析问答模型的建模方法和优化方法。

本篇博客记录课程作业 7 的做法。

一、任务目标

抽取式问答（Extractive Question Answering）任务是指：从一段文本中提取对应问题的答案。

一般而言，模型的输入为文本（Document）和问题（Question），输出答案在文本中的位置。如果模型认为文本中没有答案，则输出一个特定的占位符，比如“无答案（NoAnswer）”。

本次作业的 baseline 使用了 BERT 作为预训练模型。具体地，使用 [SEP] 的这个特殊单词，将 Query 和 Document 一起作为输入。然后在 Bert 中获取良好的 embedding(词向量)，然后将这个embedding的结果接入一个分类器，分别得到答案在文章中位置的id和结束位置的id。

因为数据集中的答案是可以直接在文章中抽取出来，所以得到答案起始位置的id和结束位置的id可以直接抽取出正确的答案。

二、数据分析

本次数据集是繁体中文的阅读理解数据集。类似的数据集还有很多，比如 SQuAD 数据集、中文 SQuAD

首先我们来分析下数据集。从 kaggle 的对应链接就能下载本次作业所需的数据集。

数据集由三个文件组成，分别是训练集，测试集和验证集。每个文件都是一段 json 文本，可以由以下 python 代码读取：

# 将 训练集 读入内存，并整理成 dict 的数据结构
def load_file(filename):
    with open(filename, 'r', encoding='utf-8') as f:
        data = json.loads(f.read())
    return data

train_file = "../data/hw7_train.json"
test_file = "../data/hw7_test.json"
dev_file = "../data/hw7_dev.json"

train_data = load_file(train_file)
test_data = load_file(test_file)
dev_data = load_file(dev_file)

print("Train Data Num: {0}\nTest Data Num: {1}\nDev Data Num: {2}".format(len(train_data["questions"]), len(test_data["questions"]), len(dev_data["questions"])))

以训练数据为例，数据被分成了两部分：questions 和 paragraphs 。

train_data.keys()
# [OUT]: dict_keys(['questions', 'paragraphs'])

train_data["questions"][0]
# [OUT]: 
#  {'id': 0,
#  'paragraph_id': 3884,
#  'question_text': '羅馬教皇利奧三世在800年正式加冕誰為羅馬人的皇帝?',
#  'answer_text': '查理大帝',
#  'answer_start': 141,
#  'answer_end': 144}

train_data["paragraphs"][3884]
#[OUT]: '利奧三世開創的伊蘇里亞王朝在8世紀末期走上了末路...'

questions 部分储存了问题的编号，以及对应的文章储存在 paragraphs 中的下标。由于 questions 和 paragraphs 的数目不相等，有多个问题对应一篇文章，因此 questions 需要指定查找的文章。

questions 部分还储存有问题的文本，以及答案的文本，以及答案在文档中的开始位置和起始位置。如果要提取 paragraphs 的答案，直接使用 train_data["paragraphs"][3884][answer_start:answer_end+1] 即可。

paragraphs 部分则是纯文本。

训练集、测试集和验证集的大小如下所示：

Train Data Question Num: 26936
Test Data Question Num: 3493
Dev Data Question Num: 3524
Train Data Para Num: 8014
Test Data Para Num: 1000
Dev Data Para Num: 1000

测试集 test_data 则没有答案，answer 相关字段全部为 None 。