DRCD 简体中文长文档检索数据集

Jigao Fu

2025-04-08

乱写

基于繁体中文的 DRCD 数据集，构建了一份简体中文版的长文档检索数据集。

实现原理很简单，DRCD 提供了原始的维基百科词条标题 + 若干问题，调用 wikipediaapi 获取原文内容，再使用 zhconv 实现繁中到简中的转换。

原始数据集的简中版本：https://huggingface.co/datasets/ihainan/DRCD-Simplified-Chinese

用于长文档检索的数据集：https://huggingface.co/datasets/ihainan/DRCD-for-Document-Retrieval-Task

后者数据规模如下：

训练集

#Queries	# Docs	Avg Tokens/Query	Avg Tokens/Doc	Max Tokens in Docs
3524	383	29	8831	61881

测试集

#Queries	# Docs	Avg Tokens/Query	Avg Tokens/Doc	Max Tokens in Docs
26920	1958	26	8000	79189

数据格式同 LongBench。