DRCD 简体中文长文档检索数据集

基于 繁体中文的 DRCD 数据集,构建了一份简体中文版的长文档检索数据集。

实现原理很简单,DRCD 提供了原始的维基百科词条标题 + 若干问题,调用 wikipediaapi 获取原文内容,再使用 zhconv 实现繁中到简中的转换。

原始数据集的简中版本:https://huggingface.co/datasets/ihainan/DRCD-Simplified-Chinese

用于长文档检索的数据集:https://huggingface.co/datasets/ihainan/DRCD-for-Document-Retrieval-Task

后者数据规模如下:

  • 训练集
#Queries # Docs Avg Tokens/Query Avg Tokens/Doc Max Tokens in Docs
3524 383 29 8831 61881
  • 测试集
#Queries # Docs Avg Tokens/Query Avg Tokens/Doc Max Tokens in Docs
26920 1958 26 8000 79189

数据格式同 LongBench