基于 繁体中文的 DRCD 数据集,构建了一份简体中文版的长文档检索数据集。
实现原理很简单,DRCD 提供了原始的维基百科词条标题 + 若干问题,调用 wikipediaapi 获取原文内容,再使用 zhconv 实现繁中到简中的转换。
原始数据集的简中版本:https://huggingface.co/datasets/ihainan/DRCD-Simplified-Chinese
用于长文档检索的数据集:https://huggingface.co/datasets/ihainan/DRCD-for-Document-Retrieval-Task
后者数据规模如下:
- 训练集
#Queries | # Docs | Avg Tokens/Query | Avg Tokens/Doc | Max Tokens in Docs |
---|---|---|---|---|
3524 | 383 | 29 | 8831 | 61881 |
- 测试集
#Queries | # Docs | Avg Tokens/Query | Avg Tokens/Doc | Max Tokens in Docs |
---|---|---|---|---|
26920 | 1958 | 26 | 8000 | 79189 |
数据格式同 LongBench。