基于四份区域地质调查报告构建的命名实体识别试验数据集
马凯1田苗1谭永健1王曙2谢忠3,4邱芹军*3,4
1 三峡大学计算机与信息学院,宜昌4430022 中国科学院地理科学与资源研究所,资源与环境信息系统国家重点实验室,北京1001013 国家地理信息系统工程技术研究中心,武汉4300744 中国地质大学地理与信息工程学院,武汉430074
DOI:10.3974/geodb.2021.09.04.V1
出版时间:2021年9月
网页浏览次数:9229
数据下载次数:159
数据下载量:770.85 MB 数据DOI引用次数:
关键词:
区域地质调查报告,命名实体识别,一致性检查,测试,评估
摘要:
采用信息挖掘方法对地质调查报告进行信息抽取和挖掘,可以进一步利用现有报告的隐含价值,促进新知识的发现。在建立地质时间、地质构造、地层、岩石、矿物和地点六类典型的地质命名实体类型与关键词基础上,对尼玛区幅、治多县幅、金牛镇幅高桥幅、广东阳春县幅4幅区域地质调查报告,采用领域专家与团体交叉标注模式,在软件辅助下,对六大类实体进行命名实体标注试验研究,得到基于四份区域地质调查报告构建的命名实体识别试验数据集。该数据集共标注四轮,且每一阶段都对数据集进行了一致性检查、测试、评估等工作,其结果显示当三轮标注完成后,一致性检验结果均达到了85%以上。数据集存储格式为.txt文本,数据量为4.84 MB。数据论文
基金项目:
国家自然科学基金(42050101,U1711267,41871311,41871305)
数据引用方式:
马凯, 田苗, 谭永健, 王曙, 谢忠, 邱芹军*. 基于四份区域地质调查报告构建的命名实体识别试验数据集[J/DB/OL]. 全球变化数据仓储电子杂志(中英文), 2021. https://doi.org/10.3974/geodb.2021.09.04.V1.
马凯,田苗,谭永健等. 基于四份区域地质调查报告构建的命名实体识别试验数据集研发[J].全球变化数据学报(中英文) 022,6(1): 78–84.
参考文献:
[1] 卢书炜, 杜凤军, 任建德. 尼玛区幅H45C001003 1/25万区域地质调查报告[DS]. 全国地质资料馆, 2002. DOI:10.35080/n01.c.93307.
     [2]王毅智, 刘生军, 祁生胜等. 治多县I46C003004 1/25万区域地质调查地质报告[DS]. 全国地质资料馆, 2006. DOI:10.35080/n01.c.105419.
     [3] 李雄伟, 吴兵, 施彬等. 金牛镇幅H50E012003高桥幅H50E013003 1/5万区域地质调查报告[DS]. 全国地质资料馆, 2009. DOI:10.35080/n01.c.123962.
     [4]洪裕荣, 郭良田, 刘辉东等. 阳春县幅F49C002003 1/25万区域地质调查成果报告[DS]. 全国地质资料馆, 2004. DOI:10.35080/n01.c.122045.
     
数据下载:
序号 |
数据名 |
数据大小 |
操作 |
0 | Datapaper_无.pdf | 429.00kb | 下载 |
1 |
NERdata.txt |
4964.48KB |
|