大数据研究基地组织召开《大数据百科术语辞典》知识图谱建设工作交流会
文章来源:本网 | 发布时间:2020-08-14 | 【打印】 【关闭】
8月7日,大数据战略重点实验室全国科学技术名词审定委员会大数据研究基地组织召开《大数据百科术语辞典》知识图谱建设工作交流会,会议以视频会议形式召开,邀请全国科技名词委事务中心科学传播与信息化部副主任杜振雷,中国科学院文献情报中心资源部副研究馆员许哲平作知识图谱相关报告。北京国际城市发展研究院、贵阳创新驱动发展战略研究院、上海软中信息技术有限公司、北京国际城市发展研究院、以及全国科学技术名词审定委员会事务中心共24人参加会议。会议由大数据研究基地理事张涛主持。
张涛首先向大家介绍了两位培训专家以及参加会议的人员情况,并向大家详细介绍了项目背景,计划基于《数典》内容开发三大平台,与联合国教科文组织术语平台 、术语在线互联互通,以知识图谱的形式反映词条之间的联系,还计划对接冬奥会、残奥会,成为其科技支撑。
杜振雷围绕术语在线平台知识图谱建设做了相关介绍。首先,他介绍了知识图谱的基本概念。知识是认知,图谱是载体,数据库是实现,知识图谱就是在数据库系统上利用图谱这种抽象载体表示知识这种认知内容。知识图谱的基本单位是一个个三元组,一个三元组可以表示两个实体之间的关系。其次,他以“知网”和“术语在线”为例详细讲解相关知识图谱的构建方法。他提出,术语知识图谱主要有关键词、上位词、下位词、相关词、多语种术语译名节点和学科、语种聚合分类节点以及他们之间的关系构成。最后,他提出在大数据百科术语辞典知识图谱的构建过程中要注重人工参与与机器学习两者的平衡。
许哲平以“知识图谱相关理论及实践”为题进行演进。首先,他介绍了知识图谱的相关理论。他指出,知识图谱的呈现是基于对不同来源的数据进行清洗、分析挖掘等前期处理。知识图谱技术分为文献计量知识图谱、语义知识图谱和时空图谱三大类。信息抽取又分为实体抽取、关系抽取和属性抽取。分析挖掘不仅仅是计量分析,更多的是进一步向内容分析层面拓展。他提出知识服务的总体框架,在资源层需要对多元异构资源进行整合。通过在不同粒度上进行碎片化,对文献和科学数据形成大统一的资源对象,并建立关联进行串联;在标引与组织层对段落、句子、短语、单词进行提取和标注形成数据库、术语库和标引库等。其次,他以生物学科知识图谱建设为例,详细介绍相关的实践经验。最后,他从平台服务角度提出几点建议。一是从“生态系统”角度去理解和挖掘服务。未来是一个“组装时代”,组装元素包括:研究、数据、人、财、物、技术。二是下一代仓储资源的碎片化设计和加速交互、流通,与多个服务和供应主体的合作交流。三是主动接触、主动沟通、主动服务,长期规划和短期服务相结合。四是多样化的服务方式来适配个性化的服务场景。“资源+知识+技术”的新型服务和介入模式。五是或者拥有资源,或者掌握资源处理方案。