创新创业项目主题:基于文本挖掘的镍基单晶高温合金领域知识提取方法研究

本项目是跟随导师的课题组而申报的创新创业项目。我们希望通过机器学习、深度度习、自然语言处理等等方法实现镍基单晶高温合金领域知识的自动提取。(暂时由于项目正在申报之中,所以有些信息不便透露)

项目简介

科学文献是掌握前沿科研成果和领域知识的重要媒介。镍基单晶高温合金领域已经积累了大量文献,其中绝大部分文献所蕴含的领域知识还有待被挖掘。目前,从文献中获取知识的方式以人工阅读为主,这也会因个人水平不同而产生理解差异和效率低下等问题。为解决上述问题,本项目拟结合文本挖掘与自然语言处理等技术,通过命名实体识别和关系抽取等方法得到实体三元组信息,然后以此为基础利用Neo4j建立相关的知识图谱,从而进行领域知识的表达和应用。

项目实现

  1. 获取文本数据及数据标注
  2. 实体关系抽取模型。
    命名实体识别(NER)模型:预训练BERT+BiLSTM+CRF
    关系抽取模型:预训练BERT+CNN
  3. 利用三元组信息构建知识图谱
  4. 软件工程方法实现平台搭建

受限于自身水平,上述内由导师和研究生指导完成,后期会不断更新学习内容力争早日完成项目。