【水蓝石】 后结构化初步跑通代码思路记录

2022-02-07   458 次阅读


前记

反正目前就是跑通了信息提取的三大主要应用,NER命名实体识别,NRE关系抽取,EE事件抓取

实际上这三大应用中,NRE与EE差别不是特别大,EE就是给出句子、实体名字和类型,触发词及其类型,触发词引发的词及其类型。处理的时候以trigger触发词为中心,衡量几个词与触发词的距离,直接记忆连接方式。NRE则是给出一个句子、词语和词语之间的关系。然后到时候自动检测每一个词语,得到词语与词语之间的关系这样。

image.png
EE数据库【一个句子有多个触发词】

image.png
NRE数据库【看看是不是识别出所有的吧,不是就跟EE学学改改】

我们自己的数据库就不写上来了。。留着我自己看吧。。

应用到我们这里大体就是一个NRE和EE中间的问题。。只有一种关系,就是语法的连接关系。因为这里没有任何的触发词,所以本质上与EE的距离更远一些。更应该使用NRE的方法。
先试试跑通NRE换数据格式,然后跑不通时来对比这NRE和EE的代码区别吧,反正之前也看过一遍了。

Q.E.D.

知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

无论在未来前做什么,未来都会普通的到来