【水蓝石】 读中文信息处理发展报告整理【持续更新】

2021-01-26   441 次阅读


刚开始读时,对该发展报告要有的基础认识

这是中文信息学会在2016年出版的,向政府,企业,媒体等对中文信息处理感兴趣的人简要介绍相关领域的基本概念和应用方法,里面的章节都是对应的在2016年国内学科领头人亲手写的,套磁时可以用,也可以借此了解各个大佬
所以接下来拿学科领头人和其对应章节来做分章,一共二十章

词法与句法分析:李正华、陈文亮、张民(苏州大学)

我的印象

词法句法分析,在我的印象里就是检测语法是否正确。
堆砌语法规则后按算法检索

during reading

1.来自苏州大学李正华、陈文亮、张民教授的概念介绍

1.1词法分析

汉语需要分词,大部分西方语言则有空格分隔,所以不需要分词

词法分析:包括 分词,词性标记。

词法分析将输入的句子从字序列转化成词和词性序列
而下一步的句法分析将输入句子将词序列形式转化为树状结构,从而刻画句子的词法和句法结构

1.2句法分析

句法分析:包括 短语结构句法分析,依存句法分析,深层文法句法分析。是对输入的文本句子进行分析以得到句子的句法结构的处理过程

短语结构句法分析:也叫作成分句法分析,作用是识别出句子中的短语结构以及短语之间的层次句法关系
依存句法分析:识别句子中词汇与词汇之间的相互依存关系
深层文法句法分析:用深层问法,例如词汇化树邻接文法(LTAG),词汇功能文法(LFG),组合范畴文法(CCG)等,对句子进行深层的句法以及语义分析

上述几种句法分析任务比较而言,依存句法分析属于浅层句法分析。其实现过程相对简
单,比较适合在多语言环境下的应用,但是依存句法分析所能提供的信息也相对较少。深层
文法句法分析可以提供丰富的句法和语义信息,但是采用的文法相对复杂,分析器的运行复
杂度也较高,这使得深层句法分析当前不适合处理大规模数据。短语结构句法分析介于依存句法分析和深层文法句法分析之间。

1.3语义分析

最终目的是理解句子表达的真实语义。但是语义应该采用什么表现形式却一直在困扰着研究者们,至今这个问题也没有一个统一的答案。 语义角色标注是目前比较成熟的浅层语义分析技术(浅层语义分析技术??要查一下)。基于逻辑表达的语义分析也得到学术界的长期关注

出于机器学习模型复杂度、效率的考虑,自然语言处理系统通常采用级联的方式,即分词,词性标注,句法分析,语义分析分别训练模型。

实际使用时,给定输入句子,逐一使用各个模块进行分析,最终得到所有结果。

近年来,随着研究工作的深入,研究者们提出了很
多有效的联合模型,将多个任务联合学习和解码,如分词词性联合、词性句法合、分词词性句法联合、句法语义联合等。联合模型通常都可以显著提高分析质量,原因在于:联合模型可以让相互关联的多个任务互相帮助,同时对于任何单任务而言,人工标注的信息也更多了。然而,联合模型的复杂度更高,速度也更慢。

2.研究内容和关键科学问题

本章集中讨论第一和第二层面的词法和句法分析技术。

目前学术界和产业界主要研究数据驱动的分析方法,在人工标注的分词、词性语料和树库上自动训练构建词法和句法分析系统。(果然是自动的,效果比堆砌的要好吗**^1)
数据驱动优势是不需要太多人工干预,缺点是给定一个句子会产生数量众多的语法和句法分析结果(确实一句话有很多解释...理解不一样得到的结果也不一样)。如何从中找到正确的分析方法是最主要的研究内容

词法分析主要面临如下几个问题

  1. 词的定义和生词问题:什么是词(我觉得,能做到像人一样就行了。接受周围的信息,能将其由发生了什么事主动理解内化,不理解的能“差不多知道”自己不理解然后问然后理解)
  2. 分词歧义问题:分词歧义是指,在一个句子中,一个字符串可以有不同的切分方法。例如,“乒乓球拍卖完了”,可以切分为“乒乓/球拍/卖/完/了”,也可以切分为“乒乓球/拍卖/完/了”。(这点来看,分词、语法分析啥的与语义连接在一起效果会比一般的好特别多)
  3. 词性定义和词性兼类为:词性类别远比词的个数要小,但词性的定义也不完全存在一个统一的信息处理用的国内和国际标准(国外存在一些词性定义与汉语完全不一样的词吗)。词性兼类问题是词性标注面临的主要问题,需要更高层次的上下文信息来解决(更深层的上下文信息如何解决?)。

句法分析主要面临如下四个问题

  1. 模型定义问题:如何为候选句树打分。由于符合语法规则的句法树数量非常多,因此要对每棵树进行评估计算分值。分值高低体现了该树是正确树的可能性大小。本项内容是研究如何将句法树的分值分解为一些子结构的分值(不太理解句法树的分值分解为一些子结构的分值是啥意思,可能是大得分分成小得分)。
  2. 特征表示问题:如何表示句法树。在模型定义中,句法树已经被分解成一些子结构。这些子结构如何被机器学习模型所识别,也就是特征表示问题。本项内容是研究采用哪些特征来表示每一部分子结构。
  3. 解码问题:如何寻找概率(或分值)最高的句法树。在给定所有子树的分值后,通过组合可以得到数目众多的不同分值树,搜索空间较大,无法通过简单比较得到分值最高的结果。本项内容是研究如何设计有效算法高效地搜索到分值最高的句法树
  4. 训练算法问题:如何训练获取特征权重。在句法分析中通常有数以千万计的特征,这些特征的重要性存在差异,因此需要去学习它们的重要程度,即特征权重。本项内容主要是研究如何使用机器学习模型来有效的学习特征权重。

3.技术方法和研究现状

本节分别介绍分词、词性标注和句法分析所用的主流技术方法和研究现状。

3.1分词

过去三十年,汉语分词刚起步。经过这三十年里研究者们不断摸索,汉语分词达成了大规模人工标注数据的产生和基于人工标注数据的统计方法,取代了基于词表和规则的方法,分词准确率取得了显著提升。(已经代替了词表和规则了,也许提高准确率可以再融合)

3.1.1主要分词方法
  1. 基于词典的最大匹配分词方法: 1986年,刘源、梁南元首次将最大匹配方法应用到中文分词任务。根据方向不同,最大匹配方法又可以分为前向和后向最大匹配方法两种。最大匹配方法是最有代表性的一种基于词典和规则的方法,其缺点是严重依赖词典,无法很好地处理分词歧义和未登录词。然而,由于这种方法简单、速度快、且分词效果基本可以满足需求,因此在工业界仍然很受欢迎。
  2. 全切分路径选择方法(不懂)
  3. 基于字序列标注的方法(不懂)
  4. 基于转移的分词方法(不懂)
3.1.2分词主要研究进展
  1. 有效的特征集合(不懂)
  2. 基于词典的特征(不懂)
    接下来基本都不懂了,我觉得得先弄懂3.1.1里后三个方法,现在我脑子里有的也就只有基于词典的对应找词方法。。。。。

粗浅呢真是
今天下午先读到这里,那三个分词算法我会新开一个文章

语义分析:周国栋、李军辉(苏州大学)

篇章分析:王厚峰、李素建(北京大学)

语言认知模型:王少楠,宗成庆(中科院自动化研究所)

语言表示与深度学习:黄萱菁、邱锡鹏(复旦大学)

知识图谱与计算:李涓子、候磊(清华大学)

文本分类与聚类:涂存超,刘知远(清华大学)

信息抽取:孙乐、韩先培(中国科学院软件研究所)

情感分析:黄民烈(清华大学)

自动文摘:万小军、姚金戈(北京大学)

信息检索:刘奕群、马少平(清华大学)

信息推荐与过滤:王斌(中科院信工所)、鲁骁(国家计算机网络应急中心)

自动问答:赵军、刘康,何世柱(中科院自动化研究所)

机器翻译:张家俊、宗成庆(中科院自动化研究所)

社会媒体处理:刘挺、丁效(哈尔滨工业大学)

语音技术:说话人识别——郑方(清华大学)、王仁宇(江苏师范大学),语音

合成——陶建华(中科院自动化研究所),语音识别——王东(清华大学)

文字识别:刘成林(中科院自动化研究所)

多模态信息处理:陈晓鸥(北京大学)

医疗健康信息处理:陈清财、汤步洲(哈尔滨工业大学)

少数民族语言信息处理:吾守尔•斯拉木(新疆大学)、那顺乌日图(内蒙古大

学)、海银花(内蒙古大学)等

Q.E.D.

知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

无论在未来前做什么,未来都会普通的到来