语言学（linguistics）在人工智能（AI）的应用都有哪些？_ZNDS问答

fyland

语言学（linguistics）在人工智能（AI）的应用都有哪些？

传统的NLP包含：
1. 分词
在书写中，英语的词与词之间有空格进行天然分词，而汉语却不同，同一台词，在不同的句子中有不同的形态，举个例子：
a. 她凭自个的才能得到了这份工作。
b. 你这样的人才能够留下来，是我们的幸运。
a句中的“才能”明显是一台词，而b句中的“人才”和“能够”却应该分开。在训练分词模型的过程中，针对固定词表进行“一刀切”显然不可取。这时就需要一些语言学的知识来帮助模型达到更好的准确率。就以上这个问题：“的”是定语的标志，当“才能”紧跟“的”字时，前者作为一台词的几率非常大。
2. 词性标注
词性标注(Part-of-speech Tagging, POS)是给句子中每个词一台词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。词性标注也以传统语法理论为基础，与分词相辅相成，是非常基本的自然语言处理手段，可以帮助机器进行消歧、新词识别、句法分析、信息抽取等任务。例如：

3. 句法分析（Syntax Parse）
句子层次分析法，也就是语言学学生常常挂在嘴边的那棵 “树”。句法树其实是对句子成分与成分之间结构化的解析。在自然语言处理的过程中，句法树可以帮助简化句子，抽取句子主干，替换句子成分等。
举个例子，自我纠错（self-correction）是在口语中常出现的一种情况，比如：
八点叫我起床，不，九点叫我吧。

句法树下呈现出的句法一目了然，只要对结构相同的部分进行替换，就可以使机器识别到说话人的真正意思。
除此之外，命名实体识别、文本摘要等均属于NLP范畴，在此就不铺开讲了。以上提到的绝大多数内容，无论是分词模型、句法树模型，等等，均需要大量高质量的标注数据来进行模型训练，而根据语言学规则来对训练语料进行标注是必不可少的。
再来谈谈NLU，传统的NLP基本上都是在做“处理”的工作，是把人类的语言掰开揉碎，而NLU则解决更深层的“理解”问题，即如何消化NLP已经处理好的东西，真正让机器明白人类语言的语义（semantic）。
1. 语义角色标注 (Semantic Role Labeling)
语义角色标注背后的理论基础则是格语法。说到格语法，就不得不先提到乔姆斯基老爷子(Chomsky)，老爷子的转换生成语法是根据其短语结构规则（S → NP + VP；V + NP）生成所有的句子。结果，生成所有句子的目标虽然达到了，但是在生成正确句子（"我喝果汁"）的同时，也生成出错误的句子（“果汁喝我”）。这说明动词和名词之间要有一种语义限制。为了避免错句的产生，就应该对规则进行一些词汇、语义方面的限制。如：其前面的名词一般是人，至少是有生命的；其后面的名词是液体甚至是饮料。这就是乔姆斯基的学生菲尔默提出的“格语法”。
最初的格语法只有六大类:
（1）施事格，（2）承受格，（3）工具格，（4）使成格，（5）方位格，（6）客体格
随着应用领域增加，语义角色也随之扩充，在不同的领域也进化出了不同的“格”。举例来说：
a. 我昨天在肯德基花了60元。
b. 我昨天吃肯德基花了60元。

同样的词汇因为所支配的动词不同，可能充当的语义角色也不同。A句中的肯德基是地点格，B句中的肯德基是承受格。
对语义角色的正确理解和标注，是机器问答、信息理解和抽取、上下文信息关联的重要步骤之一，同时也对自然语言生成提供约束规则。
同格语法类似的还有RRG（Role Reference Grammar），这里不再赘述。
2. 言语行为
言语行为属于交际语言学范畴，旨在研究在交际对话中的语言使用策略。交际过程中的言语，常常分为言内之意和言后之意。举例来说，“ do you mind closing the door?” 并不是在问你是不是“mind”，而是在请你关上门。对于机器来说，此时做出相应的反应要比傻傻地回答“No, I don't”智能得多。
未来方向：
传统语言学已经可以帮助人工智能解决一部分初级问题，但却还远远不能cover千变万化的语言形式。
机器可以理解“我心情不好”，却难以理解“我的心淅沥沥下着小雨”这样的转喻；机器可以理解“我要吃饭”，却难以体会同样是吃饭，“上饭店”和“下馆子”，这一“上”一“下”间表达的心理上的微妙差异。
自然语言生成(Natural Language Generation) 已经不是新鲜事，但基于大量语料训练下的机器学习，学到的是大概率下最可能的说法，因而生成的语言常常令人感到乏善可陈。我们愿意同一台人聊天并产生亲密感，并不是因为他说出跟别人一模一样的话，而恰恰是因为他反其道而行之，说出与众不同的见解，让聊天产生火花。
而人工智能的发展，需将认知语言学、心理语言学、社会语言学的研究成果运用到人机对话的设计中，使机器理解“寒暄”、“安抚”甚至是“讽刺”、“幽默”这样的言语修辞行为。如竹间智能结合认知科学构建的类脑对话系统，在深度学习方法中结合对语言学和心理学的研究，在语义理解的基础上增加意图识别和情感判断，以弥补传统中文NLP在语言理解上的不足，让机器真正读懂人类语言的复杂语义，以及背后的意图和情感，然后给予用户拟人的反馈，从而达到更好的人机自然语言交互效果。
同样，人工智能也必将改变语言学研究的发展方向。传统的重理论分析而轻实例，坐着想句子的研究方法将逐渐退出舞台；真实语料、口语和书面语并重，侧重对语言形态进行统计分析的研究将大量涌现。另外，传统语言学将进一步向计算语言学靠拢，未来将会有新的、更容易被计算机接受的语法提出。

作者：竹间智能 Emotibot来源：资深

		自动登录	找回密码
密码			立即注册

语言学（linguistics）在人工智能（AI）的应用都有哪些？

相关问题更多>

最新回答