开启辅助访问
 找回密码
 立即注册

语言学(linguistics)在人工智能(AI)的应用都有哪些?

fyland 回答数1 浏览数236559
语言学(linguistics)在人工智能(AI)的应用都有哪些?
使用道具 举报
| 未知
枫迷级烨 | 来自河南
传统的NLP包含:
1. 分词
在书写中,英语的词与词之间有空格进行天然分词,而汉语却不同,同一台词,在不同的句子中有不同的形态,举个例子:
a. 她凭自个的才能得到了这份工作。
b. 你这样的人才能够留下来,是我们的幸运。
a句中的“才能”明显是一台词,而b句中的“人才”和“能够”却应该分开。在训练分词模型的过程中,针对固定词表进行“一刀切”显然不可取。这时就需要一些语言学的知识来帮助模型达到更好的准确率。 就以上这个问题:“的”是定语的标志,当“才能”紧跟“的”字时,前者作为一台词的几率非常大。
2. 词性标注
词性标注(Part-of-speech Tagging, POS)是给句子中每个词一台词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 词性标注也以传统语法理论为基础,与分词相辅相成,是非常基本的自然语言处理手段,可以帮助机器进行消歧、新词识别、句法分析、信息抽取等任务。例如:







3. 句法分析(Syntax Parse)
句子层次分析法,也就是语言学学生常常挂在嘴边的那棵 “树”。句法树其实是对句子成分与成分之间结构化的解析。在自然语言处理的过程中,句法树可以帮助简化句子,抽取句子主干,替换句子成分等。
举个例子,自我纠错(self-correction)是在口语中常出现的一种情况,比如:
八点叫我起床,不,九点叫我吧。





句法树下呈现出的句法一目了然,只要对结构相同的部分进行替换,就可以使机器识别到说话人的真正意思。
除此之外,命名实体识别文本摘要等均属于NLP范畴,在此就不铺开讲了。以上提到的绝大多数内容,无论是分词模型、句法树模型,等等,均需要大量高质量的标注数据来进行模型训练,而根据语言学规则来对训练语料进行标注是必不可少的。
再来谈谈NLU,传统的NLP基本上都是在做“处理”的工作,是把人类的语言掰开揉碎,而NLU则解决更深层的“理解”问题,即如何消化NLP已经处理好的东西,真正让机器明白人类语言的语义(semantic)。
1. 语义角色标注 (Semantic Role Labeling)
语义角色标注背后的理论基础则是格语法。说到格语法,就不得不先提到乔姆斯基老爷子(Chomsky),老爷子的转换生成语法是根据其短语结构规则(S → NP + VP;V + NP)生成所有的句子。结果,生成所有句子的目标虽然达到了,但是在生成正确句子("我喝果汁")的同时,也生成出错误的句子(“果汁喝我”)。这说明动词和名词之间要有一种语义限制。为了避免错句的产生,就应该对规则进行一些词汇、语义方面的限制。如:其前面的名词一般是人,至少是有生命的;其后面的名词是液体甚至是饮料。这就是乔姆斯基的学生菲尔默提出的“格语法”。
最初的格语法只有六大类:
(1)施事格,(2)承受格,(3)工具格,(4)使成格,(5)方位格,(6)客体格
随着应用领域增加,语义角色也随之扩充,在不同的领域也进化出了不同的“格”。举例来说:
a. 我昨天在肯德基花了60元。
b. 我昨天吃肯德基花了60元。













同样的词汇因为所支配的动词不同,可能充当的语义角色也不同。A句中的肯德基是地点格,B句中的肯德基是承受格。
对语义角色的正确理解和标注,是机器问答、信息理解和抽取、上下文信息关联的重要步骤之一,同时也对自然语言生成提供约束规则。
同格语法类似的还有RRG(Role Reference Grammar),这里不再赘述。
2. 言语行为
言语行为属于交际语言学范畴,旨在研究在交际对话中的语言使用策略。交际过程中的言语,常常分为言内之意言后之意。举例来说,“ do you mind closing the door?” 并不是在问你是不是“mind”,而是在请你关上门。对于机器来说,此时做出相应的反应要比傻傻地回答“No, I don't”智能得多。
未来方向:
传统语言学已经可以帮助人工智能解决一部分初级问题,但却还远远不能cover千变万化的语言形式。
机器可以理解“我心情不好”,却难以理解“我的心淅沥沥下着小雨”这样的转喻;机器可以理解“我要吃饭”,却难以体会同样是吃饭,“上饭店”和“下馆子”,这一“上”一“下”间表达的心理上的微妙差异。
自然语言生成(Natural Language Generation) 已经不是新鲜事,但基于大量语料训练下的机器学习,学到的是大概率下最可能的说法,因而生成的语言常常令人感到乏善可陈。我们愿意同一台人聊天并产生亲密感,并不是因为他说出跟别人一模一样的话,而恰恰是因为他反其道而行之,说出与众不同的见解,让聊天产生火花。
而人工智能的发展,需将认知语言学、心理语言学、社会语言学的研究成果运用到人机对话的设计中,使机器理解“寒暄”、“安抚”甚至是“讽刺”、“幽默”这样的言语修辞行为。如竹间智能结合认知科学构建的类脑对话系统,在深度学习方法中结合对语言学和心理学的研究,在语义理解的基础上增加意图识别和情感判断,以弥补传统中文NLP在语言理解上的不足,让机器真正读懂人类语言的复杂语义,以及背后的意图和情感,然后给予用户拟人的反馈,从而达到更好的人机自然语言交互效果。
同样,人工智能也必将改变语言学研究的发展方向。传统的重理论分析而轻实例,坐着想句子的研究方法将逐渐退出舞台;真实语料、口语和书面语并重,侧重对语言形态进行统计分析的研究将大量涌现。另外,传统语言学将进一步向计算语言学靠拢,未来将会有新的、更容易被计算机接受的语法提出。


作者:竹间智能 Emotibot来源:资深
回复
使用道具 举报
快速回复
您需要登录后才可以回帖 登录 | 立即注册

当贝投影