最近爆火的AI大模型是否是人工智能的拐点？人工智能在实际生活学习、办公提效等方面将有哪些突破？_ZNDS问答

jimmytzm

最近爆火的AI大模型是否是人工智能的拐点？人工智能在实际生活学习、办公提效等方面将有哪些突破？

生成式 AI 开创了模型主导内容生成的新时代。当 AI 走进课堂，语言理解、推理和记忆、创新人机交互等领域屡屡革新，为教育教学模式带来深刻变革，教育行业开始解锁数字化转型新体验。
北京外研在线数字科技有限公司（简称“外研在线”）作为外语教学与研究出版社（简称“外研社”）数字化升级转型的核心载体，是中国外语数字教育的推动者与引领者。目前，外研在线产品与服务已覆盖全国31个省、市、自治区的1700余所高校，全学段用户超过7000万人。

外研在线基于亚马逊云科技人工智能与机器学习服务 Amazon SageMaker，开展生成式 AI 在教育领域的创新实践，轻松构建了外研 AIGC 平台、iWrite 英语协作教学与评阅系统、iTEST 智能测评云平台、iTranslate 计算机辅助翻译教学与实践平台等教学系统的开发和迭代，实现 AI 创新能力的新突破。目前，外研在线使用的亚马逊云科技服务包括：Amazon SageMaker、Amazon Simple Storage Service (Amazon S3)、Amazon Elastic Compute Cloud (Amazon EC2)、Amazon Elastic Kubernetes Service（Amazon EKS）等。
机会｜应用生成式 AI 技术，实现外语教学的智慧化提升

数字化转型的驱动力来源于数字技术的发展，教育数字化在提升学习者参与度、提升效率和公平性以及提升个性化因材施教等方面发挥了很大的作用。在教育数字化转型的浪潮中，外研在线正在积极投资相关应用的研发、组建技术能力强大的生成式 AI 团队，以适应不断发展的由生成式 AI 引领的教育领域新需求。
基于教材优势，在转换数字化内容的同时，为学校搭建针对个性化教学场景的各种工具，如 iWrite 英语写作教学与评阅系统、iTEST 智能测评云平台、iTranslate 计算机辅助翻译与教学平台等，并结合大语言模型对系统进行了功能升级，建立基于人工智能生成的辅助英文写作、英语口语练习场景模拟、英语学习知识问答、英语学习等全方位能力，创造交互式、自动化的学习环境，实现对外语教学的智慧化提升。此外，外研在线还结合大语言模型、扩散模型和语音技术研发了外研 AIGC 平台，提供推文创作、智能数据查询分析、图片生成、语音合成、题目生成、课标问答及知识库问答等服务。
大范围的生成式 AI 探索与测试，势必需要大规模的 IT 基础设施投资与建设，而这需要灵活、易部署、高效的底层基础设施架构提供支持。因此，外研在线的人工智能团队在其首席技术官兼技术共享中心总经理董晋鹏的带领下，首先详细评估了生成式 AI 对业务的影响与挑战；其次，希望通过与拥有强势技术沉淀的基础设施提供商合作，对市面上主流的基础大模型进行大范围的评测和试用，以选择出最匹配外研在线教学环境，并可应用于实际场景中的基础模型工具。
此外，为了满足长期持续的推理需求，外研在线还需要进行数据的清洗，模型的定制化、量化、微调和压缩等优化工作，以降低大语言模型的使用成本。考虑到这些需求，以及亚马逊云科技对于以上外研社对基础设施提供商需求的全面满足，再加上双方多年的成功合作经验，最终外研在线决定与亚马逊云科技合作。
“外研在线一直与亚马逊云科技通力合作，运用亚马逊云科技高性价比的基础设施、全面的生成式 AI 解决方案研发了外研 AIGC 平台，并升级了 iWrite、iTEST、iTranslate 等教学系统，推进教育数字化转型。”
董晋鹏
外研在线首席技术官兼技术共享中心总经理
解决方案｜灵活构建自有模型，让微调更为简捷轻松

一直以来，外研在线都与亚马逊云科技深入合作，早在2015年，外研在线就通过亚马逊云科技丰富的基础设施产品搭建了微服务化、自动伸缩的架构，为用户了提供稳定、流畅的使用体验。更值得一提的是，外研在线也是亚马逊云科技教育与医疗行业中最早一批使用 Amazon Aurora 数据库的企业级用户之一。因此，基于双方良好的合作基础，在拓展生成式 AI 应用时，外研在线同样选择基于亚马逊云科技基础设施和产品服务进行构建。
Amazon SageMaker 快速完成模型推理服务构建

在搭建外研 AIGC 平台时，外研在线应用机器学习服务 Amazon SageMaker 为大模型进行微调，而数据处理部分由 Amazon EC2 承担工作负载，处理第三方的开源数据集，并使用 Amazon S3 保存 AI 模型的各种数据和模型文件，以此获得在大模型上更简单、更容易构建生成式 AI 应用的能力。
Amazon SageMaker 为企业提供了一整套工具和框架，包括数据标注、模型训练、模型部署、自动化建模等功能，这套基于 API 的端到端模型部署方案，可以实现基础模型的二次开发微调，为所有开发人员构建、训练和部署模型提供便利。例如，在构建“虚拟口语教师”功能过程中，外研在线发现，市面上适合的大模型体量巨大，相应地微调成本也相当高昂。他们希望能够对模型进行多样化测试，在不影响系统性能的前提下，降低整体微调、训练和推理成本，而 Amazon SageMaker 就成为了外研在线做概念验证的理想选择。
通过多次测试和对比，外研在线最终选择了适合现有业务规模的大模型，有效降低了成本。又如，在生成相关图形时，外研在线存在图像模型选择的困难，而基于 Amazon SagaMaker Jumpstart 功能，外研在线快速完成了对 Stable Diffusion 模型的微调和相关插件功能测试，成功构建了该应用。

基于亚马逊云科技架构的外研 AIGC 平台示意图

降低门槛，专业技术支持让大模型部署更简单、高效

对于外研在线格外关注的大模型部署问题，亚马逊云科技提供了丰富的专业技术支持资源，其专业服务团队（Amazon Professional Services）与外研在线 AI 团队通力合作，协助评测了市面上几乎所有的大语言模型和生成式 AI 工具，并针对不同的应用场景完成多次 POC 测试，为外研 AIGC 平台这一创新应用提供新思路和建议。
在测试过程中，亚马逊云科技的“基于 Stable Diffusion 的生成式 AI 解决方案指南”以及“基于智能搜索和大语言模型打造企业下一代知识库解决方案指南”发挥了重要作用，客户利用生成式 AI 技术自动生成图片大大提高了生产效率，同时采用 Amazon SageMaker 部署了多个大语言模型进行测试和比较，并能够以直观的方式演示实时推理，可运行批量推理任务。使繁复的测试变得更为简单、高效，确保外研 AIGC 平台按时上线运行。
在 iTranslate 平台功能升级时，亚马逊云科技专业服务团队协助外研在线构建了初始原型，从语言模型的选择到训练和迭代，为外研在线后续的优化和改造奠定了基础；开发虚拟教师应用时，从最开始大模型微调到此后的推理，对话和任务框架的搭建，也都由亚马逊云科技专业服务团队主导。
业务成果｜生成式 AI 能力储备丰富，从容应对生成式 AI 技术变革冲击

在亚马逊云科技助力下，外研在线利用自然语言指导、激发人工智能模型完成特定任务，推出 iTEST、iWrite、iTranslate 等提供智能点评、译文润色的新服务，实现基于项目的学习、人机交互式共创学习、无限个性化学习、沉浸式学习等新学习方式，帮助学生获得更好的学习体验，同时也减轻教师的工作负担，达成提高教学效率和质量的目标。外研 AIGC 平台管理服务场景中的知识库问答，已经对内提供服务，老师们可以快速获取准确的问题答案，减少人力投入。
通过 Amazon SageMaker，外研在线能够轻松地基于基础模型，利用自身的数据构建差异化的应用程序。同时，在自然语言处理层面，外研在线还自主研发了翻译批改、语音评测等引擎，拥有了开发相关 AI 应用的基础能力。
更为重要的是，这些应用的开发、上线和迭代，不仅帮助外研在线开拓了数字化智慧教育新版图，还为其积累了丰富的技术储备跟人才经验，以便更好地应对生成式 AI 技术变革的冲击。
如今，越来越多的教育机构已经开始与亚马逊云科技在生成式 AI 领域紧密合作，基于亚马逊云科技开发各类智慧教学应用，包括课件图片生成、内容创作、语音合成、数学题目解答器、基于 AI 生成的助教内容、教学分析以及教师数字素养提升等，并在教与学两端都得到了积极的反馈。未来，外研在线还将在生成式 AI 的版图上继续开拓，为学生、教师研发更多寓教于乐的应用，助力教育数字化转型。
关于外研在线

外研在线作为外语教学与研究出版社（简称“外研社”）数字化升级转型的核心载体，是中国外语数字教育的推动者与引领者。自2014年起，外研在线依托北京外国语大学和外研社的优质资源及品牌积淀，将先进科学技术深度融合优质教学资源，形成涵盖基础教育、职业教育、高等教育和成人教育的终身外语教育格局，构筑含内容、软件、硬件、服务的教学生态和含课题、联盟、协会、社区、基地、标准的服务生态，通过双生态系统赋能教学育人新模式。

的确，几乎所有的事情都值得用 AI 重做一遍。
自 22 年 12 月份 ChatGPT 面世以来，AI 的商业化之路越来越清晰，也已经潜移默化地渗透进我们生活中的方方面面。
但首先我们不用担心 AI 有一天取代人类，甚至会对抗人类。同时，我们要以更谨慎的态度去对待这股 AI 热。——拐点还未到来，AI 的发展道阻且长——它还不能够成为我们信任的伙伴。比如，现阶段的 AI 经常犯事实性错误——将虚假的信息以非常可信、真实的方式表述给用户。一方面因为数据质量不高，另一方面是模型本身的原因。
以语音学为例。语音学里有个分支，叫做自动语言识别（Automatic Speech Recognition）。这项技术能将语音转换为计算机可识别的文字或命令，让人与机器通过对话就能完成交互。科幻片里用寥寥数语就能操控的飞船，钢铁侠的忠实管家贾维斯，甚至我们日常用的 Siri（iPhone 中的语音助手），背后都有这项技术的影子。

但我们发现，基于 CTC（Connectionist Temporal Classification，连接时许分类）模型的语音识别，经常会闹出一些让人啼笑皆非的笑话，比如：我喜欢吃肌肉。人脑之所以暂时还无法被 AI 取代，是因为人类能理解语境，处理上下文——我们一眼就能看出来“我喜欢吃”的后面，是无论如何都不可能跟“肌肉”的。
但 AI 不明白。为什么会这样？
CTC 的原理是基于神经网络模型，在训练过程中通过反向传播来更新模型参数以最小化损失函数。这个算法引入了“空白符”来表示无意义字符或者间隔符号。CTC 适合处理输入输出长度相差较大的数据，如语音识别中将声学特征映射为文本，它具有天然的非自回归解码机制，解码速度相对快很多。但问题在于，CTC 算法设置了条件独立性假设，即 CTC 假设每个时间步的输出之间是独立的。这对语音识别任务来说并不合理，比如“ji rou”这个发音，在不同的上下文中预测的文字内容应该不一样的。如果上文是“我喜欢吃”，接下来“鸡”的概率应该更高，同理如果上文是“他手臂有”，接下来“肌”的概率应该更高。如果通过 CTC 训练，很容易就会在忽略上文的前提下，输出“我喜欢吃肌肉”这样好笑的文本。

从建模的视角来看，CTC 模型仅仅利用输入来预测当下的输出。在它的建模过程中，文本信息仅仅是作为一种监督信号回传给网络，并没有作为网络的输入显式促进模型的预测。
怎么解决？网易智企旗下易盾 AI Lab 发现了这个问题，写了篇论文叫做《Improving CTC-based ASR Models with Gated Interplayer Collaboration（基于 CTC 的模型改进，实现更强的模型结构）》。这篇论文成功被全球语音、声学顶级会议 ICASSP 2023 录用。

在语音学界，被定义为“顶级”的大会一年只有两个，一个是每年 8 月份举办的 INTERSPEECH，另一个就是 ICASSP，而后者更是自 1976 年第一次办会以来，成为各路语音大拿的必争之地——你可以把它理解为语音学界的奥运会。今年是第 48 届 ICASSP 大会，也是疫情后的第一届线下会议，虽然大会官方还未公布最后录用了多少篇论文，但论文投递的数量相较往年上升了 50%，达到了惊人的 6,000+。

能被这样级别的顶会收录的论文，到底提出了怎样的方法，让“我喜欢吃”的“肌肉”变成“鸡肉”？
网易易盾 AI Lab 的技术人员，希望能在保留 CTC 解码效率的同时，尽可能地解决条件独立假设所带来的转译偏差。于是，他们从 CTC 模型本身出发，设计轻量级的模块给基于 CTC 的模型引入文本信息，使得模型能够整合声学和文本信息，学习到文本序列上下文之间的相互作用，从而缓解 CTC 算法的条件独立性假设。但过程中，团队碰到了两个问题：如何在 CTC 模型（Encoder +CTC 结构）里注入文本信息？如何自适应地融合文本特征和声学特征？
为了实现上述目标，易盾 AI Lab 设计了 Gated Interlayer Collaboration（简写为GIC）机制。GIC 模块主要包含一个嵌入层（embedding layer）和一个门控单元（gate unit）。其中，嵌入层用于生成每一音频输入帧的文本信息，门控单元用于自适应地融合文本信息和声学信息。
具体地，团队的方法基于多任务学习（Multi-task Learning）框架，利用编码器模块（Encoder）中间层的输出计算辅助 CTC loss，整个网络的目标函数是最后一层的 CTC loss 和中间层辅助 CTC loss 的加权和。GIC 将网络中间层的预测，即 Softmax 输出的概率分布作为每一帧的软标签，点乘嵌入层矩阵之和作为每一帧的文本表征。最后，生成的文本表征和声学表征通过一个门控单元自适应地融合，成为一个新特征输入到下一层。此时的新特征融合了文本特征和声学特征，使得下一层的 Encoder 模块可以学习到声学序列上下文信息和文本序列上下文信息。整个模型的框架如下图所示：

在 Conformer 和 Transformer 这两个模型上的实验表明：
1. GIC 同时支持汉语和英语的场景识别，同时准确度均取得了显著的性能提升；
2. GIC 模型性能超过了同参数规模的 Attention-based 和 RNN-transducer 模型，并且具有非自回归解码的优势，带来数倍的解码速度提升；
3. 相对原始的 CTC 模型，GIC 在多个开源数据集有远超 10% 的相对性能提升。

Conformer 模型下的结论

Transformer 模型下的结论

GIC 为 CTC 模型的性能带来了很大的提升。相对原始的 CTC 模型，GIC 模块大约带来 2M 的额外参数，其中，计算中间层辅助 CTC loss 所用的线性层与最后一层是共享的，不会带来额外的参数。多个中间层共享嵌入层，带来 256*5000 约等于 1.3M 的参数。除此之外，多个门控单元的参数是 256*256*2*k，合计约 0.6M 的额外参数量。
“我喜欢吃肌肉”不会带来严重的后果，顶多就是被当成个笑话，听过算过。但如果军事指令被误读、外交辞令被误译，后果不堪设想。技术的进步需要从论文落进现实世界，以阻止蝴蝶效应的发生。
论文中提出的 GIC 机制就已经应用在了网易易盾的内容审核业务中。
作为网易智企旗下一站式数字内容风控品牌，易盾长期专注于数字内容安全风控和反垃圾信息的技术研发和创新。其中，针对以声音作为载体的数字内容，易盾提供了多种音频内容审核引擎，包括歌曲、广播、电视节目、直播等各种类型的音频内容，及时检测和过滤含有敏感、违规、低俗，广告内容的语音，从而减少不良内容的社会影响，营造良好的网络环境。
针对有具体语义内容的音频，易盾通过语音识别技术将音频文件中的语音内容转写为文字内容，再利用检测模块分析和处理文本，从而实现对音频内容的自动化审核和过滤。因此，语音识别的准确率与音频内容的审核效率和准确性是息息相关的，会直接影响到客户开展业务的安全与稳定。
如何让语音识别更好地辅助内容审核？如何让识别动作本身也能像人脑一样，根据对语境的理解，以更低的成本给出更准确的答案？论文中的 GIC 在内容审核中的应用取得了显著的效果提升。在实际的应用过程中，需要调试的超参数有两个，分别是多任务学习系数 lambda 和中间层层数 k。在 18 层编码器结构中我们发现 k=5，lambda=0.5 有较好的实验效果。接着，我们会从这个设置开始尝试，不断微调以确定最优的超参数。

这不是易盾 AI Lab 团队第一次获得这样规格的荣誉。
作为网易智企下设的始终走在人工智能研究前沿的技术团队，易盾 AI Lab 致力于围绕精细化、轻量化、敏捷化打造全面严谨、安全可信的 AI 技术能力，不断提升数字内容风控服务水平。在这之前，团队曾获得多项 AI 算法竞赛冠军及重要奖励荣誉：

2019 年第一届中国人工智能大赛旗帜识别赛道最高级 A 级证书
2020 年第二届中国人工智能大赛视频深度伪造检测赛道最高级 A 级证书
2021 年第三届中国人工智能大赛视频深度伪造检测和音频深度伪造检测赛道两项最高级 A 级证书
2021 年中国人工智能产业发展联盟“创新之星”、“创新人物”
2021 年第十六届全国人机语音通讯学术会议（NCMMSC2021）“长短视频多语种多模态识别竞赛”—汉语长短视频直播语音关键词（VKW）双赛道冠军
2021 年获得浙江省政府颁发的科学技术进步奖一等奖
2022 年 ICPR 多模态字幕识别比赛（Multimodal Subtitle Recognition, 简称 MSR 竞赛，国内首个多模态字幕识别大赛）赛道三“融合视觉和音频的多模态字幕识别系统”冠军

未来已来，AI 的 iPhone 时刻已至。今天，易盾成功登上了语音学的学术殿堂；未来，技术将成就业务的方方面面，而网易易盾将始终伴您左右。
点击链接，体验黑科技。

当然是人工智能的拐点。且这个人工智能的拐点，会带来整个人类社会的拐点。
我不想连篇累牍写一大堆，也不去引用各种大佬、专家的观点、行动，就用正在发生的实际事情来做最直接的论证。
在 ChatGPT 出来之前，整个 AI 届都是低迷状态。过去的理论方法无论学术上还是应用上都达到了瓶颈。算法科学家、工程师在公司的前途渺茫。养他们太贵，产出又迟迟达不到预期，成为优先被裁撤的对象。大量算法科学家开始寻找高校的教职。
ChatGPT 横空出世，让 AI 从业者又兴奋起来，看到了曙光。但很快发现，大量传统 AI 技术在大模型面前变得毫无价值，他们多年的深耕一夜之间变得近乎毫无意义。不少学者都开始思考改变研究方向了。
但毕竟是 AI 的人，那应该还是能最快收获 AI 的红利吧？其实不然。很有意思的是，传统算法科学家、工程师，是第一批被 AI 淘汰的人。
因为大模型 AI 太强大了，以至于使用它的门槛超级低，低到远远低于以前的所有技术。以前学个前端开发，怎么也得 2 个月起才能上手干活吧？而我这个前端小白，借助 AI，一个月就做出了 ChatALL 这个 AI 相关的开源软件，二个月就涨到 6K 星了。
接下来，在技术领域最受欢迎的，不是懂 AI 算法的人（因为不需要了），也不是会写传统架构、代码的人（因为过剩了），而是懂业务，知道怎么用 AI 大模型能最好地赋能业务的人。
这些现实的变化，够「拐点」吧？
面对这个拐点，我对所有人都是同样的两条建议：

无限靠近客户、靠近业务。了解人性、了解业务，是未来的竞争壁垒
马上开始用起 AI，日常的任何事情都试试 AI。AI 的使用门槛太低了，形成不了长期的竞争壁垒，但先动作的，一定能享受到先发红利

注：本文一气呵成，没有使用 AI 辅助。因为有感而发、肺腑之言的冲动，注入到文字里的感情，是人类的独有，AI 代替不了。

AI大模型确实是人工智能发展的一个重要拐点，在许多领域都取得了前所未有的成就。大模型的出现使得机器可以更好地模拟人类思维和行为，更准确地理解人类语言和图像，并自主学习和提高。
在实际生活中，AI大模型将赋予人工智能更强的智能和自主能力，进一步提高其对人类生活的理解和适应能力。例如，在医疗领域，大模型可以帮助医生更快速、更准确地对各种疾病进行诊断和治疗，甚至可以预防某些疾病的发生；在交通领域，大模型可以精准预测交通状况以及交通事故的风险，从而提高交通的安全性和效率；在教育领域，大模型可以根据不同学生的实际情况进行个性化教学，提高教学效果和学生的学习兴趣。
在办公方面，AI大模型将带来更加高效的工作方式。例如，通过自动化流程，机器可以快速地处理大量数据和内容，提高工作效能；通过自然语言处理技术，机器可以更快速地理解人类语言，从而更好地完成人类任务。此外，大模型还可以通过机器自主学习和创新，为人类创造出更多的新机会和新的方法。

一个具体的例子就是利用AI大模型来实现自动化流程。在很多企业中，公司员工需要处理大量的数据和文件，包括审核、分类、编辑等。这些任务如果全都由人工完成，则需要耗费大量的时间和精力，并且容易出现错误等问题。
但是，如果应用AI大模型，就可以实现自动化处理。AI大模型可以通过深度学习和自然语言处理技术来自动处理公司的流程，例如自动审核文件、自动分类文件、自动翻译文档等各种任务。而且，这些AI大模型可以通过实时学习和完善自己的算法，来不断提高自己的准确率和速度。
这样，一旦有大量文件需要处理，AI大模型可以快速地完成这一工作，并且可以保证高效和准确率，在大大提高办公效率的同时，也可以减少公司成本，降低公司的风险。

AI工具泛滥，未来我们会利用AI加速我们的产出效率。

对于生成大模型来说，确实难以比较全面且客观的评价，不光语言大模型，就连最近比较火的文生图模型，都面临同样的问题，因为生成模型的空间太大了，你没法像图像分类任务一样简单比较一下分类准确度就好，而且有些方面不同的人有不同的评价标准，比如对于图像的美感或者生成文本的创意度，这都很难找到一个客观的标准。所以，最好的办法还是上手测试一下，好不好用就自己知道了。

		自动登录	找回密码
密码			立即注册

最近爆火的AI大模型是否是人工智能的拐点？人工智能在实际生活学习、办公提效等方面将有哪些突破？

相关问题更多>

最新回答