开启辅助访问
 找回密码
 立即注册

到了 2022 年,人工智能有哪些真正可落地的应用?

liunxhome 回答数5 浏览数1894
到了 2022 年,人工智能有哪些真正可落地的应用?
使用道具 举报
| 未知
diszj78001 | 来自广东
让我们的目光从高大上的人工智能四个字转移到我们的日常生活,比如我们的各种输入法,可以将语音转成文字,即使是不怎么标准的普通话,都可以实现很不错的识别准确率;我们手机的语音助手,只需要轻轻地叫一声,“Hi,siri”,就可以让siri提醒我早上8点起床;还有各种视频网站上提供的自动生成字幕,切实了的方便了太多人的日常生活。
这其实都归功于AI,是正儿八经已经落地的应用。
包括但不限于各种翻译软件,文字转语音软件,语言转文字软件,聊天机器人,自动转接机器人等等。
这些功能我们在每天的生活中,都存在或多或少的接触。
其实语音智能是人工智能这一个大的主题下的一个很大的分支,另一个分支是机器视觉。
智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。
由它衍生出的应用以及技术更是很多,聊天机器人,虚拟代理,语音识别,翻译等等。
语音智能背后的技术基础

语音识别可以算是智能语音的代表技术,其目标很简单,就是机器接受语音,然后自动转换成文本。
专业点来说就是Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入
然后生成的文本可以用在后续的各种任务中,比如常见的:

  • 智能语音助手:Siri,小爱同学
  • 微信的语音转文字功能
  • 智能音箱
  • 汽车的智能语音识别功能
可以看到语音识别是最基础的也是最重要的功能,因为它是很多更高级任务的基础,那么它的识别准确率也就关系了后续任务的可靠性。


语音识别在很早的时候就开始了,到目前为止一共经历了四个阶段:
萌芽阶段:依靠简单的模板匹配进行特定的语音识别,没有什么应用价值。
起步阶段:基于模式和特征分析方法,它主要依靠的大量词汇量,还是靠量取胜,难以应对数据库之外的情况。
产业化阶段:基于概率统计的建模方式,简单来说,就是一个字或者词后面接着的内容是有限的,这些内容出现的概率是不同的,概率大的内容出现的可能性就越高,这个阶段最出名的就是HMM隐马尔科夫模型。
应用落地阶段:在这个阶段,深度学习就开始大规模地应用到语音识别了,因为其强大的特征提取能力,语音识别的准确率已经在前些年超过了人类。


上图就是一个典型的语音识别模型。
以前的语音识别技术更多地属于是实验中的产物,也就是现实中的产品想要应用这些技术会非常的艰难。
除了语音识别,自然语言处理NLP也跟它有些渊源,因为如果把语音识别当成用来听的“耳朵”的话,那么NLP就是处理这些文字信息的“脑”。
可以说语音识别ASR和NLP两者是有部分交集的技术,ASR将声音转换成文字,而NLP可以让机器理解人类语言内容。
因此语音识别技术依旧算是比较基础的功能,因为想让实现智能,光听懂是不够的,只有理解所听到的内容,才算是真正的智能。
得益于近些年用来训练的数据集规模不断地扩增,人们发现大力出奇迹在NLP是存在的,因此越来越大的NLP模型被创造了出来,并且事实证明,模型的参数越多,确实可以得到更好的结果。


GPT-3就是一个拥有着1700亿参数的庞然大物,它极其庞大的参数量有着很多明显的优势,比如它只需要稍微地调整参数,就可以胜任翻译、Q&A和文本填空任务。
另外图神经网络也是热门方向,尽管文本输入通常表示为一个序列信息,但是由于用图(graph)来表征文本可以更好地获取文本的结构信息,可以看到文字里面的关系其实很难用简单的前后顺序来表达,更像是一个网格结构。


图结构在多数情况下会比序列模型具有更强大的性能,但这样是有代价的。
那就是模型的复杂度会跃升,其实这就引出一个问题,那就是算力=性能。
谁垄断了算力,谁就垄断了行业。
智能语音在现实中的大规模应用

而之所以现在可以大规模地应用到日常生活,多亏了「云计算」+「人工智能」这两个技术合二为一。
我们拿亚马逊云科技的语音智能技术来举例,比如Amazon Transcribe,它可以自动地将语音转换成文本。
亚马逊云科技将这个功能放在云上,如果人们要使用的话,只需要调用这个功能,你不需要知道这个功能背后的原理,就可以实现语音转文字的功能。
而这个功能可以应用到很多的现实场景中:
比如NASCAR这个公司,使用亚马逊云科技的Amazon Transcribe,给视频自动添加字幕,这样做的好处是很多的。首先字幕可以让听障人士也可以完整地观看视频,同时文字的出现让内容检索也成为可能,其次对于各种视频审核也提供了便利。
另外医疗环境对于语音转文字也有很大的需求,因为这个功能可以很方便地将临床对话记录到电子病历中,这样可以大幅度的减少医疗工作者的工作量。
特别是针对医疗系统的各种专业名词,比如医学专业字符词库、常用病症、药品名称、操作步骤,进行深度的开发后,可以将准确率提高到堪比人类的水平。
反过来也一样,文字转语音其实也是一种智能语音的表现形式。
比如我们现在用的知乎,如果你用网页版的话,可以看到多了一个无障碍功能。


这个就是很典型的文字转语音功能,一般人当然用不上。但是对于视障、听障人士,这种功能的好处是不言而喻的。
不仅仅是知乎,很多的平台都上线了这种功能。
这就是典型的技术造福于人类的例子,AI help equality。
Amazon Polly就是亚马逊云科技的一项文字转成为语音的服务,基于深度学习的原理,可以转换成非常逼真的语音。
这种技术,其可用性在人类生活可以覆盖方方面面的。
比如很容易地讲汉字转换成汉语,英语,汉语,德语,法语,阿拉伯语,如果换成人工服务,要实现同样的服务的人工成本无疑是不可接受的。
总结

智能语音的现在已经实现了不小的应用成就,但是面临的挑战也不少。比如使用多种语言、方言和口音的高精度模型还亟待开发、实现实时处理的目标还有不短的距离和隐私保护,这都是发展中遇到的各种困难。
但不可否认的是,未来的企业必须要部分的甚至全部与AI接轨,以保证其持续不断的创新能力加成。这不仅仅是关乎于发展,更关乎于公平。
对于想参与下最新的人工智能方面内容分享的朋友,建议你不要错过在10月13到11月13日的亚马逊云科学中国峰会。
峰会里面会有很多的行业专家的精彩分享,报名地址我给大家放在这里了。
https://xg.zhihu.com/plugin/7bd83ade490d2343f6386d9a283c11b2?BIZ=ECOMMERCE
回复
使用道具 举报
webgame | 来自北京
我尝试试图从科学计算角度(AI for Science)来回答这个问题。从这个角度来看,2022年以后,我们未来可能会看到更多相关AI方面的顶刊论文抛弃我们常见的模型-仿真或者模型-实验思维,发展到AI数据处理-总结实验结果上,这是对目前科研模式的一个根本性变化,而且从目前的信息来看,相关进展已经开始落地并实现。
大家都知道,科学研究普遍存在两种目的,一种是为了发现世界上存在的某些普遍规律,这通常适用于自然科学等基础科学,而另一种是为了解决现实中存在的各种问题,这通常适用于大多工程学科。但是随着我们需要解决的问题越来越细节,越来越逼近真实世界,模型的复杂度也就越来越高,单纯的数学工具难以总结出有用规律。AI支持的科学计算就成了同时解决上述两种问题的一个途径。
1. AI 为什么可以 For Science?

在很早很早以前,大概在伽利略时代,当时的科学家主要寄希望于通过观察自然现象来总结规律,以记录,描述和归纳自然现象为特征,从原始的钻木取火,发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段,实验开启了现代科学之门。
但是,在当时,实验条件往往非常简陋,实验本身受到的干扰因素过多,并不能非常精确的反映物理现象,所以科学家们开始简化实验模型,开始简化假设,然后通过数学和计算方法进行归纳总结。此后的牛顿时代,随着数学的发展,当时的科学界则通过数学建模和相应的推导归纳总结”第一性原理“,从简单的数学中发现规律,比如信息理论的发展,比如麦克斯韦方程组的简历,再比如牛顿的三大定律。


但由于世界本身的复杂性,对于此后的大多数问题,我们并不能直接建立有效的模型进行解释,因为其数学问题总是过于复杂。这个问题直到上个世纪计算机产业的蓬勃发展,以及随之而来的数字仿真的兴盛,才逐渐开始改变。目前大多数论文都采用的数值仿真,也基本由那时而来。
随着计算机组件的小型化,单位计算成本逐渐降低,计算机仿真越来越多地取代实验,成为科研的常用方法。科学家会希望完成更加精确的物理世界建模,再通过仿真验证自己提出的科学问题和假设,最终(可能会)在现实中完成实验。同时,算法也帮助人类第一次大规模实现了从基本原理出发解决实际问题的能力,并由此构建起了现代工业和技术赖以生存的基础。


即使这些算法取得的解往往不是现实问题”最优“或者”最有效“的解,算法也依然得到了大量发展。其根本原因是,在现实世界里,可以控制的变量往往”过多“,导致需要解决的问题的复杂程度成指数级增长,而受限于人类经验本身,我们自己建立的模型往往并不能完全考虑”如此多“的解。换句话说,我们人类能够设计并理解的计算问题,往往是模型驱动的,而现实世界的模型往往不能直接获得。数据驱动的方法,或许才应该代替现在的方法成为主流。


这样,在未来的科学研究里,我们应该会改变现有的科研流程,也就是上图中的理论→模型→数据→仿真→实验,变成,数据→理论→实验。换句话说,我们有可能会先拥有数据,再从算法中找到这些数据中潜在的模式,人类再总结出通用理论,之后通过实际实验来验证这些结论。
事实上这种已经在科学界讨论多年,也正如上图所述,很多人称之为”第四范式“。即通过大数据分析发现数据中蕴含的大量相关关系。但是,这种方法本身无法从大量的相关关系中甄别出事物的本 质规律。
比如,前几年间,通过对 160 万份病历的大数据分析,研究人员发现帕金森病的起因与人的阑尾有关,此后有些对第四范式十分执着的学者召集了更大量的帕金森病患者以彻查他们的基因,调查他们的生活环境和生活习惯,以期从中发现一些共性。但是,其结论却不尽人意。因为帕金森病患者的生活习惯非常繁杂,而且人往往只有一个阑尾,单独靠第四范式的数据驱动方法做漫无边际的相关性分析,不仅要消耗大量的计算资源,也难以真正预测未来的趋势与变化。


从繁杂的相关关系中找到事物最重要的影响因素的方法其实有望被人工智能改变。从这个角度上看,人工智能对科学的改变不仅在虚拟世界中建立算法模型和模拟实验,甚至在一定程度上让人工智能可以独立完成人类科学家所给出的完整命题,并给出结论。
2. AI for Science的当前进展

就AI for Science领域,大众所知最明显的进展显然是AlphaFold以及其第二代。当然,还包括一些重复性比较高,比较依赖经验的领域,比如:

  • [天文]2017 年,Google AI 研究员Chris Shallue和得克萨斯大学奥斯汀分校的天体物理学家 Andrew Vanderburg通过TensorFlow在距地球 2545光年远的开普勒 90 星系中成功发现两颗新行星,而不论是在此之前还是之后,AI都在相关领域发挥了大量作用,经过训练后的AI预测行星成功率高达90%。
  • [气象]2021年,DeepMind通过观测雷达数据的大规模训练,以过去的雷达数据为基础,对未来的5-90min内的天气作出详细和可信的预测,最终结果非常令人振奋,比当前预测的主流算法实用度和精度都要高出一截。
  • [分子模拟]同样是2021年左右,ACM的戈登贝尔奖颁发给了一个“用机器学习将分子动力学的从头计算方法的精度推至 1 亿个原子”的项目,这某种程度上代表了机器学习领域在分子模拟这个领域的突破进展,而且目前分子模拟相关已经应用在了很多科学模拟过程中。
此外,在类似偏微分方程求解等等一系列非常有挑战性的科学计算领域里,AI都展现出了巨大的潜力。而且,如果大家关注业界咨询的话,其实会发现目前AI的创业公司(甚至很多大厂)都已经在相关领域内开始布局,并大量培养相关的科学计算生态。
因此其实可以相信,目前相关领域其实正在开始落地并真正展现商业化潜力。
3. AI for Science的未来

尽管不管是从商业前景(大家可以仔细观察一下本领域内创业公司的融资速度),还是从学术前景来看,AI科学计算领域都有非常重要大价值,但是其实相关领域的几个关键问题一直在阻碍「科学+AI」进一步发展,而其中大多数都来自算法一线人员与科研一线人员相关知识的差距。
这里包括但是不限于,算法人员在设计AI时经常做出不切实际的假设,并且很少探索科学方法本身,但是相关领域的进展目前却主要依赖AI算法工程师的工作,这就导致很多跨领域的科学问题非常容易被忽略,而即使能够成功开展,也需要AI算法工程师与科研人员之间密切的交流。
比如在AlphaFold里,就有数十位各领域顶尖研究员的密切合作,才会带来AI在蛋白质预测领域的不断发展和真正落地。
所以,从这个角度,AI for Science需要开展更多相关工作,联系其各领域的科研人员,才能完成更多创新。
大概这样。
回复
使用道具 举报
cheng98583 | 来自北京
人工智的应用场景已经延伸到科研领域,比如 AlphaFold 开启的蛋白质结构预测成果,类似方向在新冠病毒研究中也有。人工智能在新冠病毒研究中还有哪些应用,会帮助科学研究解决哪些问题,未来是否可以依赖人工智能进行科研工作?
知乎与中国计算机学会发起「科盐面对面」活动,邀请行业专家与知乎答主一起分享:
更多专业深度内容欢迎站内关注 <a class="member_mention" href="http://www.zhihu.com/people/818347236c00169b8904697c8169854b" data-hash="818347236c00169b8904697c8169854b" data-hovercard="p$b$818347236c00169b8904697c8169854b">@知乎科技
回复
使用道具 举报
sept5 | 来自湖南
注意到今年的多款旗舰手机,都搭载了独立影像芯片,用来给视频的预处理提供AI算力。
这便是人工智能技术的一个成熟落地场景:AI-ISP,已经在消费产品领域站稳脚跟。
<hr/>在介绍AI-ISP前,先按个人理解,做一些简要的技术发展回顾,
当下AI技术的重要构成,是近些年以卷积神经网络(CNN)[1]为代表的深度学习技术。


卷积神经网络结构的示意

传统算法对于图像的“理解能力”遇到了瓶颈,难以应对复杂的分类任务,卷积神经网络使算法具备了跟人眼比肩,乃至于更胜一筹的能力。
以ILSVRC的图像分类竞赛为例,需要算法判断图片的所属类别,采用top-5错误率作为指标。2012年之前,传统方案的最好成绩是25.8%,且已出现瓶颈之态。
次年,使用卷积神经网络方案的AlexNet打破僵局,将错误率降低了10%;随后在2015年,ResNet使用残差结构,将网络深度突破至152层,错误率降至3.5%,首次超过人眼水平(5.1%)。


可以说,人工智能技术让算法具备了跟人类相似的“学习”和“感知能力”。之后的事情,大家应该就有些印象了。近些年,人工智能技术开始在人脸识别和安防监控等领域快速落地。
例如,在2015年后,随着使用AI技术的人脸识别精准度不断突破,手机开始支持人脸解锁功能,便利店和自动售货机使用人脸支付。
人脸识别抓逃的案例也开始在新闻中出现,城市安全水平显著提升,比如:
为什么逃犯偏偏爱看张学友的演唱会?
<hr/>回到开头提及的AI-ISP,同样是AI算法相较传统方案,优势极其明显的应用场景。
例如暗光条件下的画质提升,是计算摄影领域的一大挑战和开放性问题。
图像传感器的光电转换过程必然带来噪声,显著影响弱光条件下的图像质量。即便通过高ISO可以增加画面亮度,但也会放大噪声和造成成像模糊。后期再使用直方图拉伸等方法,也不能从根本上解决信噪比过低的问题。


对于传统ISP方案,暗光画面的降噪困难在于,算法很难区别噪声和微弱的信号。但随着人工智能技术的发展,人们发现AI通过学习足够多的样本,能够将噪声和信号之间的区别“学习”出来。如此可以精确地去除画面噪声,进而对画面进行提亮。
在2018年,英特尔团队在《Learning to see in the dark》论文[2]中提出,可以使用神经网络来实现传统ISP的全部功能,即输入是raw图,而输出是RGB图。虽然属于实验室里的工作,但该方案展现出了惊人的效果表现。
如下图所示,前两张图分别是传统ISP算法能达到的一般效果和最优效果,而右图则是AI-ISP的效果。



在暗光条件下,为了得到画质自然的图像,除了提升亮度,还需要调整对比度。传统ISP方法是做直方图均衡,但并不一定能得到好的成像效果。有了AI算法的助力,可以得到更好的亮度和对比度条件。
当然,AI-ISP的应用场景远不止是暗光,还有高光压制,解析力提升,去紫边处理等,AI-ISP都能有很好的优势。
随着AI-ISP的发展成熟,让智能手机在有“底大一级压死人”规律的摄影中,能够通过后期的计算处理,使用尺寸有限的传感器,获得很好的画面质量和不虚的夜景效果。
于是乎,越来越多的手机厂商,会在产品宣传中强调AI算力和应用效果。


荣耀Magic4发布会

OPPO FindX5发布会

由于AI-ISP的处理过程有着很大的计算需求,对于移动设备来说,通常很难实时处理高分辨率的视频拍摄。为了能让算法推理(或训练)更加高效,出现了专用的AI芯片,包括是开头提到的独立影像芯片。在设计上牺牲一定通用性,换来专用业务下的效率提升。
AI 芯片和传统芯片有何区别?专用芯片的出现,就是AI-ISP算法落地成熟的最好证明。
回复
使用道具 举报
泥鸠 | 未知
谢谢D.Han老师邀请,这个你得看应用场景吧,因为无论是大家日常中能用到的,或者是平时不常了解与接触的。
先讲讲大家平时不太接触,或者关注度不高的场景吧,首先我可以给大家举深圳宝安机场的例子,别问为什么提这家机场,问就是海军只关注华为。
开个玩笑,因为深圳宝安机场是目前人工智能介入比较彻底的好例子,用来回答这个问题比较合适。
2019 年 11 月底,深圳机场机位资源智能分配系统正式上线运行。通过在国内机场中率先引入 AI 算法策略,深圳机场实现了机位自动化、智能化分配,每天 1000 多个航班的机位分配由原来人工分配的 4 小时缩短为仅需 1 分钟,并可每隔 10 分钟进行一次滚动刷新,机场航班靠桥率和廊桥周转率得到进一步提升,更多旅客将实现廊桥登机。
智能机位分配系统,这套融合了 170 多项核心数据以及 60 多个运行规则的系统,通过人工智能算法模型,最终全场景、全流程、全要素实现了机位资源的智能化高效调配。
面对每天千余架次航班保障,必须要有高度智能的 “运行神经中枢” 作技术支撑。2019 年全年,深圳机场航班放行正常率超过 87%,其中 10 月、11 月、12 月均超过 90%,并历史性地实现了航班放行正常率连续 16 个月超过 80%,位列全国大型机场前列。在这背后,机场 “智慧大脑” IOC(智能运营中心)的贡献功不可没,一个智能、高效、协同的大运控体系让机场运行顺畅如 “乐章”。
以智慧机场安保控制中心 (SOC) 为牵引,从地面到空中,从人防到技防,从被动到主动,深圳机场构建了立体化安全保障体系,实现了风险隐患精准识别,异常事件高效处置,安全态势全局掌握,实现了从被动安全管理到主动、精准安全风险识别防控的 “智” 变,机场的安全管理正变得越来越 “聪明”。
华为 + 深圳机场:沃土的力量,让机场 “智” 变向 “质” 变 - 华为企业业务 (huawei.com)
此外,还有阿里云在疫情中的快速部署
澳门科技大学医学院张康教授团队便携手中国科学院、国家生物信息中心、清华大学、中山大学孙逸仙纪念医院、广州再生医学与健康广东省实验室、四川大学华西医院等团队,联合应急开发了基于胸部 CT 和 X-ray 影像学的新冠肺炎 AI 辅助诊断系统。
该科研团队在分析了超 50 万份临床影像学数据的基础上,利用了深度学习、迁移学习、语义分割等多种人工智慧前沿技术,辅助临床医生进行新冠肺炎的快速诊断和定量分析。该 AI 模型以高精准度和高效率的优势,不仅可以辅助临床医生做诊断决策,提高诊断准确率,还可以减少其工作量,加快诊断效率,节省患者等待时间。
全球 CT 影像 20 秒诊断,阿里云为新冠 AI 辅助诊断系统加速 - 阿里云开发者社区 (aliyun.com)
这是大家不常接触到的部分,然后是我们日常生活中的人工智能应用。
就比如说大家的手机,拍照场景下的进行语义分析,然后针对性场景优化。自主学习你的使用习惯,调节后台资源配置,这些其实都算人工智能的应用。
回复
使用道具 举报
快速回复
您需要登录后才可以回帖 登录 | 立即注册

当贝投影