|
AASispcp
| 来自北京
在所谓三架马车方面,都有一些瓶颈,制约AI应用推广、也制约基础理论向纵深发展。
(1)算力方面,目前很多巨大深度学习DL模型表现已经非常好和解决非常广泛问题,但训练和运行起来太昂贵,要巨大的服务器集群才行。并且,算法没有深入优化,只是由极大公司验证了原理正确,而其它想用的公司自己又没有能力去在效率上进行大规模和比较彻底的优化。所以这类超大模型基本没人用起来,可惜了。放小一些规模,就算是只需要单个GPU板卡或者手机主芯片里的GPU核,因为这类都是属于“通用AI芯片”的方法,工程链路上本来是不存在一个效率优化的步骤的:标准模型架构跑标准算法)。所以就算跑满算力,仍然给新的更好模型带来困难,新的应用也难以拓展。最后一类“专用AI芯片”因为讲究超高的计算效率和能耗和硬件成本等,这类芯片设计公司内部最好有算法团队,他们部分任务就是面对自己AI芯片架构去对算法深度优化。但对人才能力要求很高,就也只有少量公司做得到。大型和中等和最小专用AI芯片,都在等待出现更好的研发工具软件,和中层运算级别上的标准化方法(如英伟达用的CUDA),虽然不会是极致优化,但方便让大多数普通工程师都用得起来,整体生态的技术水平就提高了。
(2)数据方面,很多公司已经具备它本行业的海量数据了(认为是自家财富,盲目自豪中),DL模型训练也必须。但是最大问题是数据中有用的信息、规律和知识,远未充分挖掘出来。所以关于数据,除了继续追求量,也应该注重质了。这点与公司业务里面AI来做这部分的“子任务”和场景定义相关。有了好的业务逻辑设计,数据的语义就可以更好“切题”了。从数据获取、清理和标注过程里,就都可以提高数据的可用性,和切题或者正确性。当然和模型训练的策略和流程也有关、与单元功能测试也有关。并非一下子走到“小数据”等太远大的目标,而是对充满世界规律的经验数据的设计中,添加部分理性结构。
(3)算法就更复杂热闹了。国内九成以上公司都是下载开源算法库、同时基于顶会论文和GitHub等上的完整工程去构建自家系统。算法工程师对标准几种DL功能如何用是了解的。但是论文中的场景任务多数与自己公司的不同,数据也不同。如何适应呢?缺少对于DL方法的更加深入的理解力,就没法了。于是所见绝大多数工作就是盲目地获取更多数据、盲目流程去训练,有时候似乎性能有点提高,但也不知道为啥,所以使用条件稍变就又不灵了,再训。好一些的工程师团队,对几种流行模型的功能原理和参数,有些理解,然后开始组合不同模型、微调某些结构参数等。这样的过程盲目且耗时。结果就是停止,结论说本公司业务不适应、或者说本公司数据不够等等。其实还是算法发掘远远不够。还有一个现象就是用了几种DL模型完全无效以后,称为本公司AI无法落地,模型参数和数据与公司业务或者体验,完全不搭。
以上只是简单的基于DL的目前流行AI的三方面瓶颈。如果更加对技术背后的原理吃透一些,会缓慢提升。因为目前这样仍然不是从头的创作,而是半路拿来。至于“强AI”和DL之外的努力,本回答免去。我在别的问题上有多次详细回答,但还不了解知乎里如何关联以往的回答,抱歉。 |
|