|
jlLWhnfx
| 来自北京
作为一个普通的LLM用户,说一点自己关于LLM进展的看法。
目前的大语言模型训练和推理成本太高,比如有人分析[1],OpenAI ChatGPT每天的运营70万美元,一年的话是2.5亿美元。这个数字即使对于像微软这样的大公司,也不是一笔随随便便的开支。所以LLM的研究和应用还是有很大的改进空间的,我个人认为下面的几个点上的改进会比较重要:
- 高质量、稳定可用的数据集
- 网络设计上的优化
- 硬件和训练流程上的优化
刚好最近这三个点都有一些相关的新闻或进展,说一下我的理解。
数据集
在数据集上,这几天有一个新闻[2],Reddit公司打算向使用API调用Reddit聊天内容的公司收费。随着数据使用规则的变化,如何构建稳定可用、没有法律风险的训练数据集也变得越来越重要。好在很多团队还是愿意将自己采集的数据集开源出来,部分可以商用。这里简单列一些我看到的开源数据集:
- RedPajama-Data-1T
- databricks-dolly-15k
- Open Assistant
- GPT4All-J Dataset
数据是这三部分里面最容易取得进展的,相信在2023年会看到更多的数据相关的工作。
网络设计
在网络结构优化上,斯坦福大学提出了 Hyena Hierarchy网络结构[3],将Transformer中的平方计算量的Attention修改为次平方的结构,
图片来源:参考4
从上图可以看到,Hyena 在 Sequence Length 为100的情况下,比Attention结构快100倍。更具体的对比,可以看论文。
图片来源:参考4
在测试集上,Few-shot 下Hyena准确率也比GPT框架的论文GPTNeo要好,Zero-shot 要差些。
当然我也是个LLM的门外汉,不懂算法细节,只是觉得这个思路是解决现在LLM模型参数量过大问题的一个好方向。
硬件
最后是训练软件和硬件层面的进展。根据这个报告[5],微软在自研用于训练语言模型的AI芯片。虽然GPU已经是很强大的计算单元,但针对语言模型设计的AI芯片,应该还是能在GPU的基础上进一步提速,毕竟GPU是一种通用的结构。相信随着LLM的实际价值的不断被发现,针对它们的专用芯片也会越来越多,当然这对芯片公司可能也是一个很好的机遇。
参考内容
[1]. How Much Does ChatGPT Cost to Run? $700K/day, Per Analyst (businessinsider.com)
[2]. Reddit Wants to Get Paid for Helping to Teach Big A.I. Systems
[3]. Hyena Hierarchy: Towards Larger Convolutional Language Models 论文
[4]. Hyena Hierarchy: Towards Larger Convolutional Language Models 博客
[5]. Microsoft reportedly working on its own AI chips that may rival Nvidia’s |
|