复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有很长的路,其发展还需克服哪些难题?(复旦模块课推荐)

2023-02-28 14:51:20

 

让大学来推动大规模深度学习模型,并且要落地我觉得可能不太现实这个背后的资本需求是极其大的我之前在我的另外一篇分析当中提到了ChatGPT本身的计算体量本身就会对于任何机构运营类似大模型的壁垒,同时也讲了一下ChatGPT本身功能性和社会性的缺陷和未来的挑战,我觉得和这个题目很契合,便拿到这里来给大家参考。

我的原始回答在这里如何评价 OpenAI 的超级对话模型 ChatGPT ?51 赞同 · 10 评论回答

ChatGPT的庞大计算需求我们可以将ChatGPT的计算需求和google做一个比较就知道一个大学要支撑MOSS这样的产品有多难了首先,ChatGPT的每一次回答的代价和Google每一次搜索的模型inference的代价的区别有多大。

既然ChatGPT是在Azure上面完成的训练和落地,那我们就用Azure的价格来计算一下ChatGPT的inference价格ChatGPT本身需要1750亿个参数,需要一个8 x 80GB A-100 GPU Cluster来完成正常的1秒内的inference。

那从我所知,如果签长期合约一小时的使用价格大概在12美金左右(这个价格和自己基建的价格差不了太多了,考虑Azure的营业利润率为40%,这种长期合约的价格意味着估计成本价在8-9美元)因为不可能在每一次完成inference后就关掉。

cluster,所以我们就需要这台cluster一直开着,那样一年的开销就在10万美金左右因为一台cluster不可能完成上百万人的服务需求,那我们大概估算一下一台cluster能够服务多少客户在不考虑峰值并且所有人都能够被load-balancer完美分配的情况下,一台cluster可以服务 1440 个一分钟的Daily Active User。

假设这一分钟内可以完成5次问答,那每次问答的代价是100000 / 1440 / 365 / 5 = 0.04美元再激进一些,我们可以想象在问答间隙,GPU可以为其他客户服务,那就是5次问答本身需要5秒,考虑到数据的I/O,那一个cluster可能可以再服务2-4倍的用户,。

也就是每次回答0.04 / (2-4倍) = 差不多0.01-0.02美元,在最最理想的情况下目前google每秒要收到99000个搜索请求(https://www.oberlo.com/blog/google-。

search-statistics#:~:text=But%20how%20many%20is%20that,Internet%20Live%20Stats%2C%202022),然后它2023年的总的除去人工的operating expense是1260亿美元(见财报),我们假设其中有一半来自于google 搜索的服务器,那

每次搜索的成本就是126000000000 / 2 / 365 / 24 / 60 / 60 / 99000 = 0.02美元我们再来看看营收的情况,目前可知的是Google 2022年search所带来的revenue是1620亿美金(。

https://fourweekmba.com/google-revenue-breakdown/),我们可以得到,每次搜索的revenue是162000000000 / 2 / 365 / 24 / 60 / 60 / 99000 = 0.026美元。

每天google搜索的广告数量大概是55亿个impression (https://www.business2community.com/online-marketing/how-many-ads-does-google-serve-in-a-day-0322253

),那算到每次搜索大概就是5500000000 / 24 / 60 / 60 / 99000 = 0.6次广告每个广告也就是说价值0.026 / 0.6 = 0.04美元那我们现在来考虑一下ChatGPT,如果说按照上文计算的成本,也就是说至少每两到四个回答中有一个会是广告,才能够基本负担它的模型inference的代价。

我们更别说模型训练的代价了,估算成本,光是训练一次GPT-3级别的模型就需要460万美金,而且还需要不停更新才能跟上新的网络数据(https://www.reddit.com/r/MachineLearning/comments/h0jwoz/d_gpt3_the_4600000_language_model/

)也就是说,如果不是一个研究项目,OpenAI有钱可烧,作为商业项目,它的运营成本可能会超过Google搜索,这会让大多数公司或者机构望而却步而作为大学,这个项目就更难以维持了ChatGPT/MOSS所缺乏的技术能力。

我认为在这个方面,最缺乏的能力还是长期reasoning和planning的能力它无法帮助人类完成长期的有目的性的交流,比如它能不能手把手通过多步引导教会人类一个技能,目前来说,它还只能一下子把所有步骤一股脑发给人类。

这和RLHF本身的限制有关关于ChatGPT的具体能力和技术细节,可以参考我在之前文章中的内容如何评价 OpenAI 的超级对话模型 ChatGPT ?51 赞同 · 10 评论回答

RLHF帮助改善了几个原来GPT-3到3.5没有解决的问题,人类可以告诉ChatGPT有些东西是错的,所以ChatGPT可以对一些内容进行筛选它的行文也更“人类”,而不再那么机械化不过也就仅此而已将整个ChatGPT的架构来看,它其实就是一个优秀的工程产品,并没有科学技术的突破。

不仅如此,很多人认为因为用了RL,ChatGPT有了planning或者reasoning的能力,实则不然从严格意义上来说,这里的RLHF其实可以被看作是一个large action space的bandit learning model,并没有任何planning或者reasoning的行为。

Reward是给定在基于上面聊天记录后的最后agent给到的回答的,没有被跨越回答累加,也就是说,agent的optimization target就只有单轮回复的最优化即便人在给定reward的时候考虑到了回答对于上文的呼应,也只能提升agent对于。

contextual info的理解,不能提升planning的能力如果需要提升planning的能力,需要对于每一轮的policy针对未来的reward进行调整,然而人类的回答对于调整后的policy是会有不同的,所以会出现。

counterfactual的情况,只能根据最后一轮的回答给到的reward来调整因此RLHF在这个场景下很难做到planning能力于此同时,ChatGPT还是一个严格意义上的supervised learning。

的产物,所以它的行为其实就是模仿,最强算力的模仿,只是Imitation learning或者对于人类的behavior cloning最后再提出一个问题,不论是搜索,个人助手还是其他的应用场景,个性化都是必不可少的能力,。

在ChatGPT上,如何完成个性化,并且将用户信息加入整个交流过程,还是个未被探讨的话题大语言模型带来的社会和伦理问题ChatGPT和MOSS有一样的问题,那就是回答对准确性因为大语言模型的目的是生成模仿人类的语言和回答,却没有办法保证正确性,这个问题短时间内不太可能解决。

可能会有人觉得只有问问题的人自己能够分辨就行,但是这些回答对于整个网络将是毁灭性的想象如果有人专门将这些回答发到网络上,混淆视听,而这些回答又如此的真实,那阅读者如何分辨真假呢如果搜索也是以chatgpt类型的服务为切入点,。

那整个互联网环境将不再有真假的区别,谎言重复千遍将变成真理以此为鉴,Stack Overflow已经ban了ChatGPT在他们网站上的使用这样的滥用长期可能对于人类的知识体系都是毁灭性的,因为数字化,更多的材料已经完全基于数字媒介,而如果数字媒介没有可信度,那崩塌的发生将非常快。

https://www.theverge.com/2022/12/5/23493932/chatgpt-ai-generated-answers-temporarily-banned-stack-overflow-llms-dangers

​www.theverge.com/2022/12/5/23493932/chatgpt-ai-generated-answers-temporarily-banned-stack-overflow-llms-dangers

除此以外,很多研究者还提出了对于抄袭或者作弊的可能性这些确实存在,所谓的ChatGPT的探测器其实在RLHF的框架下是没有用的,因为只要将这些探测器的结果作为反向的reward输入系统,这样新调整出来的ChatGPT将可以完美混过探测器,Literally,完美避过。

因为探测器也是一个classifier,也就是一个function,ChatGPT完全可以通过tuning去避开整个decision boundary从而逃过监管更可怕的是,ChatGPT其实对于敏感语言或者恶意语言的规避是没有办法真的屏蔽的。

因为ChatGPT是一个Neural Network,它不是僵硬的规则,它对于世界的认知是连续性的,没有非黑即白的观念对于任何的Neural Network,即便是再明辨的黑白,在他们的预测中也就是0.001和0.999的区别,做不到完全的0和1。

类似的伦理和社会问题还有很多,值得大家深思最后,我非常有信心国内短期内跟上脚步能够做出这样的大模型,因为在有算力支撑的情况下,这些模型的技术细节并没有那么复杂很期待国内版本的模型是否能在中文交流上更胜一筹。


以上就是关于《复旦 MOSS 团队回应体验非常不好,称距离 ChatGPT 还有很长的路,其发展还需克服哪些难题?(复旦模块课推荐)》的全部内容,本文网址:https://www.7ca.cn/news/dianzizhizao/389.shtml,如对您有帮助可以分享给好友,谢谢。
标签:
声明