模型崩溃:是指用大语言模型的生成数据,重复训练大语言模型,会导致训练出的模型,出现不可逆转的缺陷。
即使,模型最初的基础架构原始数据,来自真实人类世界的数据。
形象比喻,就是近亲繁殖。
再形象比喻,就是1080p→720p→bd-R→dVp→dVdscr→tc-tS。
大多数同志们,肯定有切肤之痛、深切体会。
看片肯定1080p最爽,最不爽就是tS格式。
模型崩溃就是从原始的1080p格式退化成tS电影。
让人几乎没有任何观影的兴致。
即便它可能带有原始情节、充斥原始欲望、饱含原始冲动。
李飞、辛顿、苏茨克维、克里切夫斯基四人都是专业人士,一听就懂。
“这非常有可能!”
“maybe!”
“我应该理解了。”苏茨克维恍然大悟:
“就像通常以Jpeg格式反复存储图像,每一次存储就会丢失部分信息,直至完全失真,最终崩溃。”
“对,我们都忽略了这一点。”辛顿说:
“目前,全球各大公司都在深度研究与大预言模型……”
“互联网上已经有不少语言模型的生成数据。”
“而我们通过自动抓取这些内容来训练模型,很可能会强化原本就错误的结论……”
“语言模型一旦被这种错误结论固化,就非常顽固,很难纠正。”
“我可以这样理解,用语言模型创作周杰轮的歌曲,得到的是一首风格相似但才情缺失的口水歌……”李飞说:
“而如果再用这首歌来训练模型,得到的下一首很可能既无才情,又不会有风格,四不像。”
周杰轮是谁?
辛顿、苏茨克维和克里切夫斯基不懂。
“可以理解为泰勒斯威夫特。”李飞替换了一个名字。
辛顿、苏茨克维和克里切夫斯基懂了。
“我也是这么理解的,语言模型可以产生意识,那么也应该会有碳基生命类似的问题。”常乐说。
“老板,这简直就是天才判断。”克里切夫斯基非常认同:
“就像朊病毒一样,致死率100%,这是刻在人类基因上的禁令。”
“我们可以用实验来支撑这个判断。”苏茨克维说。
怎么实验?
用wechatGpt最初的版本进行文本生成实验。
先用第一代生成数据喂养wechatGpt1.0;
再用wechatGpt1.0生成的数据重复喂养。
恩,自己拉、自己吃;
自己吃完、再拉、再吃;
恶心不死你。
好。
大体方向和验证思路确定,接下来就是实践。
“老板,您今天来原本是有事吗?”李飞问。
“对,找几个懂手机和系统的研发人员,帮我看看这部手机,有没有隐藏的App或者可执行文件。”常乐说。
“好,这是mate20?”李飞问。
“mate20pRo,小批量供应,没有发布,菊厂送过来让我体验一下,提一提建议,注意保密。”常乐说。
常乐的手机很多。
菊厂、米厂每年都会送几部未发布的样机。
有些样机压根就不会出厂,停留在工程机阶段。
“明白,没有问题。”李飞点头。
李飞动作很快。
半个小时后,他拿着这部手机走过来,对常乐说:
“老板,这台手机很新,没有什么隐藏App和可执行文件。”
“就连缓存文件都很少,只有几个儿歌App的使用记录。”
“哦,谢谢。”常乐接过手机,点头。
“老板,应该的。”
“验证的事情抓紧一点,有了结果,告诉我,我先走了。”
“好。”
回到家,常乐将手机交给江夏。
“怎么样?”江夏接过手机,问。
“李飞他们看了,系统很干净,没有任何隐藏App和可执行文件。”常乐摇头说。
“这个黑客手脚很干净,一点痕迹都没有留下。”江夏断定是黑客所为。
她可是亲眼看见小常江对着手机有说有笑。
&... -->>
本章未完,点击下一页继续阅读