首页 / 行业
为什么ChatGPT模型大了就有上下文联系能力?
2023-04-27 09:50:00
关于这点,在一篇采访OpenAI 总裁Greg Brockman 的报道中提到了:
“Q:ChatGPT是如何产生的?GPT模型当初发布时显得有些违反常识,但却在某种程度上掀起了最新的AI浪潮,这与你们当初构建这些技术时的预期是否一致?
A:ChatGPT、GPT-3、DALL·E 2这些模型看似一夜成名,但其实构建这些模型耗费了整整五年时间,饱含多年的心血。GPT模型的构建要从2017年发布的情感神经元论文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)说起,这篇论文的思想很新颖,不过很多人可能已经忘了。
....“
于是好奇去查了这篇文章,很遗憾,并不是上面提到的这篇文章,而是官网Learning to Generate Reviews and Discovering Sentiment这篇文章。这篇文章的作者很激动、诚恳甚至有点卑微的表达了它的意外发现,那就是单纯训练LSTM 模型的去预测下一个单词,模型中的某个神经元意外对应着情感状态,用Greg Brockman的原话说就是:
“我们发现LSTM模型中的单个神经元有助于开发出SOTA情感分析分类器(sentiment analysis classifier),可以告知你文本情感(正面评价或负面评价),这一发现听起来平平无奇,但我们非常清楚地知道,这是一个超越语法并转向语义的时刻。”
关于为何会出现这种涌现行为,文章的作者提出了他的思路:
“情绪作为条件特征可能对语言建模具有很强的预测能力。(It is possible that sentiment as a conditioning feature has strong predictive capability for language modelling.)“
这个思路是典型的达尔文进化思维:
即模型本身有生成各种能力的潜力,当某项能力有利于模型完成任务(完不成的参数被调整,等驾驭被任务淘汰),这项能力就能自发进化出来。
神经网络在训练的时候,采用的随机梯度下降算法,一定程度上等效于物种的基因突变,本质是有一定方向的随机摸索,在强大的生存压力下,错误的摸索被淘汰,久而久之,积累越来越多的正确摸索,某些高层的功能就这么涌现出来了。
这种思路是不同于还原论的,ChatGPT 的出现让很多这个行业的老人困惑:“似乎原理上没有任何创新,为何能力出现巨大提升呢?”“涌现这个词本身就是个模棱两可的词,我并不知道具体的细节,那就是伪科学。”“ChatGPT 具备的推理能力不过是另一种归纳,永远无法替代演绎”。
还原论的思想讲究从底层到高层的逐渐构建,每行代码都有清晰的含义,这样写出来的系统才叫系统,但进化论的思想完全不同,进化论需要构建一个万能生成器,然后建立一个淘汰机制,对万能生成器生成的各种可能进行筛选淘汰,这样进化出来的系统,就能很好的完成任务,至于里面形成的微结构,那并不是重点,甚至都无法用简单的语言描述,因为本身就是全局共同起作用的。
所谓上下文推理,不过就是给定前文,准确给出后文的能力,这其实就是语言模型预训练时候就在做的事情,为了能做到这点,在训练的过程中,各种有助于提高预测能力的高层能力,都会自然而然的进化出来,所谓的高层能力,不过是一种函数,而神经网络本身可以拟合一切函数,同时随机梯度下降,又让神经网络具备了参数自动填充的能力。当然,进化的过程中,神经网络总会尝试找到更好的解法,比如死记硬背,但这些解法往往跟我们预期的解法不一致,这时候任务的合理构建就很重要了,需要巧妙的设计,让我们预期的解法是神经网络进化的唯一解。
其实换个角度想,人为什么有推理能力?人的一切能力也是进化而来的,人的各种生存压力,配合基因的随机突变和大自然的定向筛选,导致推理等能力的出现,换句话说,当推理能力的出现有助于人这个群体生存的时候,这个能力就会出现,跟GPT 涌现的各种能力的原理一样。
不要总拿着还原论思想去看待世界,几百年前,就出现了进化论思想,因为进化论思想没有写进义务教育的教材,导致太多人没有深刻理解这个工具。
审核编辑 :李倩
最新内容
手机 |
相关内容
可穿戴传感器能够实现准确的实时检
可穿戴传感器能够实现准确的实时检测,检测,实时,传感器,可穿戴,高精度,数据传输,可穿戴传感器(Wearable Sensors)是一种集成在人体上探秘英伟达显卡的制造之路 | 英伟
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?,英伟达,模型,中国大,显卡,方案,能力,英伟达(NVIDIA)是全球领先的图形MTK天玑9300重磅发布:全大核时代到
MTK天玑9300重磅发布:全大核时代到来,330亿参数AI大模型装入手机,装入,模型,参数,时代,支持,处理器,近日,联发科技(MediaTek)正式发布了PODsys:大模型AI算力平台部署的开源
PODsys:大模型AI算力平台部署的开源“神器”,开源,模型,平台,运行,计算,用户,PODsys(Platform for Open-source Distributed System)是机器人自动上下料,工业智能化进程的
机器人自动上下料,工业智能化进程的重要里程碑,进程,里程碑,自动,错误,危险,安全性,机器人自动上下料是工业智能化进程的重要里程碑,忆阻器存算一体芯片新突破!有望促进
忆阻器存算一体芯片新突破!有望促进人工智能、自动驾驶等领域发展,芯片,自动驾驶,人工智能,模拟,神经网络,计算,忆阻器存算一体芯片形式验证及其在芯片工程中的应用
形式验证及其在芯片工程中的应用,验证,芯片,形式,用于,性能,检查,形式验证(Formal Verification)是一种用于验证计算机系统或软件的正语音识别技术在智能客服领域的应用
语音识别技术在智能客服领域的应用与挑战,客服,智能,语音识别,模型,文本,系统,随着人工智能技术的不断发展,智能客服系统在许多企业