都说是大小年 小年过了就是大年 前段时间拿low ball是不是也可以考虑跳槽
简历现在只要有关键词 LLM 基本拿到面试不成问题 更何况AI相关startup拿融资不要太容易 当然如果你不认识LLM 罩不住的话还是别放简历上
现在各大公司都基于LLM立项 在AI的肩膀上程序员开发的角度也不一样了 甚至有的地方不需要程序员了 仔细品
需要加入美股微信讨论群或者美元人民币小额换汇群的可以加我微信 singerdmx
都说是大小年 小年过了就是大年 前段时间拿low ball是不是也可以考虑跳槽
简历现在只要有关键词 LLM 基本拿到面试不成问题 更何况AI相关startup拿融资不要太容易 当然如果你不认识LLM 罩不住的话还是别放简历上
现在各大公司都基于LLM立项 在AI的肩膀上程序员开发的角度也不一样了 甚至有的地方不需要程序员了 仔细品
需要加入美股微信讨论群或者美元人民币小额换汇群的可以加我微信 singerdmx
自去年 11 月底正式发布以来,OpenAI 最新的 AI 聊天机器人 ChatGPT 火出天际,成为现象级应用,在全网话题度狂飙。
瑞银发布的研究报告称, ChatGPT 推出后,今年 1 月的月活跃用户估计已达 1 亿,成为历史上用户增长最快的消费应用。
自 ChatGPT 走红后,全球互联网大厂、创业公司纷纷加码布局,一场关于 ChatGPT 的军备竞赛已然拉开。那么,这类大语言模型到底有什么魔力能让全网沸腾?是否参数越大,大模型就越智能?大模型当前面对的技术挑战是什么?突破口又在哪里?我们又该如何降低算力成本?
近期,InfoQ 有幸邀请到了澳大利亚国立大学计算机科学研究学院荣誉教授 Marcus Hutter,华院计算技术(上海)股份有限公司董事长、创始人宣晓华,共同探讨大模型的现在和未来。
以下为访谈实录,经编辑。
InfoQ:很高兴有机会能采访到您两位,能向我们的读者介绍下您自己吧,先从 Marcus 教授开始吧。
Marcus Hutter:我叫 Marcus Hutter,教育背景是物理、计算机科学和数学。在尝试了几种方向之后,我从 2000 年开始专注于通用人工智能(AGI)的研究。最开始的 6 年是在瑞士一家名叫 IDSIA 的小型研究机构工作。之后我在 2006 年搬到了澳大利亚,并在澳大利亚国立大学任人工智能教授。我的研究重点,主要是通用人工智能的数学基础。
InfoQ:最初接触 AI,是什么激发起了您研究这门科学的兴趣?
Marcus Hutter:我之所以对这个问题抱有兴趣,是因为 AI 有很多实现方法,而每个人都在摸索和尝试。人们想要用优化、学习和规划等种种方式解决问题,但时至今日关于“智能”的定义仍不明确。智能、超级智能、通用智能究竟是什么?这些问题始终没有答案。
在我看来,也包括在大多数人看来,在学科中深入摸索的前提就是掌握坚实、严谨的数学基础。但这种基础在 AI 领域尚不存在。所以我希望能从数学层面定义什么是智能。我给出了一个定义,也是我自己发现的唯一合理的定义。即使是在 20 年之后,它仍然经受住了时间的考验。很多人觉得智能是个非常艰深复杂的概念,但复杂的现象往往可以用非常简单的形式来把握。我就证明,智能确实能用非常简单的形式来把握。
InfoQ:那宣老师您这边能否介绍一下自己过往的经历,包括创办华院计算背后的故事?
宣晓华:我自己是学数学的,本科、硕士、博士都是学习数学的,研究生阶段主要就开始侧重于算法。算法当然已很久,比如 2000 多年前就有算法。算法是一个重要的研究领域, 同时又可以有应用。我在博士毕业以后先是去做了跟电路仿真有关的算法,这些算法更偏是科学计算。
到了 97 年我回国之后,尤其到 2002 年我开始创办这家公司时, 我更多关注基于数据的算法, 并创办了华院计算。
华院计算是一家以算法模型为核心的一家公司,我们研究算法模型,同时推动算法模型尤其是人工智能在不同行业应用场景中的落地,最终使行业更加智能化。
1即使没有重大突破,目前的 AI 也有望在某些领域完成 50% 的人类工作
InfoQ:相信您二位也注意到了,从去年年底至今,以 ChaGPT 为代表的 AIGC 大模型火爆异常,您二位是如何看待这波 AIGC 浪潮的?
Marcus Hutter:我得说,这些语言模型确实令人惊叹,实现了意想不到的突破。所以这套 Transformer 架构似乎就是正确答案,能够把握住建模数据中的依赖项和关联性,具有正确的归纳偏差。我觉得其实没人能真正说清这些模型为什么效果这么好。
我想说的是,只要使用一个个 token,它们就能帮助大家以前所未有的水平提取上下文信息。至于你刚刚提到的那些大语言模型,比如 ChatGPT,它可能有上百个层,对吧?而且它们能做的不只是输出语法正确、语义正确而且有实际意义的文本,更能给我们的问题提供正确答案。所以这里的奥秘绝不仅仅在于语法和一点点语义。一定在某种形式的理解发生在了中间层上,对吧?只要提供原始文本,它就能用某种方式将其转换为更加抽象的表示。最终,质变就这样产生了。这个抽象表示随后可以被翻译成英文或者各种语言的文本。
在中间某个环节上,一定有一些高质量的推理。更让人惊奇的是,它甚至还能编程,简直让人难以置信。毕竟闲聊还是相对简单,里面需要的推理部分不太多,系统只要在 100 毫秒后回答我提出的问题就行。闲谈就是这样,能在几乎不自觉的情况下推进展开。但对于那些更为复杂的主题,大语言模型甚至能够完成某种形式的数学推理。这一切都发生在中间层上,这非常值得关注,特别是这些模型具体是如何做到这一点的。总之,大模型的实际应用效果令人惊叹,我愿称之为一场出人意料的革命。
当然,它们并不完美,也会产生幻觉。有时候,它们连初等数学都做不好……但这最多说明它们还不适合在关键的安全场景下使用,对吧?我们暂时还不能用语言模型控制火箭,或者不经检查或规划就按它的建议做严肃的诊疗操作。
但对于其他容错率相对更高的领域,那就没问题。比如说用于问答的聊天框,用它总结文本内容,根据提示词生成电子邮件,还有在法律场景下浏览案例并找出相似判例、借此帮助律师节省时间精力等。我知道,最近其实出了个反例……AI 捏造证据但律师没做检查。另外,这些模型能搞定的还不止是文本,甚至能在图像场景下有所作为。在我看来,它们的作品比一般人甚至是某些艺术家还要好。这肯定会将社会产生巨大的影响,而且即使在技术逻辑层面再无进一步突破,这项技术也已经具备了广泛的应用空间。我的预测是,接下来现有 AI 系统可能会变得更安全、更可靠。即使再没有重大技术突破,它们也有望在某些领域完成目前人类办公任务中的 50%,所以必然会带来巨大的生产力提升。
另一派则会强调,技术在消灭旧岗位的同时,又会创造出新的岗位,我觉得这样的观点不一定对。我觉得最本质的点在于,岗位的意义就在于创造商品和服务。当然,其中也有其它要素,比如工作带来的成就感之类。但老实说,大多数人、甚至 90% 的人是因为迫不得已才去工作,跟热爱完全不沾边。另外 10% 的人可能两者兼有,既是为了赚钱、也是因为喜欢工作内容。
如果用机器取代掉这些工人,那实际产出的商品和服务也仍然相同,那么整个社会的富裕程度也没有变化。最后留下的,就是如何更公平地重新分配这些服务的问题。我想说的是,对多数上班族来说,最美好的事情就是“失业”。不用上班,但商品和服务的生产仍在继续,社会把这些成果以普遍基本收入的形式做分配。所以我们还是可以拿到属于自己的一份社会财富。到那个时候,会发生什么?这肯定是个理想化的场景,但可以拿来讨论。要么我们的失业率越来越高,但全民基本收入也达到很高的水平,再具体调整收入水平来确保仍有一部分人愿意为了再多拿收入而继续工作。或者,我们可以缩短工作时长和退休年限,甚至可以继续每周工作 40 小时来产出更多的劳动成果,让整个社会变得更加富裕。
同时,我们必须得在不严重影响业务规模的前提下,对 AI 技术进行监管。转变要一步步来,期间总会有人遭受损失,但要保证这只是一小部分人遭受损失。我们可以提供更高的全民基本收入或者其他形式的补偿。这样从结果来看,大家实际都没有蒙受损失,每个人都会过得更好。
InfoQ:宣老师您认为为什么会有那么多人关注 AIGC 或者 ChatGPT?
宣晓华:引发关注的原因是因为 ChatGPT 的智能程度超乎了人们的预期。在它出现之前,人们认为人类语言这件事对于计算机来说很难完成,ChatGPT 在语言层面的输出基本上可以到达跟人类似的程度,在图灵测试意义上这是一种机器具备智能的表现。图灵测试是用语言来测试一个机器具备智能的方法。
第二点原因是因为 ChatGPT 的使用门槛很低,是个很好的人机交互方式,而且它可具有趣味性。
第三点原因是在 ChatGPT 表现出了语言层面的智能后,人们开始想象它是否也具有较高的认知智能,是否掌握了思维规律。实际上 ChatGPT 这类大语言模型应该没有掌握思维规律。ChatGPT 只是掌握了语言的规律。但这也是个很大的进展,所以才会引发如此大的关注。
就如当年人们得知 AlphaGo 会下棋一样,也会对此产生兴趣。
InfoQ:您是否也赞同 Marcus 的观点,认为人类大部分工作都是可以被 AI 替代的?
宣晓华:我也认为,将来会有很多工作可以交给 AI 来做,包括许多需要高智商的工作。人工智能的目标本身就希望机器能实现许多人能做的事。每次工业革命都会产生失业问题,但是后来都消化掉了。
AIGC 带来的这次技术革命的影响规模可能更大。未来会如何,怎样应对需要技术领域和社会领域的学者来思考,也需要政府去重视。
国内外也有不少研究 AI 伦理的机构,大家都在积极思考和讨论对策。
2模型不一定越大就越好
InfoQ:所以很多企业看到了 AIGC 或者大模型带来的机遇,都在积极拥抱大模型。究竟什么样的模型可以称之为大模型?是否意味着它的参数越大,它就越智能?您二位是怎么看待这个问题的?
Marcus Hutter:一般来说是这样,就是说数据越多、参数越多,这样的训练出来的人工智能,比如说会更自然一些。那么这个是对的,这种或者相对来说是对的,但是方法论的突破真的是更重要的。
至于到底什么样的模型可以称之为大模型,我觉得可以理解成“我们到底需要多大的模型”。那我们人脑中有多少个神经元和突触?
人们总是以为,要想达到与人脑相当的智能水平,神经网络就能拥有同等数量的神经元和权重参数。但即使是 GPT-3.5,它的规模也就相当于人脑的千之一。还有 GPT-4,虽然没人知道它到底有多少参数,但猜测可能在 1.5 万亿左右,仍然只是人脑的百分之一。
另一方面,如果用用这些大语言模型、询问它们已经掌握的知识,就会发现它们知晓的反倒相当于人类,包括关注特定领域的人类专家的 100 倍甚至 1000 倍。但问题是,知识渊博和聪明并不是一回事,需要做出明确的区分。
我可以记住电话簿上的所有号码,这确实是掌握了大量信息,但也不能改变我很笨的事实。或者,很聪明的人或者 AI 也可能在特定的某个问题上“翻车”。无论如何,知识渊博只代表着信息的储量。这些模型虽然只相当于人脑的百分之、千分之一,但在某些方面却已经超越了人类。这就表明模型并不一定是越大越好。
问题还有另一个层面,就是作为人类,我们能够通过网络、书籍等查找自己不知道的东西,并把它放在临时记忆当中。我们会稍微思考一下,利用这些知识解决了眼前的问题后,很快再把它忘掉。但也有些知识需要在神经元中经过某种形式的处理,也就是推理。所以我可能会一时忘记怎么做加法,不过查找之后又能学会。当然,出色的数学家是不会这样边学边解题的。总之,有些东西就是通过这种不断处理的方式呈现,这就是推理。
但问题是,现在有了新的语言模型,它们能够查询互联网上的数据库。那这些模型具体需要在神经网络里存储多少知识?又有多少知识通过互联网的数据库即时检索就行?毕竟不是所有知识都得放进模型之内,对吧?相对不重要的随用随查更好**。所以最终,也许我们会迎来更多模型,它们的推理能力相同但体量更小**。还有其他一些模型瘦身技术,比如蒸馏神经网络,它们规模小得多但性能基本不变。所以五年前的我会觉得把知识存进数据库、再从中提取权重参数的作法根本就没有效率而言。但事实已经证明,这种思路不仅有效,而且在很多问题上的效率能达到人脑的 100 倍。
所以,也许我们应该考虑把所有知识都放进神经网络的训练过程当中,让它拥有真正的“大输入”。包括一切无聊的事实,贯穿整个神经网络。因为不知道为什么,这种看似更笨的办法反而更有效,而且让模型具备了推理能力。所以我们也许可以试着让它变得更大。五年前的我觉得应该把神经网络的规模控制在一定程度,其他事实通通放进数据库。但现在我也不确定了,我觉得两种方式似乎都有可行性。所以这事怎么说怎么有理,未来的模型会变大还是变小,我真的不知道。
总之,目前限制 AI 发展的主要是推理能力,其推理水平仍然有限。虽然大语言模型带来很多令人惊喜的表现,但在数学方面也经常犯低级错误。它们还没好到那个程度,所以要说现在的大模型还有哪方面缺失,那就是单纯记忆之外的深度推理。这才是我们需要改进的方向。
宣晓华:在语言上处理上, 我们看到了目前的大模型方法, 基于大量的数据,通过增大模型参数量, 已经到了非常高的水平。但是智能毕竟还有其他的,比如我要规划一件事情,我要理解一件事情,我要很多的推理决策,那么这些到底是否只要不断的给数据就能解决呢?我是有问号的,需要融合和发展其它方法,如“小数据方法”。我们人类获得大量知识,推动科技发展都不是靠非常多的数据来做的,而是靠不断地引进概念、通过演绎来进行的。所以认知层面的东西我认为是非常重要的。没有在方法上改进,完全靠扩大模型参数数量, 很难达到更高的智能层次。
在行业应用上,由于有时数据相对很少, 大数据模型会没法应用。需要把数据和行业知识,专家经验结合起来,我们用这样的数据和知识像结合的模型方法很好地解决一些工业领域的智能化问题。
华院计算在积极发展认知智能引擎,让机器具备更多的推理,规划和决策能力。
InfoQ:在大语言模型爆发后,业内有一种声音认为 NLP 已死。甚至在 ChatGPT 诞生的那一刻,NLP 就已经宣告灭亡了。你们同意这种观点吗?
Marcus Hutter:没错,我完全同意这个观点。我从来不觉得处理语言需要构建显式的语法规则等等。虽然这种方式也有效果,但它能解决的只是语法层面的问题。还有语义呢,语义那边又有另一种形式。其实我们很早之前就在传统研究中尝试过这个思路,一切都在专家系统中预先做编程。当时的研究人员尝试从医生等专家群体中提取知识,但这事是很难很难的。之后把提取的内容转化成规则,再做逻辑推理,这样虽有一定效果、但耗费的人力太过巨大。
这种方式曾盛行一时,但现在的新思路是直接在数据之上训练系统,让系统自己理解该如何推理。而且似乎只有朝着这个方向走,将最小的先验偏差引入系统。而目前来看,先验偏差似乎就是 transformer 模型中的注意力机制。先设置一些层,然后用大数据做训练,由此产生的语言模型就成了基础模型。它们能逐渐掌握语法和语义,最后甚至能把握住推理的诀窍。就目前来看,恐怕已经没有哪种经典语言处理系统能够跟 Transformer 相匹敌了。