剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作:它改变了我对上下文学习的反思方式
西乡娱乐新闻网 2025-11-08
Ferenc Husz%uE1r 对马腾宇等人的指导给予了高度评价。AI科技产业批评家对 Ferenc 的书评做了不改原意的整理:
我迷恋这篇文章,因为它与可互相交换功能性(exchangeability)系统性,这是我而出名的观念和只意念之一。它让我只想起了我在2015年(当时还处于深达研读的扩展到最初)的只意念——借助于可互相交换基因组静态充分借助于大规模非标准研读机。在那篇旧网易里,我对可互相交换静态做了如下思维:
如果我们有一个可互相交换的循环系统建模(RNN),我们就可以在同一输入空间的多个无监督研读弊端上对它来进行锻炼。这个系统对其实就学都会了研读。如果只想在一个新的数据资料集上常用该系统对,即可将它输入到循环系统建模里,它就并能控制器命题演算得出结论标准差,需要任何额外的量化。所以,它就是一个战将非标准解答机。仅仅,战将非标准解答机(很庆幸我给它注册了品牌)跟 OpenAI 的 GPT-3 有时给人呈现的样子和常用的方式为并没有人太大区别。实践显示,常用者可以在多种多样的侦查里将它们重新缩减为小结果显示(或在某些但会为零结果显示)研读辅助工具。母语静态的这种通过输入精心建筑设计的定时来化解不同侦查的意志力,有时候被称为“定时黑客”(prompt-hacking)或“字符串研读”。
做事说,在我读到马腾宇等人发表的这篇文章之年前,我从来没有人把大型可互相交换基因组静态视作非标准研读辅助工具的事实和常用GPT-3来进行字符串研读的近期趋势联系三人。事实上,我对后者深表怀疑,确信它本质上就是必然普遍存在根本瑕疵的另一种黑客行为。但是这篇文章将这些点都联系三人了,这也是它为什么如此带动我的可能,因为我忘记无法只告诉他“定时黑客行为”和字符串研读竟然完全一样。
1)将可互相交换基因组作为容式研读机
在阐述这篇文章年前,让我们先来往常下关于可互相交换基因组和容式研读的已有观念。
可互相交换基因组静态是一个基因组标准差产于 ,在基因组 里,对于随意一个作用于 %u3C0,该产于都是对标示出的作用于未变量。
de Finetti 定理可将这些基因组静态与命题演算解答联系在三人,论点随意产于都可以分解成融合统一同产于(I.I.D.)基因组静态:
因此,年前一步的得出结论产于(用来得出结论基因组的下一个标示出)最重要时刻分解成命题演算平方根:
其里, 是由形而上学 量化受益的命题演算后验,量化的命题演算式子为:
在这种但会,如果我们有一个可互相交换基因组静态,就可以将这些年前一步的得出结论产于视作容式分派的命题演算解答。最重要是,即便我们并不知道%u3B8个 %u3C0 是什么,以及可能功能性 是什么,也能充分借助于这一配置。我们不用说明了式子的这些构建是什么,de Finetti 定理可都并能保证这些构建都普遍存在,而即可要让得出结论 与可互相交换基因组静态不同之处。
这一只意念驱使我通过紧密结合这一静态,来尝试建筑设计总是并能消除可傅立叶产于的循环系统建模(当时Transformer 还没有人注意到)。最终证明这种只意念不太可能充分借助于,不过这一只意念之年前为基础出了 BRUNO(名字出自于Bruno de Finetti)这一指导。
文章住址:
BRUNO 是一个常用可互相交换数据资料的灵巧的元锻炼静态,拥有小结果显示观念研读意志力。这个只意念后来在 Ira Korshunova 的博士文章里受益多种方式为的扩展到。
2)从可互相交换基因组到融合容一维静态(HMM)
但GPT-3是一个母语静态,很明显母语标示出是不可互相交换的,所以两者联系是什么?
伴随着de Finetti 型定理可注意到了一些引人注意的普遍化科技产业成果,可互相交换功能性的观念也注意到了一些无聊的扩展。Diaconis、Freedman(1980)等人表述,偏导可互相交换功能性(Partial exchangeability),指的是能保证基因组可被共五融合一维碱基的基因组产于的未变属功能性。因此,可以说,常用偏导可互相交换过程对一维碱基来进行命题演算解答,与常用可互相交换过程对统一同产于(I.I.D.)数据资料作用于过程来进行解答的方式为十分相似。
马腾宇等人在这篇文章里,论点常用的基因组静态是融合容一维静态。这比 Diaconis 和Freedman 提出的偏导可互相交换融合一维碱基更具普遍化功能性。
我不知道前提融合容一维静态能用可互相交换功能性此类的未变功能性来表征,但这不打紧。仅仅这篇文章根本没有人提及可互相交换功能性,其关于容式命题演算解答的架构论点是:每当常用由简便产于组成的基因组静态时,可以将年前一步的得出结论阐释为“对一些变量容式地来进行命题演算解答”。虽然互联网上人类文明母语的产于早先遵循多判读容一维静态(Multi Observation Hidden Markov Model,MoHMM)产于,但论点GPT-3控制器的基因组可能是融合容一维静态的某些外,这种说法就是充分的。并且如果真是这样,得出结论下一个标示出就都会对一些变量(编者所指的“观念”)容式地来进行命题演算解答。
3)字符串研读和容式命题演算解答
这篇文章的架构思只想是,不太可能字符串解答并能借助于这种与母语粗略估计静态都与的容式命题演算解答来无论如何。母语静态并能研读容式地对任何观念来进行标准差解答,因为要只想在得出结论下一个标示出的侦查上发挥得好,就必须来进行这种解答。如果静态具备这种容式研读意志力,那它就并能操纵这种意志力去分派其他同样需要这种解答的侦查,有数小结果显示界定等等。
我确信这是一个十分值得一提的普遍化只意念。 但令我稍感失望的是,编者催生的最重要弊端是特定功能性和人为功能性:虽然多判读容一维静态可以用来“模版”从某个特定的容一维静态(融合构建的其里一个)里合成的基因组,但如果让多判读容一维静态模版它们不太可能这样一来作用于的基因组,例如一个人为紧密结合的填充了小结果显示界定侦查的基因组,都会发生什么?这就演变成了一个产于不意味着的弊端。
这一深入研究为填充基因组里的字符串研读侦查与多判读容一维静态产于的系统性功能性,这两项了强有力的论点(明确技术细节请读物原文章)。从举例来说上来说, 编者研究成果的字符串侦查,与其说是一个界定侦查,不如说是一个小结果显示基因组模版侦查。
总而言之,这是一篇许多人思维的、值得一提的文章,它显著地偏离了我对整个字符串研读以及将母语静态锻炼成小结果显示研读辅助工具的研究成果路径的思维方式为。
大家怎么看?
参考重定向:
1.
2.
。邢台前列腺炎治疗医院哈尔滨看精神病哪家最好
广州不孕不育医院哪家比较专业
肝癌晚期还有治疗的必要吗
钇90树脂微球治疗一次多少钱
肝癌晚期能活几年
中晚期肝癌能活多久
钇90选择性内放射治疗肝癌怎么样

-
从冬奥会看中国科技:全民感恩的高速摄像机,有何玄机?
时尚 2025-11-10明了“第一个垂直减少的大屏幕控制系统”,可以重拍下水下53英尺的图片,并在1996年世锦赛上首次登场。2008年和2012年的世锦赛,则应用于了鹰眼Hawk-Eye控制系统,来伪装接球的一个点,让判罚

-
谁能拒绝这样的家,95㎡极致来进行空间,一尘不染
音乐 2025-11-10一个不洁整洁的家想必不能人会拒绝,正如直到现在备受追捧的极简整修一样。也是今天要和大家一慢慢地游览的这套范围仅有95㎡的3房2厅的天和整修案例。我们可以反之亦然感受连续性纯粹的生活精心设

-
地产从业人员下行,CEO们何去何从?
写真 2025-11-10于云彩城南或朱荣斌自身,都不是极好的适时。这次接棒朱荣斌的,正是在此之后出任为云彩城南监督经理的许国俊。他的担子无疑更为重了,不均落到朱荣斌原先手上的事务,还承担着领军云彩城南走进困境的

-
京东:股份融资由20亿美元增至30亿美元
八卦 2025-11-10凤凰网生物科技发信 12月29日最新消息,雄州集团(9618.HK)告示说是,管理层已批文修改于2020年3月采纳的现有股份回购计划,据此,回购使用权由20亿美元有所增加30亿美元,并延长至20

-
《似地》易烊千玺集结奇人 笑迎暖梦发光发热
时尚 2025-11-10由和文斋藤主演,宁浩合拍人,更易烊千玺合演的科幻电影《世界末日》释出“放电痉挛”初版第一集与“笑祝寿暖醒”初版Extreme剧照。第一集中都,更易烊千玺合演的景浩为了民工购进,同田雨一角的梁叔到