特德·姜:ChatGPT是网络的模糊JPEG(ChatGPT译版)
OpenAI的聊天机器人提供重述,而Google提供引用。我们更喜欢哪个?
2013年,德国一家建筑公司的工人们注意到了他们的Xerox复印机有些奇怪的地方:当他们复制一幢房屋的平面图时,复印件与原件有微妙但重要的不同。在原始平面图中,房屋的三个房间各有一个矩形指定其面积:分别为14.13,21.11和17.42平方米。然而,在复印件中,所有三个房间都被标记为14.13平方米的大小。公司联系了计算机科学家David Kriesel调查这个看似不可想象的结果。他们需要一位计算机科学家,因为现代的Xerox复印机不使用上世纪60年代普及的物理喷墨复印技术。相反,它通过数字方式扫描文档,然后打印出结果图像文件。再加上几乎所有数字图像文件都被压缩以节省空间,解决谜团的方法开始浮现出来。
压缩文件需要两个步骤:首先是编码,在编码过程中,文件被转换为更紧凑的格式,然后是解码,即该过程被逆转。如果恢复的文件与原始文件完全相同,则称压缩过程为无损压缩:没有任何信息被丢弃。相比之下,如果恢复的文件仅是原始文件的近似,则称压缩为有损压缩:一些信息已被丢弃并且现在无法恢复。无损压缩通常用于文本文件和计算机程序,因为即使是一个错误的字符都有可能是灾难性的。有损压缩经常用于照片,音频和视频,在这些情况下,绝对的准确性并不是必须的。大多数时候,我们不会注意到图片,歌曲或电影是否完美地被复制。忠诚度的损失只有在文件被紧缩到极限时才变得更明显。在这些情况下,我们会注意到所谓的压缩伪影:最小的jpeg和mpeg图像的模糊,或低比特率MP3的尖锐声音。
Xerox复印机使用一种称为jbig2的有损压缩格式,专为黑白图像使用。为了节省空间,复印机在图像中识别相似的区域,并存储一个副本;当文件被解压缩时,它使用该副本多次重建图像。事实证明,复印机判断指定房间面积的标签足够相似,以至于只需存储一个标签 - 14.13,并在打印平面图时将该标签重复使用三个房间。
Xerox复印机使用有损压缩格式而不是无损压缩格式本身不是问题。问题在于复印机以微妙的方式降低图像质量,其中压缩工件不能立即识别。如果复印机只是生成模糊的印刷品,每个人都会知道它们不是原件的精确复制。导致问题的是复印机生成的数字是可读的但不正确的;它使得复制品似乎是准确的,但实际上不是。(2014年,Xerox发布了一个补丁来解决这个问题。)
这个Xerox复印机的事件值得我们今天认真思考,因为我们在考虑OpenAI的ChatGPT和其他类似的程序,这些程序被A.I.研究人员称为大语言模型。复印机和大语言模型之间的相似可能并不显而易见,但请考虑以下场景。假设你即将永远失去对互联网的访问权。为了准备,你计划创建Web上的所有文本的压缩副本,以便将其存储在私人服务器上。不幸的是,你的私人服务器只有所需空间的1%;如果要使所有内容适合,您不能使用无损压缩算法。相反,您编写了一种损失性算法,该算法识别文本中的统计规律,并将其存储在专用文件格式中。由于你有几乎无限的计算能力来处理这项任务,您的算法可以识别非常细微的统计规律,这使您能够实现所需的100比1的压缩比率。
现在,失去互联网连接并不是那么糟糕;你已经在服务器上存储了Web上的所有信息。唯一的问题是,因为文本被高度压缩,你不能通过搜索精确的引用来寻找信息;因为存储的不是词语,所以你永远不会得到精确的匹配。为了解决这个问题,你创建了一个界面,接受以问题形式的查询,并以表达你在服务器上拥有的东西的答案作为回复。
这听起来很像ChatGPT或大多数其他大型语言模型。把ChatGPT想象成所有网页文本的模糊的jpeg。它保留了网上大量的信息,就像高分辨率图像的jpeg保留了大量信息一样,但是,如果你正在寻找一系列比特,你将永远找不到它;您将永远得到一个近似值。但是,因为近似值以语法文本的形式呈现,ChatGPT擅长创建语法文本,它通常是可以接受的。您仍在查看模糊的jpeg,但模糊发生的方式不会使图片整体看起来更模糊。
这个与有损压缩的比喻不仅仅是理解ChatGPT如何通过使用不同的词语重新包装从网络上找到的信息的一种方法。它也是理解ChatGPT等大型语言模型易于出现的事实性问题的“幻觉”的一种方法。这些幻觉是压缩的伪影,但是,就像Xerox复印机生成的错误标签一样,它们足够可信,以至于识别它们需要将它们与原件进行比较,在这种情况下,这意味着网络或我们对世界的认识。当我们这样考虑它们时,这样的幻觉一点也不令人惊讶;如果一种压缩算法的设计是为了在原始的99%被丢弃后重建文本,我们应该期望它生成的大部分内容将是完全虚构的。
这个比喻更加合理,当我们想起一种常见的损失压缩算法是插值,也就是通过查看缺口两侧的数据来估算缺失数据。当图像程序显示图片并且必须重建压缩过程中丢失的像素时,它会查看附近的像素并计算平均值。这就是ChatGPT在使用《独立宣言》的风格描述在烘干机里丢掉袜子时的做法:它是在“词汇空间”中的两个点,并生成填补这两个点之间的位置的文本。(“当人类活动的过程中,有必要使其服装与其伴侣分离,以维护其清洁和秩序......”)ChatGPT在这种形式的插值方面非常出色,以至于人们觉得它很有趣:他们发现了一个“模糊”工具,用于段落,而不是照片,他们玩得很开心。
因为像 ChatGPT 这样的大型语言模型经常被称为人工智能的最前沿,因此,将它们描述为有损的文本压缩算法可能听起来是在贬低它们。我确实认为这种观点为人们对大型语言模型的拟人化倾向提供了有益的警醒,但是压缩类比的另一方面也值得考虑。自 2006 年以来,一位名叫Marcus Hutter 的人工智能研究员提供了一笔现金奖励(即 "压缩人类知识奖",或"Hutter Prize"),以便任何人都能将特定的一个 gigabyte 的维基百科快照比先前的获奖者更小地无损压缩。您可能已经遇到过使用 zip 文件格式压缩的文件。zip 格式将 Hutter 的一个 gigabyte 文件压缩为大约 300 MB;最近的获奖者已经成功将它压缩到 115 MB。这不仅仅是一种把东西压缩在一起的练习。Hutter 认为,更好的文本压缩将对人类水平的人工智能的创建产生重要影响,部分原因是因为通过理解文本可以获得最大的压缩程度。
大语言模型识别文本中的统计规律。对Web文本的任何分析都会显示,诸如“供应不足”的短语经常与诸如“价格上涨”的短语出现在附近。如果一个聊天机器人包含了这种关联,当问到供应短缺的影响时,它可能会以价格上涨的回答。如果一个大语言模型已经编译了大量经济术语之间的关联,以至于它可以对各种问题提供合理的回答,那么我们是否应该说它实际上了解了经济理论?像ChatGPT这样的模型由于多种原因不符合Hutter Prize的资格,其中一个原因是它们不能精确重建原始文本,即不执行无损压缩。但是,它们的有损压缩是否仍然表明了A.I.研究人员感兴趣的真正理解?
回到算数的例子。如果你询问GPT-3(ChatGPT 建立的大语言模型)加减一对数字,只要数字只有两位数,它几乎总是会给出正确的答案。但当数字有五位数时,它的准确性明显降低,降到了百分之十。GPT-3 给出的大多数正确答案都没有出现在 Web 上——例如,没有多少 Web页面包含文本“245 + 821”——因此它没有从事简单的记忆。但是,尽管吸收了大量信息,它也没有推导出算数原理。对 GPT-3 错误答案的仔细检查表明,它在执行算数时没有带“1”。Web 当然包含了带“1”的解释,但 GPT-3 无法将这些解释合并。GPT-3 对算数示例的统计分析使其能够产生真实事物的表面近似,但不会更多。
鉴于 GPT-3 在小学教育课程中的失败,我们如何解释它有时能够很好地写大学级别的论文?即使大语言模型经常幻想,当它们清醒时,它们听起来就像真的了解诸如经济理论这样的主题。也许加减法是一种特殊情况,大语言模型不适合。有没有可能,在加减法以外的领域,文本中的统计规律实际上对应着对真实世界的真实知识?
这里有一个更简单的解释。想象一下ChatGPT是一个无损算法。如果是这样,它会回答问题时直接提供一个相关Web页面的逐字引用。我们可能会将软件视为一个经典搜索引擎的微小改进,不太对其印象深刻。ChatGPT重新排版来自Web的材料而不是逐字引用,这使得它看起来像一个学生用自己的语言表达思想,而不仅仅是简单地复述他所读到的东西;它创造了ChatGPT理解材料的错觉。在人类学生中,死记硬背并不是真正学习的指标,因此ChatGPT无法从Web页面中生成确切的引用正是使我们认为它已经学到了东西的原因。当我们处理单词序列时,有损压缩看起来比无损压缩更聪明。
如果我们考虑大语言模型作为模糊的jpeg,就可以评估它们可能适合或不适合的用途。让我们考虑几种情况。
大语言模型可以取代传统的搜索引擎吗?为了对它们有信心,我们需要知道它们没有被喂入宣传和阴谋论,我们需要知道jpeg捕捉了网络的正确部分。但是,即使大语言模型仅包含我们想要的信息,模糊性仍然是一个问题。有一种可以接受的模糊性,就是以不同的词汇重新陈述信息。然后是彻头彻尾的构思,当我们寻找事实时,我们认为这是不可接受的。目前还不清楚如何在消除不可接受的模糊性的同时保留可接受的模糊性是否在技术上可行,但我希望我们在不久的将来能够发现答案。
即使可以限制大语言模型进行捏造,我们是否应该使用它们生成Web内容?这只有在我们的目标是重新包装已经在Web上可用的信息时才有意义。一些公司就是为此而存在的——我们通常称它们为内容磨坊。也许大语言模型的模糊性对于他们有用,作为避免版权侵权的方法。总的来说,我认为任何对内容磨坊有利的事情对于寻找信息的人来说都是不利的。这种重新包装的兴起使得我们在线搜索所需的内容变得更加困难;大语言模型生成的文本在Web上发布的更多,Web就变得更加模糊。
没有关于OpenAI即将推出的接替ChatGPT的GPT-4的详细信息。但是,我要做一个预测:当OpenAI组装用于训练GPT-4的大量文本时,他们将竭尽全力排除由ChatGPT或任何其他大型语言模型生成的材料。如果事实证明是这样,那将是对大型语言模型与损失压缩的比喻是有用的无意证明。重复保存jpeg会造成更多的压缩现象,因为每次都会丢失更多信息。这是数字等价于在过去复印复印的复印。图像质量只会变差。
是的,评估大语言模型质量的一个有用标准可能是公司是否愿意将它生成的文本用作新模型的训练材料。如果 ChatGPT 的输出不够好用作 GPT-4,我们可以将其视为它不够好用于我们的指标。相反,如果一个模型开始生成如此优秀的文本,以至于可以用于训练新模型,那么这应该让我们对文本的质量有信心。(我猜测这样的结果需要在构建这些模型的技术上取得重大突破。)如果以及当我们开始看到模型生成的输出与它们的输入一样好时,则损失压缩的类比将不再适用。
大语言模型能帮助人类创作原创文章吗?回答这个问题,我们需要明确问题的具体内容。照相复印艺术,或照相复印艺术,是一种艺术形式,其中艺术家使用照相复印机的特殊属性作为创意工具。类似的东西肯定可以使用照相复印机ChatGPT,因此,从这个意义上说,答案是肯定的。但是,我不认为任何人会声称复印机已经成为艺术创作过程中的必需工具;绝大多数艺术家不在他们的创作过程中使用它们,没有人认为他们因此选择了自己的劣势。
因此,假设我们不是在讨论与复印艺术类似的新写作流派。那么,大语言模型生成的文本是否可以成为作家创作原创作品(无论是小说还是非小说)的有用起点?让大语言模型处理样板能否让作家专注于创造性的部分?
显然,没有人能代表所有作家,但是让我说明一下,从模糊的副本开始创作并不是创作原创作品的好方法。如果你是一名作家,在你写原创作品之前,你将写很多不原创的作品。而花在不原创作品上的时间和精力并不是浪费;相反,我建议这正是最终创作出原创作品的原因。花费时间选择适当的词和重新排列句子,以便更好地彼此呼应,正是教你如何通过散文传递意义的过程。让学生写文章不仅是评估他们对材料的理解的方法,还能让他们练习表达自己的想法。如果学生从不写我们已经读过的文章,他们将永远不会获得写我们从未读过的东西的技能。
并且,一旦你不再是学生,你就不能安全地使用由大语言模型提供的模板。表达思想的困难并不会在毕业后消失——每次开始起草新文章时都可能发生。有时只有在写作过程中,你才会发现你的原创思想。有人可能会说,大语言模型的输出与人类作家的初稿看起来没有什么不同,但是,我认为这只是表面上的相似之处。你的初稿不是一个明确的不原创思想,而是一个不好的原创思想,它伴随着你的模糊不满意,你对它说的和你想要它说的之间的距离的意识。这就是你在重写过程中的指导,这也是你从人工智能生成的文本开始时缺失的东西之一。
写作并不是一种神奇的或神秘的事情,它涉及的不仅仅是将现有文件复制到不可靠的复印机上并按下打印按钮。未来,我们很有可能建立一种基于世界自身经验的A.I.,能够写出好的散文。当我们实现这一目标时,将是一件了不起的事情,但这一天远在我们的预测范围之外。同时,我们有理由询问,在有一些东西重复网络内容的情况下,有什么用处?如果我们失去了对互联网的访问,并且必须将其存储在有限空间的私有服务器上,像ChatGPT这样的大语言模型可能是一个好的解决方案,前提是可以防止它捏造。但我们没有失去对互联网的访问。所以,当你仍然有原版时,模糊的图像有多大的用处?
作者介绍
特德·姜是一位获奖的科幻小说作家,他的首本短篇小说集《你生命中的故事与其他人》中的标题故事于2016年被改编成电影《arrival》。他住在华盛顿州贝尔维尤,以自由技术作家为生。
来源:纽约客
翻译:ChatGPT
往期:
乔姆斯基:ChatGPT基本上是高科技剽窃
ChatGPT|乔姆斯基为啥说它是“高科技剽窃”?
乔姆斯基谈ChatGPT的“本质”:东拼西凑的剽窃
ChatGPT、乔姆斯基、图灵、平克与语言的未来
AI复苏:ChatGPT 威胁到语言多样性
来源编辑:摩登语言学公众号
*声明:本文仅代表作者个人观点,不代表本公众号立场
科研方法
语言、传播与跨文化文献索引
欢迎关注“区域国别学与跨文化研究”
1. 公益讲座/访谈回放:
Noam Chomsky | Mind Your Language
北京语言大学开放45门在线课程
【双语字幕】乔姆斯基:语言最大的用途并不是交流
前沿讲座 | Mona Baker: What is a narrative approach to translation
乔姆斯基最新访谈视频:Does Language Shape Our Perception?
视频 | Tony McEnery:语料库与批评话语分析 前沿讲座
讲座视频 | Paul Baker: 语料库与话语研究 学术前沿讲座
乔姆斯基教授访谈实录| 《外国语》
Rod Ellis教授关于二语习得的两个视频讲座
视频 | 李嵬教授谈语言学习的重要性(7月2日最新访谈)
视频 | 李嵬教授谈超语实践研究(附Applied Linguistics 高被引论文)
访谈视频 | Larsen-Freeman教授谈应用语言学中的复杂理论
讲座视频 | Krashen:学英语该用教材还是故事书?
访谈视频 | M.A.K. Halliday 教授谈 World Englishes
访谈视频 | Dan Jurafsky:AI 如何改变我们对语言的理解
2.项目申报\线上课程 国内外常见语料工具一览 建议所有科研人员必读的研究方法书单 国家社科后期资助项目申报书的设计与书稿的打磨 讲座回看 | 文献综述如何催生论文、专著和项目 教育部人文社科项目申报书填写+立项案例 2022年度教育部项目已公示,立项者说这样准备成功率更高! 推荐 | 一文讲清国家社科基金和教育部人文社科项目
3.科研方法/学术资讯
如何查找习近平讲话官方外文版?收藏这几个网站 请查收全网最全的论文搜索下载渠道 138页PPT | 划重点、打七寸:毛浩然教授分享国家社科项目申报的器与道 前沿要览 | 外语教育中的国际传播能力培养 教育部发布:第1~13批外语词中文译名,建议收藏! 大家观点 | 邢福义:“复制”与“抄袭” 重磅资源丨新冠疫情英语语料库 讲座回放 | 许家金教授团队:语言、科技与艺术 北京外国语大学英语学院本科生推荐阅读书单 黄忠廉教授:文献综述如何催生论文、专著和项目 讲座回看 | 国家社科基金中华学术外译项目申报 建议所有科研人员必读的研究方法书单 教育部人文社科项目申报线上培训——语言学、翻译专场 线上培训 | 2023年度国家社科基金项目申报 “外语学院”专场