作者:Mohamed Baioumy & Alex Cheema
翻译:bewater
导言
人工智能(AI)将引发前所未有的社会变革。
随着AI的快速发展以及在各行各业创造出的新可能性,它将不可避免地引发大范围的经济混乱。加密行业也不例外。我们在 2024 年的第一周就观察到了三次重大的 DeFi 攻击,DeFi协议中760亿美元面临风险。利用AI,我们可以检查智能合约的安全漏洞,并将基于AI的安全层集成到区块链中。
AI的局限性在于坏人可以滥用强大的模型,恶意深度伪造的传播就证明了这一点。值得庆幸的是,密码学的各种进步将为AI模型引入新的能力,极大丰富AI行业的同时解决一些严重的缺陷。
AI和加密领域(Crypto)的融合将催生无数值得关注的项目。其中一些项目将为上述问题提供解决方案,而另一些项目则会以浅显的方式将AI和Crypto结合起来,但却不会带来真正的好处。
在本报告中,我们将介绍概念框架,具体的实例和见解,帮助您了解这一领域的过去、现在和未来。
2.1 什么是AI x Crypto项目?
让我们回顾一些同时使用加密技术和人工智能技术项目的例子,然后讨论它们是否真正属于AI x Crypto项目。
案例研究:Privasea
Privasea利用了全同态加密(FHE)技术来训练处理加密数据的AI模型,确保输入的隐私性。这一创新支持了类似ChatGPT的模型可以处理加密指令,也意味着服务提供商永远不会看到未加密的内容。系统处理这些加密输入,并生成只有用户能够解密的加密输出。这种方法可以保护用户数据不被泄露,对于金融等敏感领域尤为关键。在这些行业中,防止潜在的信息泄露至关重要。通过实现与AI的安全加密交互,Privasea解决了AI应用中的重大隐私和安全问题。
这个案例展示了加密技术如何帮助和改进一个AI产品——使用密码学方法来改变AI的训练方式。这导致了一个仅使用AI技术无法实现的产品:一个可以接受加密指令的模型。
图1:使用Crypto对AI栈进行内部更改,可产生新的功能。例如,FHE 允许我们使用加密指令。
案例研究:Dorsa
Dorsa是一家区块链安全领域的初创公司。他们利用AI模型对智能合约进行审计和监控。他们开发了多种工具,包括强化学习agents,以全面测试智能合约的安全性。Dorsa开发的工具可以为开发和审计人员提供帮助。因此,Dorsa利用AI模型来提高智能合约的安全性和可靠性。
在这种情况下,人工智能技术被用来改进加密领域产品——这与我们之前讨论的情况刚好相反。Dorsa提供了一种AI模型,使创建安全智能合约的过程更快、更便宜。虽然它是链下的,但AI模型的使用仍然有助于加密项目:智能合约通常是加密项目解决方案的核心。
Dorsa的AI能力可以发现人类忘记检查的漏洞,从而防止未来的黑客攻击。然而,这个特殊的例子并没有利用AI使加密产品具备以前做不到的能力,即编写安全的智能合约。Dorsa的AI只是让这个过程变得更好、更快。不过,这是AI技术(模型)改进加密产品(智能合约)的一个例子。
案例研究 LoverGPT
LoverGPT是一款Web2 AI女友应用。他们并不会审查裸露的聊天内容或图像,因此可能会面临无法接入Visa和Mastercard支付方式的问题。为了解决这个问题,他们开始接受加密货币的支付方式。然而产品的其他部分并没有使用任何区块链技术。
LoverGPT并不是Crypto x AI的一个例子。我们已经确定了AI可以帮助改进加密技术栈,反之亦然,这可以通过Privasea和Dorsa的例子来说明。然而,在LoverGPT的例子中,加密部分和AI部分并没有相互作用,它们只是在产品中共存。要将某个项目视为AI x Crypto项目,仅仅让AI和Crypto为同一个产品或解决方案做出贡献是不够的——这些技术必须相互交织配合以产生解决方案。
AI和加密技术的结合往往流于表面,没有实际价值。
加密技术和人工智能技术可以直接结合以产生更好解决方案的技术。将它们结合使用可以使彼此在整体项目中更好地发挥作用。只有涉及这些技术之间协同合作的项目才被分类为AI X Crypto项目 。
2.2 AI与Crypto如何相互促进
注意:在本报告中,我们使用“加密”一词来指代区块链技术和加密解决方案。零知识证明(ZKP)、加密签名和区块链账本都是“加密”的示例。我们将在适当的部分澄清我们所指的加密的具体方面。
图2:AI和crypto在3种不同产品中的结合方式
让我们回顾一下之前的案例研究。在Privasea中,FHE(即加密技术)用于生成能够接受加密输入的AI模型。因此,我们正在使用crypto(加密)解决方案来改进AI的训练过程,因此crypto正在帮助AI。在Dorsa中,AI模型被用于审查智能合约安全性。AI解决方案被用来改进加密产品,因此,AI正在帮助crypto。在评估AI X Crypto交叉点的项目时,这给我们带来了一个重要的维度:是crypto被用来帮助AI还是AI被用来帮助crypto?
这个简单的问题可以帮助我们发现当前用例的重要方面,即要解决的关键问题是什么?在Dorsa的案例中,我们期望的结果是一个安全的智能合约。这可以由熟练的开发者来完成,Dorsa恰好利用AI提高了这一过程的效率。不过,从根本上说,我们只关心智能合约的安全性。一旦明确了关键问题,我们就能确定是AI在帮助crypto,还是crypto在帮助AI。在某些情况下,两者之间并不存在有意义的交互(例如LoverGPT)。
下表提供了每个类别中的几个例子。
1. FHE以保护隐私的方式训练AI模型1.使用AI模型来保护、审计和监控智能合约2. 用于AI模型训练的联邦学习2.AI 模型用于高效搜索链上数据3. 零知识证明用于可验证推理3.用于创建数据分析仪表板的 LLM4. 收集和标注数据集的代币激励机制4.基于意图的交易5. AI agent支付轨道5.为链上游戏定制bots6. 分布式GPU网络6.管理DAO的AI agents表 1:Crypto与AI如何相结合
您可以在附录中找到 150 多个项目的概况。如果我们由遗漏的内容,或者您有任何反馈意见,请联系我们!
总结:AI和Crypto是相辅相成的技术。要评估任何产品,关键是要了解是AI在帮助Crypto,还是Crypto在帮助AI。
图 3:区别说明
2.3 产品定位
让我们举一个Crypto帮助AI的例子。当组成AI的特定技术集合发生变化时,AI解决方案作为一个整体的能力也会发生变化。这种技术集合被称为栈(Stack)。AI栈包括构成AI各个方面的数学思想和算法。用于处理训练数据、训练模型以及模型推理的具体技术都是栈的一部分。
栈作为一个整体,具有任何单独部分都不具备的属性和能力。各部分之间的交互,就像钟表中的齿轮一样,决定着栈的高层次行为。
在栈中,各个部分之间有着深刻的联系——具体技术的组合方式决定了栈的功能。因此,改变栈就等于改变了整个技术所能实现的目标。在栈中引入新技术可以创造新的技术可能性——以太坊在其加密栈中添加了新技术,使智能合约成为可能。同样,对栈的改变也能让开发者绕过以前被认为是技术固有的问题——Polygon对以太坊加密栈所做的改变使他们能够将交易费用降低到以前认为不可能达到的水平。
当一种技术在另一种技术的栈中使用时,这代表了技术之间更深入的集成,我们称之为 “内部集成”。如果两种技术一起使用,相互支持,但组成每个栈的部分没有任何改变,那么这种集成就是 “外部 ”集成。
内部支持:加密技术可用于对AI栈进行内部更改,例如改变训练模型的技术手段。我们可以在人工智能栈中引入FHE技术,Privasea就是例子,在AI栈中直接内置了一个加密的部分,形成了一个经过修改的AI栈。
外部支持:加密技术用于支持基于AI的功能,而无需对AI栈进行修改。Bittensor就是一个例子,它激励用户贡献数据——这些数据可用于训练AI模型。在这种情况下,模型的训练或使用方式没有任何改变;AI栈也没有发生任何变化。不过,在 Bittensor网络中,使用经济激励措施有助于AI栈更好地实现其目的。
内部支持:加密技术可用于对AI栈进行内部更改,例如改变训练模型的技术手段。我们可以在人工智能栈中引入FHE技术,Privasea就是例子,在AI栈中直接内置了一个加密的部分,形成了一个经过修改的AI栈。
外部支持:加密技术用于支持基于AI的功能,而无需对AI栈进行修改。Bittensor就是一个例子,它激励用户贡献数据——这些数据可用于训练AI模型。在这种情况下,模型的训练或使用方式没有任何改变;AI栈也没有发生任何变化。不过,在 Bittensor网络中,使用经济激励措施有助于AI栈更好地实现其目的。
图 4:前面讨论的说明
同样,AI也可以通过这两种方式帮助Crypto:
内部支持:AI技术用于crypto栈内部。AI位于链上,直接与crypto栈内的部分连接。举例来说,链上的AI agents管理着一个 DAO。这种AI不只是协助cypto栈。它是技术栈中不可分割的一部分,深深嵌入技术栈中,使 DAO 正常运行。
外部支持:AI为crypto栈提供外部支持。AI用于支持Crypto栈,而不对其进行内部更改。Dorsa等平台使用AI模型来确保智能合约的安全。AI在链外,是一种外部工具,用于使编写安全智能合约的过程更快以及更便宜。
内部支持:AI技术用于crypto栈内部。AI位于链上,直接与crypto栈内的部分连接。举例来说,链上的AI agents管理着一个 DAO。这种AI不只是协助cypto栈。它是技术栈中不可分割的一部分,深深嵌入技术栈中,使 DAO 正常运行。
外部支持:AI为crypto栈提供外部支持。AI用于支持Crypto栈,而不对其进行内部更改。Dorsa等平台使用AI模型来确保智能合约的安全。AI在链外,是一种外部工具,用于使编写安全智能合约的过程更快以及更便宜。
基于上述区别,我们现在可以将原始框架扩展到 2x2 矩阵。AI可以通过两种方式帮助Crypto:栈的内部和外部。这同样适用于Crypto帮助AI。这就为我们提供了一个框架的 4 个支柱,如下图所示。
图 5:这是升级的模型,包含了内部和外部支持的区别
对任何AI x Crypto项目进行分析的第一阶段就是确定它属于哪个类别。
2.4 确定瓶颈
与外部支持相比,以深度技术整合为特点的内部支持往往有更多的技术难度。例如,如果我们想通过引入FHE或零知识证明(ZKPs)来修改AI栈,我们就需要在密码学和AI方面都有相当专业知识的技术人员。但很少有人属于这一交叉领域。这些公司包括Modulus
(opens new window)、EZKL (opens new window)、Zama(opens new window)和Privasea (opens new window)。
因此,这些公司需要大量资金和稀有人才来推进其解决方案。让用户在智能合约中集成人工智能同样需要深入的知识;Ritual
(opens new window)和Ora (opens new window)等公司必须解决复杂的工程问题。
反之,外部支持也有瓶颈,但它们通常涉及的技术复杂性较低。例如,为AI agents添加加密货币支付功能并不需要我们对模型有太大修改。实现起来相对容易。虽然对于AI工程师来说,构建一个ChatGPT插件,让 ChatGPT从DeFi LLama (opens new window)
网页上获取统计数据在技术上并不复杂,但很少有AI工程师是crypto社区的成员。虽然这项任务在技术上并不复杂,但能够使用这些工具的AI工程师却寥寥无几,而且很多人都不知道这些可能性。
crypto在内部帮助 AI需要解决基本深层技术挑战,包括扩展 ZKML和扩展同态加密crypto从外部帮助 AI良好的经济模型(例如如何激励数据收集,或奖励为AI网络工作贡献 GPU 的用户)AI在内部帮助crypto工程挑战。相对于crypto栈而言,AI工具已经成熟。添加AI需要解决复杂的工程问题AI为crypto提供外部帮助crypto领域AI人才稀缺
2.5 测量效用
所有这四个类别中都会有好项目。
如果将人工智能集成到加密技术堆栈中,智能合约开发者将能够访问链上的人工智能模型,从而增加可能性的数量,并有可能带来广泛的创新。这同样适用于将加密整合到人工智能堆栈的情况——深度技术融合将产生新的可能性。
图 6:在加密堆栈中加入人工智能,为开发者提供新功能
在人工智能为加密提供外部帮助的情况下,人工智能技术的集成很可能会改进现有产品,同时产生较少的突破,引入较少的可能性。例如,使用人工智能模型编写智能合约可能会比以前更快、更便宜,也可能会提高安全性,但不太可能产生以前不可能产生的智能合约。这同样适用于加密技术从外部帮助人工智能——代币激励可以用于人工智能堆栈,但这本身不太可能重新定义我们训练人工智能模型的方式。
总之,将一种技术整合到另一种技术栈中可能会产生新的功能,而使用技术栈之外的技术则可能会提高可用性和效率。
2.6 评估项目
我们可以根据特定项目所处的象限来估算其部分收益,因为技术之间的内部支持可以带来更大的回报,但估算一个项目经风险调整后的总收益则需要我们考虑更多的因素和风险。
需要考虑的一个因素是,所考虑的项目在Web2、Web3或两者的背景下是否都有用。具有FHE功能的人工智能模型可用于替代不具有FHE功能的人工智能模型——引入FHE功能对两个领域都有用,在任何情况下,隐私都是有价值的。不过,将人工智能模型集成到智能合约中只能在 Web3 环境中使用。
如前所述,人工智能和加密领域之间的技术整合是在项目内部还是外部进行的,也将决定项目上升潜力,涉及内部支持的项目往往会产生新的能力和更大的效率提升,而这是更有价值的。
我们还必须考虑这项技术成熟的时间跨度,这将决定人们需要等待多长时间才能获得回报。
对项目的投资。要做到这一点,可以分析当前的进展情况,并找出与项目相关的瓶颈问题(见第 2.4 节)。
图 7:一个假设的例子,说明与时间跨度相比的潜在上升空间
2.7 了解复杂产品
有些项目涉及我们所描述的四个类别的组合,而不仅仅是一个类别。在这种情况下,与项目相关的风险和收益往往会成倍增加,项目实施的时间跨度也会更长。
此外,您还必须考虑项目的整体性是否优于各部分的总和——一个项目如果什么都有,往往不足以满足最终用户的需求。重点突出的方法往往会产生优秀的产品。
利用加密技术和人工智能的所有四种组合可以使项目更有价值,但前提是整体大于部分之和。
2.7.1 示例一:Flock.io
Flock.io
(opens new window)
允许在多个服务器之间 "分割 "训练模型,任何一方都无法访问所有训练数据。由于可以直接参与模型的训练,因此您可以使用自己的数据为模型做出贡献,而不会泄露任何数据。这有利于保护用户隐私。随着人工智能堆栈(模型训练)的改变,这涉及到加密在内部帮助人工智能。
此外,他们还使用加密代币奖励参与模型训练的人员,并使用智能合约对破坏训练过程的人员进行经济处罚。这并不会改变训练模型所涉及的流程,底层技术保持不变,但各方在都需要遵循链上罚没机制。这是加密技术从外部帮助人工智能的一个例子。
最重要的是,加密技术在内部帮助人工智能引入了一种新的能力:模型可以通过去中心化网络进行训练,同时保持数据的私密性。然而,从外部帮助人工智能的加密货币并没有引入新的能力,因为代币只是用来激励用户为网络做出贡献。用户可以用法币获得补偿,而用加密货币激励是一种更优解,可以提高系统的效率,但它并没有引入新的能力。
图 8(1):Flock.io 的示意图以及堆栈的变化情况,其中颜色的变化意味着内部发生了变化
2.7.2 示例二:洛克菲勒机器人
洛克菲勒机器人
(opens new window)
是一个在链上运行的交易机器人。它使用人工智能来决定进行哪些交易,但由于人工智能模型本身并不在智能合约上运行,因此我们依赖于服务提供商为我们运行模型,然后告诉智能合约人工智能的决定,并向智能合约证明他们没有说谎。如果智能合约不检查服务提供商是否说谎,服务提供商就可能代表我们进行有害的交易。洛克菲勒机器人允许我们使用ZK证明向智能合约证明服务提供商没有撒谎。在这里,ZK被用来改变人工智能堆栈。人工智能堆栈需要采用ZK技术,否则我们就无法使用ZK来证明模型对智能合约的决定。
由于采用了ZK技术,由此产生的人工智能模型输出具有可验证性,可以从区块链上进行查询,这意味着该人工智能模型在加密堆栈内部使用。在这种情况下,我们在智能合约中使用了人工智能模型,以公平的方式决定交易和价格。如果没有人工智能,这是不可能实现的。
图 8(2):Flock.io 的示意图以及堆栈的变化情况,其中颜色的变化意味着内部发生了变化
值得深究的问题
3.1 加密领域与深度伪造 (Deepfake) 启示录
"一台电脑就能造成这么大的破坏......如果不了解一些基本的真相,我们该如何运作?
- 谷歌前首席执行官埃里克-施密特(Eric Schmidt)致 Chainlink 联合创始人谢尔盖-纳扎罗夫(Sergey Nazarov)
1月23日,一条人工智能生成的语音信息谎称自己是拜登总统
(opens new window)
,劝阻民主党人不要在 2024 年初选中投票。不到一周后,一名金融工作者因模仿其同事的深度伪造视频通话,损失了2500万美元。与此同时,在X(前身为Twitter)上,人工智能伪造的泰勒·斯威夫特(Taylor Swift)的露骨照片吸引了4500万次浏览,引发了广泛的愤怒。这些事件都发生在2024年的头两个月,它们只是深度伪造在政治、金融和社交媒体领域产生的各种破坏性影响的一个缩影。
3.1.1 它们是如何成为问题的?
伪造图像并不是什么新鲜事。1917年,The Strand杂志上刊登了一些被设计成仙女模样的精巧剪纸照片;许多人认为这些照片是超自然力量存在的有力证据。
图 10:《科廷利仙子》照片之一。福尔摩斯的创作者阿瑟-柯南-道尔爵士曾将这些伪造图片作为灵异现象的证据
随着时间的推移,造假变得越来越容易,成本也越来越低,从而大大提高了错误信息的传播速度。例如,在2004年美国总统大选期间,一张经过篡改的照片虚假地显示民主党提名人约翰·克里(John Kerry)与简·方达(Jane Fonda)一起参加抗议活动,简-方达是一位颇具争议的美国活动家。科廷利仙子需要精心布置,用硬纸板剪出儿童读物中的描摹图画,而这次伪造则是用Photoshop完成的简单任务。
图 11:这张照片表明约翰·克里与简·方达在反越战集会上同台。后来发现这是一张伪造的照片,是用Photoshop将两张现有的图片合成的
不过,由于我们学会了如何辨别编辑痕迹,假照片带来的风险已经降低。在“游客小哥 ”的案例中,业余爱好者能够通过观察场景中不同物体的白平衡不一致来识别图片是否经过剪辑。这是公众对虚假信息认识提高的产物;人们已经学会注意图片编辑的痕迹。“Photoshoped”一词已成为通用术语:图像被篡改的迹象已得到普遍认可,照片证据不再被视为不可篡改的证据。
3.1.1.1 Deepfake 让造假更容易、更便宜、更好
过去,伪造证件很容易被肉眼识破,但深度伪造技术使制作几乎与真实照片无异的图像变得简单而廉价。例如,OnlyFake网站使用深度伪造技术在几分钟内生成逼真的假身份证照片,只需15美元。这些照片被用来绕过OKX(一家加密货币交易所)的反欺诈保障措施,即所谓的“了解你的客户"(KYC)。在 OKX 的案例中,这些深度伪造的ID骗过了他们的员工,而这些员工都受过识别篡改图片和深度伪造的培训。这凸显出,即使是专业人士,也不再可能通过肉眼发现基于深度伪造的欺诈行为。
由于图像被深度伪造,人们加强了对视频证据的依赖,但深度伪造不久将严重破坏视频证据(的可信度)。德克萨斯大学达拉斯分校的一名研究人员利用免费的深度伪造换脸工具,成功绕过了KYC提供商实施的身份验证功能。这是一个巨大的进步——过去,要生成具有合格水平的视频既昂贵又耗时。
2019 年,有人需要花费两周时间和552美元,才能制作出一段38秒的马克·扎克伯格深度伪造视频,视频中还会出现明显的视觉缺陷。如今,我们可以在几分钟内免费制作出逼真的deepfake视频。
图 12:OnlyFake面板,用于在几分钟内创建自己的假身份证
3.1.1.2 视频为何如此重要
在深度伪造技术出现之前,视频曾是可靠的证据。与容易伪造的图像不同,视频在历史上一直是难以伪造的,因此在法庭上被公认为是可靠的证据。这使得视频深度伪造变得尤为危险。
与此同时,深度伪造的出现也可能导致对真实视频的否定,美国总统拜登的一段视频就被错误地称为深度伪造。批评者以拜登眼睛一眨不眨和光线差异为证据,这些说法已被推翻。这就导致了一个问题——“深度伪造”不仅让假的看起来像真的,也让真的看起来像假的,进一步模糊了真实与虚构之间的界限,增加了问责的难度。
我们仍然相信视频,尽管它们现在可以伪造。
深度伪造实现了大规模定向广告。我们可能很快就会看到另一个YouTube,在这个版本中,所说的内容、所说的人以及所说的地点都是针对观众个性化定制的。一个早期的例子是Zomato的本地化广告,广告中演员赫里希克·罗尚(Hrithik Roshan)在观众所在城市的热门餐馆点菜。Zomato生成了不同的深度伪造广告,根据观众不同的GPS位置生成广告内容,介绍观众所在地的餐馆。
3.1.2 目前的解决方案有什么不足?
3.1.2.1 意识
现在的深度伪造技术已经非常先进,足以骗过训练有素的专家。这使得黑客能够绕过身份验证(KYC/AML)程序,甚至人工审核。这表明,我们无法用眼睛将深度伪造与真实图像区分开来。我们不能仅仅通过对图像持怀疑态度来防范深度伪造:我们需要更多的工具来应对深度伪造的流行。
3.1.2.2 平台
如果没有强大的社会压力,社交媒体平台并不愿意有效抑制深度伪造。例如,Meta禁止含有虚假音频的度伪造视视频,但拒绝禁止纯捏造的视频内容。他们违背了自己的监督委员会的建议,没有删除一段显示拜登总统抚摸孙女的深度伪造视频,即纯属捏造的内容。
3.1.2.3 政策
我们需要制定法律,有效应对新型深度伪造风险,同时又不限制问题较少的用途,如艺术或教育领域,因为这些用途并不试图欺骗人们。泰勒·斯威夫特(Taylor Swift)深度伪造图片未经同意而被传播等事件,促使立法者通过更严格的法律来打击此类深度伪造行为。针对此类案件,可能有必要在法律上强化在线审核程序,但禁止所有人工智能生成内容的提议引起了电影制作人和数字艺术家的警觉,他们担心这会不公正地限制他们的工作。找到正确的平衡点是关键,否则那些合法的创意应用将被扼杀。
推动立法者提高训练强大模型的准入门槛,大型科技公司可以确保其人工智能垄断地位。这可能会导致权力不可逆转地集中在少数公司手中——例如,涉及人工智能的第 14110号行政命令就建议对拥有大量计算能力的公司提出严格要求。
图 13:美国副总统卡马拉-哈里斯(Kamala Harris)在美国总统乔-拜登(Joe Biden)签署美国首个人工智能行政命令时鼓掌。2023 年 10 月 30 日,华盛顿特区
3.1.2.4 技术
直接在人工智能模型中建立防护栏以防止滥用是第一道防线,但这些防护栏不断被破坏。人工智能模型很难审查,因为我们不知如何使用现有低级工具来修改更高维度的行为。此外,训练人工智能模型的公司可以利用实施防护栏作为借口,在其模型中引入不良审查和偏见。这是有问题的,因为大型科技人工智能公司无需对公众意愿负责——公司可以自由地影响其模型,而损害用户的利益。
即使强大人工智能的创造权并未集中在不诚实的公司手中,要想建立一个既有防护措施又不偏不倚的人工智能可能仍然是不可能的。研究人员很难确定什么是滥用,因此很难以中立、平衡的方式处理用户请求的同时防止滥用。如果我们无法定义滥用,似乎就有必要降低防范措施的严格程度,可能导致滥用再次发生。因此,完全禁止滥用人工智能模型是不可能的。
一种解决方案是在恶意深度伪造出现后立即对其进行检测,而不是阻止其产生。但是,深度伪造检测人工智能模型(如OpenAI部署的模型由于不准确,正在变得过时。虽然深度赝品检测方法已经变得越来越复杂,但制造深度赝品的技术却在以更快的速度变得越来越复杂——深度伪造检测器在技术军备竞赛中败下阵来。这使得仅凭媒体很难识别深度假新闻。人工智能已经足够先进,可以制造出逼真到人工智能无法判断其准确性的假镜头。
水印技术能够在深层伪造品上隐蔽地打上标记,无论它们出现在哪里,我们都能识别出来。但是,深度伪造品并不总是带有水印,因为水印必须是刻意添加的。自愿将其伪造图像标出而做出区分的公司(如OpenAI),水印是一个有效的方法。但无论如何,水印都可以用简单易用的工具去除或伪造,从而绕过任何基于水印的防深度伪造解决方案。水印也可能被意外删除:大多数社交媒体平台都会自动删除水印。
最流行的深度伪造水印技术是C2PA(由内容出处和真实性联盟提出)。它旨在通过追踪媒体来源并将此信息存储在媒体元数据中来防止错误信息。该技术得到了Microsoft、Google和Adobe等公司的支持,因此C2PA很有可能会在整个内容供应链中推广,它比起其他同类技术更加受欢迎。
遗憾的是,C2PA也有自己的弱点。由于C2PA会存储图像的完整编辑历史,并使用符合 C2PA标准的编辑软件中所控制的加密密钥,对每次编辑进行验证,因此我们必须信任这些编辑软件。但是,人们很可能会因为有效的C2PA元数据而直接接受经过编辑的图像,而不会考虑是否信任编辑链中的每一方。因此,如果任何编辑软件遭到破坏或能够进行恶意编辑,就有可能让其他人相信伪造或恶意编辑的图像是真实的。
我们需要安全的硬件,否则确保 C2PA 安全的密钥就会被盗。
图 14:包含一连串编辑的符合C2PA标准元数据的图像示例。每个编辑都由不同的可信方签名,但只有最终编辑的图像是公开的。资料来源:真实照片与人工智能生成的艺术:新标准(C2PA)利用 PKI 显示图像的历史
此外,C2PA水印中包含的加密签名和元数据可以与特定用户或设备联系起来。在某些情况下,C2PA元数据可以将您的相机拍摄的所有图像相互连接起来:如果我们知道某张图像来自某人的相机,我们就可以识别来自该相机的所有其他图像。这可帮助举报人在发布照片时匿名化处理。
所有潜在的解决方案都将面临一系列独特的挑战。尽管这些挑战千差万别——包括社会意识的局限性、大型科技公司的缺陷、监管政策的实施难度以及我们的技术局限性。
解决深度伪造错误信息的问题没有万全之策。
3.1.3 加密货币能解决这个问题吗?
开源的深度伪造模型已经开始流传。因此,有人可能会说,总有一些方法可以利用深度伪造来滥用他人的肖像;即使这种做法被定为犯罪,有人还是会选择生成不道德的深度伪造内容。不过,我们可以让恶意深度伪造内容退出主流来解决这一问题。我们可以防止人们认为深度伪造的图片是真实的,且能够创建限制深度伪造内容的平台。本节将介绍各种基于加密技术的解决方案,以解决恶意深度伪造传播带来的误导问题,同时强调每种方法的局限性。
3.1.3.1 硬件认证
经过硬件认证的相机在拍摄每张照片时都会嵌入一个独特的证明,证明照片是由该相机拍摄的。该证明由相机独有的不可复制、防篡改芯片生成,确保图像的真实性。音频和视频也可以使用类似的程序。
入侵软件的成本更低,但入侵安全芯片的成本却很高。
认证证明告诉我们,图像是由真实相机拍摄的,这意味着我们通常可以相信这是真实物体的照片。我们可以标记没有这种证明的图像。但如果相机拍摄的是伪造场景,而伪造场景的设计看起来就像真实场景,那么这种方法就失效了——你可以直接将相机对准一张伪造的图片。目前,我们可以通过检查捕捉到的图像是否失真来判断照片是否从数字屏幕上拍摄的,但骗子们会找到隐藏这些瑕疵的方法(例如,通过使用更好的屏幕,或通过限制镜头眩光)。最终,即使是人工智能工具也无法识别这种欺诈行为,因为骗子可以找到避免所有这些失真的方法。
硬件认证将减少信任伪造图像的情况,但少数情况下,我们仍然需要额外的工具来防止深度伪造图像在摄像头被入侵或滥用情况下传播。正如我们之前所讨论的,使用经过硬件验证的摄像头仍有可能造成深度伪造内容是真实图像的错误印象,原因比如摄像头被黑客攻击,或相机被用来拍摄电脑屏幕上深度伪造的场景。要解决这个问题,还需要其他工具,比如摄像头黑名单。
相机黑名单将使社交媒体平台和应用程序能够标记来自特定相机的图像,因为已知该相机过去曾生成过误导性图像。黑名单可以无需公开披露可用于追溯相机的信息,如相机 ID 等。
然而,目前还不清楚由谁来维护摄像机黑名单,也不清楚如何防止人们收受贿赂后把举报人的相机也加入黑名单(的报复行为)。
3.1.3.2 基于区块链的图像年表
区块链是不可篡改的,因此在互联网上出现图像时,将图像与附加元数据一起添加到带有时间戳的年表中,这样时间戳和元数据就不会被篡改。由于未经编辑的原始图片在恶意编辑扩散之前,就能被诚实的各方以不可更改的方式存储在区块链上,因此访问这样的记录将使我们能够识别恶意编辑并验证原始来源。这项技术已在Polygon区块链网络上实施,作为与福克斯新闻合作开发的事实核查工具 Verify 的一部分。
区块链可以防止人们篡改图片的时间顺序,但无法阻止欺骗性图片的出现。
图 15:Fox 基于区块链的工具 Verify 的用户界面。可以通过 URL 查找艺术品。从 Polygon 区块链获取并显示来源、交易哈希值、签名、时间戳和其他元数据。
3.1.3.3 数字身份
如果“深度伪造”(deepfakes)会破坏我们对未经核实的图片和视频的信任,那么可信来源可能会成为避免虚假信息的唯一途径。我们已经依赖可信的媒体来源来核实信息,因为它们采用新闻标准、事实核查流程和编辑监督来确保所发布内容的准确性和可信度。然而,我们需要一种方法来验证我们在网上看到的内容是否来自我们信任的来源。这就是加密签名数据的用处:它可以用数学方法证明某篇内容的作者是谁。
签名是使用数字密钥生成的,由于密钥是由钱包创建和生成的,因此只有拥有相关加密钱包的人才知道。这样我们就能知道谁是数据的作者:您只需检查签名是否与个人加密钱包中的密钥相对应,而该密钥只属于个人。
我们可以利用加密货币钱包,以无缝和用户友好的方式为我们的帖子附加签名。如果我们使用加密货币钱包登录社交媒体平台,就可以利用钱包在社交媒体上创建和验证签名的功能。因此,如果某个帖子的来源不可信,平台将能够向我们发出警告——它将使用自动签名校验来标记错误信息。
此外,zk-KYC基础设施与钱包连接,可将未知钱包与真实身份绑定,而不会损害用户隐私和匿名性。这意味着骗子无法用虚假身份创建虚假账户来兜售虚假信息。
3.1.3.4 经济激励措施
"(有了Veracity Bonds),如果你的手在饼干罐里被抓到,你实际上会赔钱,而且,作为读者,我会知道你有多可信"。
- 查尔斯-霍斯金森,卡达诺创始人;以太坊联合创始人
作者可因错误信息而受到惩罚;用户可因识别错误信息而获得奖励。例如,“真实性债券”使媒体机构能够以其出版物的准确性作为赌注,并因错误信息面临经济处罚。因此,“真实性债券”为这些媒体公司提供了一个经济上的理由来确保信息的真实性。
真实性债券将是我们的“真相市场”不可分割的一部分,在这个市场上,不同的系统通过以最高效、最稳健的方式验证内容的真实性来赢得用户的信任。这类似于证明市场,如Succinct Network和=nil Proof Market,但针对的是仅靠密码学还不足以验证真相的模糊问题。智能合约(Smart Contracts)可以作为一种手段,强制实施使这些真相市场发挥作用所需的经济激励措施,因此区块链技术可能会在帮助打击虚假信息方面发挥核心作用。
3.1.3.5 声誉评分
"如果我们不解决内容的声誉和认证(问题),事情就会变得非常奇怪"。
- 伊利亚-波罗苏欣,NEAR 联合创始人;《关注就是你所需要的一切》一书的共同作者
我们可以用声誉来代表可信度。例如,我们可以看一个人在推特上有多少粉丝,来判断我们是否应该相信他所说的话。不过,声誉系统也应考虑作者的过往记录,而不仅仅是他们的知名度。我们不能把可信度与影响力混为一谈。
我们不能允许人们无限量地生成匿名身份,否则,他们就可以在名誉受损时抛弃自己的身份,以重置他们的社会可信度。这就要求我们使用无法复制的数字身份,如上一节所述。
我们还可以利用“真相市场”和“硬件认证”中的证据来确定一个人的声誉,因为这些都是追踪其真实记录的可靠方法。声誉系统是迄今为止所有其他解决方案的集大成者,因此也是最稳健、最全面的方法。
图 16:马斯克在 2018 年提出要建立网站对期刊论文、编辑和出版物的可信度评分
3.1.4 加密货币解决方案可以扩展吗?
上述区块链解决方案需要快速和高存储量的区块链——否则,我们就无法将所有图像纳入链上可验证的时间逻辑记录中。随着每天发布的在线数据量呈指数级增长,这一点只会变得越来越重要。不过,有一些算法可以以可验证的方式压缩数据。
此外,通过硬件认证生成的签名不适用于图像的编辑版本:必须使用 zk-SNARKs 生成编辑证明。ZK Microphone 是音频校验实现的案例。
3.1.5 深度伪造并非天生有害
必须承认,并非所有的深度伪造都是有害的。这项技术也有良性的用途,比如这段人工智能生成的泰勒-斯威夫特(Taylor Swift)教授数学的视频。由于深度伪造的低成本和可访问性,更个性化的体验也成为可能。例如,HeyGen允许用户发送带有人工智能生成的酷似自己人脸的个人信息。深度仿真还通过配音翻译帮助缩小语言差距。
3.1.5.1 控制深度伪造并将其货币化的方法
基于深度伪造技术的人工智能“仿真人”服务(AI counterpart services),他们收取高额费用,缺乏问责制和监督。最近,OnlyFans上的头号网红Amouranth发布了自己的数字人服务,粉丝们可以与她私下交流。这些服务,尤其是初创公司,可能会限制甚至关闭访问权限。例如,AI伴侣网站Soulmate关闭后,用户伤心欲绝。
托管在链上的人工智能模型可以为用户提供更有力的保证,确保他们不会失去访问权,并通过透明的利润分享来奖励贡献者。智能合约可以访问这些人工智能模型。这样就可以在智能合约中设置精细的规则,规定如何使用这些模型。不过,这也存在技术挑战。目前,Giza、Modulus Labs 和 EZKL 所使用的一种方法——zkML——会产生高达1000倍的开销。这是一个活跃的研究领域,目前正在探索几种替代方案。例如,HyperOracle正在尝试使用 opML,Aizel正在构建一个基于多方计算(MPC)和可信执行环境(TEE)的解决方案。
3.1.6 章节摘要
复杂的深度伪造正在侵蚀政治、金融和社交媒体领域的信任,凸显了建立 "可验证网络 "以维护真相和民主诚信的必要性。
深度伪造曾经是一项昂贵且技术密集型的工作,但随着人工智能的进步,它已变得很容易制作,从而改变了错误信息的格局。
历史背景告诉我们,操纵媒体并不是新的挑战,但人工智能使制造令人信服的假新闻变得更加容易和便宜,因此需要新的解决方案。
视频造假带来了独特的危险,因为它们损害了传统上被认为是可靠的证据,导致社会陷入一种困境,即真实行为可能被当作假的。
现有对策分为意识、平台、政策和技术方法,每种方法在有效打击深度伪造方面都面临挑战。
硬件证明和区块链证明了每张图片的来源,并创建了透明、不可更改的编辑记录,从而提供了前景广阔的解决方案。
加密货币钱包和zk-KYC加强了在线内容的验证和认证,而链上信誉系统和经济激励措施(如 "真实性债券")则为真相提供了一个市场。 在承认深度伪造的积极用途的同时,加密技术还提出了一种将有益的深度伪造列入白名单的方法,从而在创新与诚信之间取得平衡。
复杂的深度伪造正在侵蚀政治、金融和社交媒体领域的信任,凸显了建立 "可验证网络 "以维护真相和民主诚信的必要性。
深度伪造曾经是一项昂贵且技术密集型的工作,但随着人工智能的进步,它已变得很容易制作,从而改变了错误信息的格局。
历史背景告诉我们,操纵媒体并不是新的挑战,但人工智能使制造令人信服的假新闻变得更加容易和便宜,因此需要新的解决方案。
视频造假带来了独特的危险,因为它们损害了传统上被认为是可靠的证据,导致社会陷入一种困境,即真实行为可能被当作假的。
现有对策分为意识、平台、政策和技术方法,每种方法在有效打击深度伪造方面都面临挑战。
硬件证明和区块链证明了每张图片的来源,并创建了透明、不可更改的编辑记录,从而提供了前景广阔的解决方案。
加密货币钱包和zk-KYC加强了在线内容的验证和认证,而链上信誉系统和经济激励措施(如 "真实性债券")则为真相提供了一个市场。 在承认深度伪造的积极用途的同时,加密技术还提出了一种将有益的深度伪造列入白名单的方法,从而在创新与诚信之间取得平衡。
3.2 苦涩的一课
“从70年的人工智能研究中可以收获的最大教训是,利用通用方法计算最终是最有效的,而且是以很大的优势取胜。”
– The Bitter Lesson苦涩的一课, Rich Sutton教授
这句话有悖常理,但却是事实。人工智能界拒绝接受定制方法效果不佳的说法,但"苦涩的教训"仍然适用:使用最强的计算能力总能产生最好的结果。
我们必须扩大规模:更多GPU、更多数据中心、更多训练数据。
计算机国际象棋研究人员曾试图利用人类顶尖棋手的经验来构建国际象棋引擎,这就是研究人员弄错了的一个例子。最初的国际象棋程序都是照搬人类的开局策略(使用"开局书")。研究人员希望国际象棋引擎能从强势局面开始,而无需从头开始计算最佳棋步。它们还包含许多"战术启发法"——人类棋手使用的战术,如叉子。简单地说:国际象棋程序是根据人类对如何成功下棋的见解而不是一般的计算方法构建的。
图 17:叉子的一个实例。皇后用于同时攻击两个棋子。
图 18:国际象棋开局顺序示例。
1997年,IBM的DeepBlue结合了巨大的计算能力和基于搜索的技术,击败了国际象棋世界冠军。尽管DeepBlue优于所有"人类设计"的国际象棋引擎,但国际象棋研究人员对其避而远之。他们认为,DeepBlue的成功只是昙花一现,因为它并没有采用国际象棋策略——在他们看来,这是一种粗暴的解决方案。他们错了:从长远来看,将大量计算应用于一般问题的解决方法往往会比定制方法产生更好的结果。这种高计算意识形态催生了成功的围棋引擎(AlphaGo)、改进的语音识别技术,以及更可靠的计算机视觉技术。
高计算人工智能方法的最新成果是OpenAI的ChatGPT。与之前的尝试不同,OpenAI 并没有试图将人类对语言工作原理的理解编码到软件中。相反,他们的模型将来自互联网的大量数据与海量计算结合起来。与其他研究人员不同的是,他们没有干预,也没有在软件中嵌入任何偏见。从长远来看,性能最好的方法总是基于利用大量计算的通用方法。这是历史事实;事实上,我们可能有足够的证据证明这一点永远正确。
从长远来看,将巨大的计算能力与大量数据相结合是最好的方法,其原因在于摩尔定律:随着时间的推移,计算成本将呈指数级下降。在短期内,我们可能无法确定计算带宽的大幅增长,这可能导致研究人员试图通过手动将人类知识和算法嵌入软件来改进他们的技术。这种方法可能会在一段时间内奏效,但从长远来看不会取得成功:将人类知识嵌入底层软件会使软件变得更加复杂,模型也无法根据额外的计算能力进行改进。这使得人工方法变得目光短浅,因此萨顿建议我们忽略人工技术,将重点放在将更多计算能力应用于通用计算技术上。
《苦涩的一课》对我们应该如何构建去中心化的人工智能有着巨大的影响:
构建大型网络: 上述经验教训凸显了开发大型人工智能模型并汇集大量计算资源对其进行训练的紧迫性。这些都是进入人工智能新领域的关键步骤。Akash、GPUNet和 IoNet等公司旨在提供可扩展的基础设施。
图 19:Akash价格与亚马逊AWS等其他供应商的比较
硬件创新: ZKML 方法一直受到批评,因为它们的运行速度比非ZKML方法慢1000倍。这与神经网络面临的批评不谋而合。20世纪90年代,神经网络展现出了巨大的前景。Yann LeCun的CNN模型是一个小型神经网络,能够对手写数字图像进行分类(见下图),并取得了成功。到1998 年,美国有超过10%的银行使用这种技术读取支票。然而,这些CNN模型无法扩展,因此人们对这些神经网络的兴趣急剧下降,计算机视觉研究人员又开始利用人类知识来创建更好的系统。2012年,研究人员利用GPU(一种通常用于生成计算机图形(游戏、CGI 等的流行硬件)的计算效率,开发出一种新的 CNN。这让他们达到了令人难以置信的性能,超过了当时所有其他可用的方法。这个网络被称为 AlexNet,它引发了深度学习革命。
图 20:90 年代的神经网络只能处理低分辨率的数字图像
图 21:2012 年的神经网络(AlexNet)能够处理复杂图像,其性能优于所有其他方法。
人工智能技术的升级是必然的,因为计算成本总是越来越低。用于ZK和FHE等技术的定制硬件将加速进展——Ingonyama等公司和学术界正在铺平道路。从长远来看,我们将通过应用更强的计算能力和提高效率来实现大规模的ZKML。唯一的问题是,我们将如何利用这些技术?
图 22:ZK 证明器硬件进步的一个例子
扩展数据: 随着人工智能模型规模和复杂性的增长,有必要相应地扩展数据集。一般来说,数据集的规模应与模型规模成指数增长,以防止过度拟合并确保性能稳定。对于一个拥有数十亿参数的模型来说,这往往意味着要策划包含数十亿token或示例的数据集。例如,谷歌的BERT模型是在包含超过25亿个单词的整个英文维基百科和包含约8亿个单词的BooksCorpus上进行训练的。而Meta的 LLama则是在1.4万亿个词库的基础上进行训练的。这些数字强调了我们所需的数据集的规模——随着模型向万亿个参数发展,数据集必须进一步扩大。这种扩展可以确保模型能够捕捉到人类语言的细微差别和多样性,因此开发庞大、高质量的数据集与模型本身的架构创新同样重要。Giza、Bittensor、Bagel和FractionAI等公司正在满足这一领域的特殊需求(有关数据领域的挑战,如模型崩溃、对抗性攻击和质量保证方面的挑战,详见第 5 章)。
开发通用方法: 在去中心化人工智能领域,ZKPs和FHE等技术采用针对具体应用的方法是为了追求立竿见影的效率。为特定架构量身定制解决方案可提高性能,但可能会牺牲长期灵活性和可扩展性,从而限制更广泛的系统演进。相反,专注于通用方法提供了一个基础,尽管最初会有效率低下的问题,但具有可扩展性,能够适应各种应用和未来的发展。在摩尔定律等趋势的推动下,随着计算能力的增长和成本的降低,这些方法必将大放异彩。在短期效率和长期适应性之间做出选择至关重要。强调通用方法可以为去中心化人工智能的未来做好准备,使其成为一个稳健、灵活的系统,充分利用计算技术的进步,确保持久的成功和相关性。
3.2.1 结论
在产品开发的早期阶段,选择不受规模限制的方法可能至关重要。这对公司和研究人员评估用例和想法都很重要。然而,惨痛的教训告诉我们,从长远来看,我们应该始终牢记优先选择通用的可扩展方法。
这里有一个手动方法被自动、通用微分所取代的例子:在使用TensorFlow和PyTorch等自动微分(autodiff)库之前,梯度通常是通过手动或数值微分来计算的——这种方法效率低、容易出错,而且会产生问题,浪费研究人员的时间,而自动微分则不同。现在 Autodiff已成为不可或缺的工具,因为autodiff库加快了实验速度,简化了模型开发。因此,通用解决方案获胜了——但在autodiff成为成熟可用的解决方案之前,旧的手动方法是进行ML研究的必要条件。
总之,里奇·萨顿的"苦涩的一课"告诉我们,如果我们能最大限度地提高人工智能的计算能力,而不是试图让人工智能去模仿人类所熟知的方法,那么人工智能的进步将会更快。我们必须扩展现有计算能力、扩展数据、创新硬件并开发通用方法——采用这种方法将对去中心化人工智能领域产生诸多影响。尽管"苦涩的一课"不适用于研究的最初阶段,但从长远来看,它可能永远都是正确的。
3.3 AI Agents(人工智能代理)将颠覆谷歌和亚马逊
3.3.1 谷歌的垄断问题
在线内容创作者通常依赖谷歌来发布他们的内容。反过来,如果允许谷歌索引和展示他们的作品,他们就能获得源源不断的关注和广告收入。然而,这种关系是不平衡的;谷歌拥有垄断地位(超过80%的搜索引擎流量),其市场份额是内容创作者自身无法企及的。因此,内容创作者的收入严重依赖于谷歌和其他科技巨头。谷歌的一个决定就有可能导致个人业务的终结。
谷歌推出的精选片段(Featured Snippets)功能——显示用户查询的答案,而无需点击进入原始网站——突出了这一问题,因为现在无需离开搜索引擎就能获得信息。这打乱了内容创建者赖以生存的规则。作为被谷歌索引其内容的交换条件,内容创建者希望自己的网站能获得推荐流量和眼球。取而代之的是,精选片段(Featured Snippets)功能允许谷歌总结内容,同时将创作者排除在流量之外。内容生产者的分散性使他们基本无力采取集体行动反对谷歌的决定;由于没有统一的声音,单个网站缺乏讨价还价的能力。
图 23:Featured Snippets示例
谷歌通过提供用户查询答案的来源列表进行了进一步试验。下面的示例包含《纽约时报》、维基百科、MLB.com等网站的来源。由于谷歌直接提供了答案,这些网站不会获得那么多流量。
图 24:Featured Snippets中 “来自网络”功能示例
3.3.2 OpenAI 的垄断问题
谷歌推出的“精选片段”功能代表了一种令人担忧的趋势——减少原创内容创作者的认可。ChatGPT将这一概念进行了逻辑上的延伸,充当了一个无所不知的信息代理,没有任何链接,也没有对原始材料的引用。
像ChatGPT这样的语言模型可以通过总结从互联网上搜罗的内容来回答几乎任何问题,但它无法引导用户访问原始出版者。相反,该模型将从版权作品中获得的知识积累到一个完全由OpenAI 控制的单一界面中。
这些模型的成功依赖于构成互联网的海量数据,而内容创作者对模型训练的重要投入却得不到任何回报。一些规模较大的出版商设法与OpenAI等公司达成协议,但对于规模较小的内容创作者来说,这样的做法是不可行的。还有一些出版商决定干脆阻止人工智能模型搜索他们的内容,但对于闭源模型来说,这一点无法得到保证。
人工智能公司试图为自己的不赔偿行为辩解,称人工智能系统只是从内容中学习——就像人类从阅读中了解世界一样——但在产出内容时并没有侵犯内容创作者。不过,这种说法值得商榷,因为ChatGPT可以逐字逐句地复制《纽约时报》的整篇文章。Midjourney 和 DALL-E 也能生成受版权保护的内容。 其影响显而易见——大科技公司继续巩固权力,而无关联的内容创作者的影响力却在减弱。这种不对称的关系引发了对谷歌的诉讼,而这种关系只会变得更加极端。老牌出版商,如纽约时报已经采取了法律行动,从数字艺术家到编码员等一系列内容创作者也采取了集体诉讼。
一种建议的解决方案是"检索增强生成"(RAG),它允许语言模型为其答案提供来源。然而,这与”精选片段“存在同样的问题——它根本没有给用户任何访问原始网站的理由。更糟糕的是,科技巨头们可以虚伪地利用RAG作为法律掩护,但同时仍剥夺了创作者的流量和广告收入。
图 25:RAG将链接作为来源,此结果由 Perplexity AI 生成
3.3.3 加密领域的潜在解决方案
随着像ChatGPT这样的"信息代理"的出现,大科技公司似乎准备重蹈覆辙,垄断人工智能的生成,尽管它们依赖的是未经认可的创作者内容。但是,现在人工智能正在扰乱市场,我们有机会重新分配权力,建立一个更公平的系统来补偿创作者。本世纪初,政策制定者错失了建立公平模式的机会,导致了今天的分配系统——一个由谷歌垄断的系统。当前人工智能的崛起是一个十字路口,我们是要纠正过去的错误,还是要让历史重演,让 OpenAI 和其他科技巨头获得单方面的控制权?
为了长期激励优质内容的生产,我们必须探索继续为创作者提供公平报酬的方法。正如克里斯-迪克森(Chris Dixon)所言,加密货币通过区块链提供了一种解决方案,即充当集体谈判机器,解决类似的大规模经济协调问题,尤其是在当前权力不对称的情况下。它们的治理可以由创作者和人工智能提供商共同管理。
在人工智能方面,创造者可以利用区块链的能力来编写由软件强制执行的使用条款和规定相关限制。例如,通过设定模型训练等商业应用的条件。然后,智能合约将自动执行归属系统,将人工智能系统产生的部分收入分配给贡献者。(在没有只能合约的情况下)即使目前的人工智能公司想要补偿创作者,但是由于人数太多也不太可行。
区块链的可组合性还将减少对任何单一模式的依赖,从而实现更自由的人工智能市场。这种竞争将为创作者带来更友好的利润分享。面对由公正协议执行的统一条款,人工智能公司要么接受创作者制定的集体协议,要么只能放弃;科技巨头再也不能对个人施加单方面的影响力。
对ChatGPT等信息代理的集中控制也引发了对嵌入式广告等问题的担忧。虽然谷歌在搜索结果的顶部对广告进行了明确划分,但AI agents可以将付费推荐无缝整合到回复中。相比之下,基于加密领域的解决方案允许对AI agents进行审计。
3.3.4 人工智能代理(AI Agents)与亚马逊
从像ChatGPT这样回答语言模型自然延伸出来的是可以代表用户采取行动的人工智能程序,即从信息代理到行动代理(简称"代理")的转变。这些系统不仅能为你找到最好的蓝牙音箱,还能直接订购送货到家。依靠OpenAI等公司的闭源代理来完成这些任务,将赋予它们超越内容创作市场的巨大力量,有可能让它们主导 6.3 万亿美元的电子商务市场等行业。OpenAI不仅会成为下一个谷歌,也会成为下一个亚马逊。
如果少数几家大型科技公司拥有功能最强大、应用最广泛的人工智能代理,那么它们将对消费者和各行各业产生巨大的影响力。这些代理将对我们越来越广泛的数字生活——购物、旅行和理财——起到中介作用。如果没有人工智能代理,我们就只能依赖 OpenAI或谷歌这样的公司。它们的闭源代理将成为网络世界的守门人,控制我们对关键服务和信息的访问,而且它们可以修改代理的行为,而无需承担任何责任。
这种专有人工智能的权力集中与谷歌和Facebook等大型科技垄断企业的崛起有相似之处。但是,当人工智能代理可以跨领域无缝地采取行动时,其影响将呈指数级增长。这就是去中心化的区块链替代方案如此重要的原因——它们引入了竞争、用户授权和透明度,能够抵御人工智能代理被大型科技公司垄断的风险。
总之,像ChatGPT这样的人工智能模型为我们提供了信息代理,可以代表我们阅读内容并回答问题。这不仅会颠覆我们消费信息的方式,也会颠覆谷歌的商业模式和创作者赖以生存的规则。在这种颠覆面前,我们有机会建立一个对创作者的工作和贡献更公平地产生回报的新互联网。
能够采取行动人工智能代理(例如在线购买商品)的区块链技术将颠覆电子商务。区块链再次为建立公平的互联网模式提供了机会。我们能否从谷歌和亚马逊时代的错误中吸取教训?
3.4 加密领域将加速人工智能的开源技术的发展
3.4.1 人工智能现在处于什么阶段?
目前,人工智能已成为21世纪发达社会的主要工具。人工智能的应用范围包括艺术、教育、金融、政治、编程以及更多其他应用。只需有限的提示,它就能在几秒钟内生成逼真的视频和图像。程序员已经开始使用人工智能来开发高效实用的代码,将自己的劳动外包给人工智能。现实世界与科幻小说之间的界限正在随着人工智能在我们社会中的每一次应用而变得越来越模糊。
因此,我们很可能会面临劳动力危机。如果我们能够将大量的智力劳动外包给人工智能,那么从经济角度来看,使用人工智能可能很快就会比使用人类劳动力更有优势。如果人类劳动力被人工智能取代,我们就需要适应劳动力市场的这种新状态。这种适应将导致我们当前经济系统的运作方式发生混乱。本节将讨论人工智能的发展方向,以及通过加密技术解决方案防止此类危机发生的方法。
3.4.2 我们为什么要关注开源人工智能?
一般来说,开源软件是开放给任何人使用的软件,通常附有许可证,说明可以使用该软件、和不可以使用该软件做什么。开源人工智能是指人工智能软件开放给任何人使用,并通过许可证提供类似的限制。开源项目在通常采取自由参与产品开发的组织形式。它以社区为中心,社区欢迎代码贡献和错误修正,往往具有协作性质。本节将说明人工智能开源的重要性。
人工智能技术的开源可以用来创造一个更具竞争力的人工智能市场。竞争是件好事,因为在开发产品的过程中,有各种各样的人拥有不同的才能和不同的技术水平。假设有一家公司才济济,但却犯了一个大错误,那么竞争性市场就会鼓励人们去弥补这个错误,从而限制错误造成的损害。开源人工智能降低了人们进入人工智能市场的门槛,任何人都可以使用人工智能软件并做出贡献。由于任何人都可以通过开源人工智能进入市场,这就意味着市场上有了更多的竞争者,使该行业的竞争比现在激烈得多。
通过开源人工智能技术可用于保护行业免受恶意伤害。技术是一种强大的工具,但其本身是中性的。它可以用来造福人类,也可以用来危害人类,这取决于技术掌握在谁的手中。我们更希望有好的行为者来掌握这项技术,尤其是为了对抗那些利用技术来伤害人类的行为者。通过开源可以让更多的好人和人才进入人工智能行业。这样可以有效打击那些希望利用人工智能造成危害的人,减少使用人工智能的邪恶势力将使世界更加安全。
此外,人工智能行业的准入门槛降低,人才和技能库得以释放,会促进行业的进一步发展。人工智能能为我们人类带来进步。我们已经概述了其目前的广泛应用,但其仍由巨大的发展潜力,这对我们人类的进步大有裨益。通过开源人工智能技术可以降低人才进入该行业的门槛,从而加速人工智能的发展。更多的人才意味着我们可以制造出更好的人工智能,在社会中得到更广泛的应用。开源人工智能为我们提供了一个工具,让我们能够获得开发这项技术的人才和能力的源泉。
人工智能技术的开源为开发人员提供了自由空间,他们可以根据自己的需要指定和定制人工智能。人工智能的一个特点是可以为特定目的进行定制。定制的人工智能可以满足特定的需要和需求,从而大大提高产品的质量。由于目前人工智能行业的封闭性,开发者定制人工智能软件的能力往往受到限制。开源的人工智能技术将允许开发者自由定制,使他们的产品达到最佳效果。这种自由将带来更好的市场,也将带来更好的产品。
总结来看,”技术-资本“是一个永久增长的机器。通过市场获得的资本推动技术发展,市场通过技术发展创造更多资本,从而形成良性循环。开源人工智能提供了一个竞争、低门槛、自由和协作的空间,这会促进创新和人工智能技术的传播,从而刺激经济增长和更多市场(需求)。这对行业的发展能力和造福人类都至关重要。
3.4.3 OpenAI与开源人工智能
在人工智能行业,领先的公司是OpenAI。自2022年发布ChatGPT以来,OpenAI 已在利润和知识方面领跑人工智能行业。他们拥有Microsoft和大科技公司的支持,因此在人工智能市场根基很深。从目前来看,要让开源人工智能与OpenAI在同一水平线上竞争,似乎是一场艰苦的战斗。然而,我们有充分的理由认为,开源人工智能有望在市场上挑战并击败 OpenAI。
将人工智能技术开源能够规避恐惧的政府对人工智能行业实施的监管。目前,世界各地的政府和监管机构都在争相监管和限制新兴的人工智能产业。这种监管的目标是OpenAI所使用的传统人工智能,即由单一组织集中管理和保存的人工智能。这种监管将限制人工智能行业的发展。然而,开源的人工智能项目具有可以没有管理者的优势,而且是去中心化的。这意味着政府很难对开源的人工智项目能进行监管。这就为其提供了一个优势,即未来不会像OpenAI那样受到法规的限制。
此外,我们还看到,开源的人工智能技术和项目可以从OpenAI中获益,而OpenAI却无法从它们中获益。OpenAI的主要目标是实现自身利益的最大化,这意味着他们将大量模型和数据保密,以防止竞争对手利用这些模型和数据为自己谋利。开源人工智能可以使用许可证来阻止OpenAI从不太规范的开发中获益。OpenAI会发现自己在市场中孤立无援,因为他们只是一家公司,而使用开源的人工智能技术和项目的机构却很多。这将意味着,开源公司可以通过限制OpenAI的访问权限,从OpenAI丰富的数据和知识中获益。不过,可能需要新的许可证才能最终为OpenAI提供这种访问权。
最后,与OpenAI相比,开源的技术很有可能吸引那些热衷于改善人工智能的意识形态人士。这是因为它的准入门槛很低。然而,有人可能会认为,这将导致难以协调和开发产品的情况。然而,这类项目并不需要很多人。Linux的Linus Torvalds 就是这样一个例子,一个人持续不断地为项目做出贡献,就能产生如此巨大的影响。OpenAI的准入门槛较高,因此很难吸引有热情的人加入。
尽管现在看来,OpenAI已经牢牢控制了人工智能行业,但开源的人工智能项目可以依靠几条路线来挑战OpenAI的控制。其灵活性、可访问性以及以社区为中心而非以利润为中心的人工智能方法,意味着它拥有强大的工具,可以通过在不断发展和动态的市场中孤立它们来击败OpenAI。它们有潜力击败OpenAI。
3.4.4 人工智能技术开源的问题
然而,开源的人工智能技术要想与大型科技公司和OpenAI抗衡,还必须克服一些障碍。这些障碍可分为三个类。首先,这个领域缺乏人才。其次,这些项目和技术缺乏实际工作所需的计算能力。第三,缺乏可供人工智能自我训练和发展的数据。本节将专门阐述这三个问题。
任何组织要想正常运转,都需要人才来提供开发产品所需的创新理念和工作。开源的人工智能项目面临的一个主要问题是,在这些社区工作没有利润或金钱激励。大多数人工智能工程师在决定在以下领域工作时不得不做出选择,要么在大科技公司从事高薪工作,要么冒险创业。安全的选择,也就是大多数人的选择,是在大科技公司工作并在那里谋生。最优秀的人才都去了OpenAI,而不是在没有金钱激励的开源人工智能社区工作。因此,这个领域无法吸引最优秀的人才,也就无法开发出能够挑战大型科技公司的创新产品。
另一个问题是,开源的人工智能项目缺乏必要的计算能力,无法达到OpenAI所能达到的规模。更大规模的人工智能需要更多的GPU来扩大运行规模。GPU价格昂贵,实际上只有 Nvidia一家公司生产。这些开源项目缺乏资金意味着很难为AI模型提供足够的计算能力,从而与OpenAI的ChatGPT竞争。即使是在软件工程方面拥有高质量标准的Linux,也受限于其程序的计算规模。它们缺乏随意访问超级计算机的能力,因此很难与拥有这种特权的OpenAI竞争。
人工智能模型需要数据来训练。尽管Meta和OpenAI等大型科技公司标榜自己是"开放"或"开源"的,但它们用于训练人工智能的数据都是私有的,只对自己开放。它们只公布完成后的人工智能模型,如ChatGPT。这些数据来自Meta 和OpenAI的海量用户群,质量和数量都很高。开源的人工智能项目劣势在于无法获得大量的高质量数据,因此无法使用最好、最多的数据来训练人工智能模型,从而无法与Meta或OpenAI 竞争。因此无法开发出能与 OpenAI 或 Meta 的产品相抗衡的产品。
这些开源的人工智能技术和项目需要的是克服这三大问题的方法,这三大问题阻碍了它们挑战大型科技公司对人工智能行业控制的潜力。我们认为,加密技术可以解决它们的这些问题。
3.4.5 加密领域 (crypto) 的人工智能开源解决方案
我们相信,加密技术可以解决上一节概述的所有三个问题。本节将专门针对每个具体问题提出解决方案。
首先,加密货币可以通过在人工智能领域的开源项目中创建收入/奖励系统来解决人才问题。加密货币可以通过为项目贡献提供内在激励来帮助这些项目运转。这方面的一个例子是AGI Guild,这是一个由意识形态开源开发者组成的团体,他们创造了一个许可证,可以奖励为开源项目做出贡献的开发者。
许可证由AGI代币管理。超过100万美元规模的公司必须获得AGI代币才能使用许可证。然后代币将分配给开源人工智能项目的贡献者。这既是对开发者的金钱奖励,也赋予了代币本身的价值,从而鼓励更多的贡献。此外,还有投票系统供成员集体决定项目的发展方向,在开源人工智能领域鼓励任人唯贤和民主,同时获得从开源人工智能中赚钱的能力。
由于现在有了金钱上的激励,未来和现在的人才将不需要把自己的道路视为要么安全地选择Meta,要么在风险投资上孤注一掷,而是看到了第三条道路,即你可以在开发人工智能的过程中赚钱,而不必受到大型科技公司的专有限制。人才将被开源人工智能项目所吸引,将其视为对抗大型科技公司的可行竞争对手。
其次,加密技术可降低访问服务器门槛来解决计算问题。过去,云厂商可能会拒绝开发人员使用其服务器来开发产品。有了加密技术,现在变得无需许可,这意味着任何人都可以获得他们的项目所需的计算能力。这意味着,使用开源人工智能和加密技术的开发人员现在可以根据自己的需要自由使用尽可能多的计算资源。
加密技术还为开发者和社区提供了与云厂商讨价还价的能力。在过去很短的时间内,云厂商可以提高使用价格,因为开源人工智能开发者需要他们的服务器来运行他们的程序。现在,有了加密技术,我们可以将这一系统去中心化,开始挑战云厂商的价格,为更多想要开发开源人工智能的人敞开大门。 现在,社区有办法也有能力向AWS等云计算公司提出挑战,要求降低价格,从而提高产品质量和工作质量。
最后,加密技术可以解决数据问题,帮助那些为开源人工智能项目生成数据的用户提供奖励。这方面的一个例子是Grass,它有一个浏览器插件,可以在用户浏览互联网时生成代币。这种奖励制度意味着,随着时间的推移,随着加密应用提供更多的数据,开源的人工智能项目就能够获得越来越多的数据。这是以去中心化的方式实现的,这意味着我们不会陷入监管机构或大型科技公司发现这一问题并采取禁止IP地址等措施加以阻止的问题。这种方式无法有效阻止,因为有很多人都在使用这种插件,封禁一个人对其他人获取这些数据几乎没有影响。这样一来,这些开源项目开发者就能获得和大公司一样好的数据。这无疑会提高人工智能模型的训练水平。即使是需要保密的数据,加密技术也能充分保护隐私,而且只要数据所属用户同意,加密技术也能对其进行获取,从而更好地使用人工智能模型。
总之,我们发现加密技术能够在爬取数据时满足数据敏感性要求,同时通过向开源人工智能程序更好地提供训练人工智能模型所需的数据。 我们所追求的理想是,开源人工智能系统打败基于闭源软件的私有系统。
机器学习如何工作?
在深入探讨人工智能(AI)与加密货币的交集之前,首先要单独介绍人工智能领域的一些概念。由于本报告是为加密货币领域的读者撰写的,读者并非都对人工智能和机器学习概念有深刻理解。而理解相关概念至关重要,这样读者才能评估人工智能和加密货币交叉领域的哪些想法具有实质意义,并准确评估项目的技术风险。本节重点介绍人工智能的概念;此外,本节也重点介绍了人工智能与加密货币之间的关系。
通过本章的提示,我们可以了解人工智能概念与加密领域的关系。
本节所涉主题概述:
机器学习(machine learing, ML)是人工智能的一个分支,在这个分支中,无需明确编程,机器就能通过数据做出决策。
ML流程分为三个步骤:数据、训练和推理。
训练模型的计算成本非常高,而推理则相对便宜。
学习主要有三种类型:监督学习、无监督学习和强化学习。
监督的学习是指从范例(由教师提供)中学习。教师可以向模型展示狗的图片,并告诉它这就是狗。然后,模型就能学会将狗与其他动物区分开来。
然而,许多流行的模型,如LLMs(如GPT-4和LLaMa),都是通过无监督学习来训练的。在这种学习模式中,教师不会提供任何指导或示例。相反,模型通过学习来发现数据中的模式。
强化学习(试错学习)主要用于连续决策任务,如机器人控制和游戏(如国际象棋或围棋)。
机器学习(machine learing, ML)是人工智能的一个分支,在这个分支中,无需明确编程,机器就能通过数据做出决策。
ML流程分为三个步骤:数据、训练和推理。
训练模型的计算成本非常高,而推理则相对便宜。
学习主要有三种类型:监督学习、无监督学习和强化学习。
监督的学习是指从范例(由教师提供)中学习。教师可以向模型展示狗的图片,并告诉它这就是狗。然后,模型就能学会将狗与其他动物区分开来。
然而,许多流行的模型,如LLMs(如GPT-4和LLaMa),都是通过无监督学习来训练的。在这种学习模式中,教师不会提供任何指导或示例。相反,模型通过学习来发现数据中的模式。
强化学习(试错学习)主要用于连续决策任务,如机器人控制和游戏(如国际象棋或围棋)。
1.1 人工智能和机器学习
1956 年,一些当时最聪明的人聚集在一起参加了一个研讨会。他们的目标是提出智力的一般原则。他们指出:
"学习的每一个方面或智能的任何其他特征都可以被如此精确地描述出来,以至于可以制造一台机器来模拟它。"
在人工智能发展的早期,研究人员充满了乐观主义。从某种意义上说,他们的目标是人工通用智能(AGI),雄心勃勃。我们现在知道,这些研究人员并没有设法创造出具有通用智能的人工智能代理。70 年代和 80 年代的人工智能研究人员也是如此。在那个时期,人工智能研究人员试图开发 "基于知识的系统"。
基于知识的系统的关键理念是,我们可以为机器编写非常精确的规则。从本质上讲,我们从专家那里提取非常具体和精确的领域知识,并以规则的形式写下来供机器使用。然后,机器就可以利用这些规则进行推理并做出正确的决定。例如,我们可以尝试从马格努斯·卡尔森(Magnus Carlson)那里提炼出下棋的所有原则,然后构建一个人工智能来下棋。
然而,要做到这一点非常困难,即使有可能,也需要大量的人工来创建这些规则。试想一下,如何将识别狗的规则写入机器?机器如何才能从拥有像素到知道狗是什么?
人工智能的最新进展来自于一个被称为 "机器学习 "的分支。在这种模式下,我们不是为机器编写精确的规则,而是使用数据,让机器从中学习。使用机器学习的现代人工智能工具随处可见,例如 GPT-4、iPhone 上的 FaceID、游戏机器人、Gmail 垃圾邮件过滤器、医疗诊断模型、自动驾驶汽车......等等。
1.2 机器学习管道(pipeline)
机器学习管道可分为三个主要步骤。有了数据,我们要训练模型,然后有了模型,我们就可以使用它。使用模型称为推理。因此,这三个步骤分别是数据、训练和推理。
高度概括来说,数据步骤包括查找相关数据并对其进行预处理。例如,如果我们要建立一个对狗进行分类的模型,我们需要找到狗和其他动物的图片,这样模型才能知道什么是狗,什么不是狗。然后,我们需要对数据进行处理,并确保数据格式正确,以便模型能够正确学习。例如,我们可能要求图片大小一致。
第二步是训练,我们利用数据来学习模型应该是什么样的。模型内部的方程是什么?神经网络的权重是多少?参数是什么?正在进行的计算是什么?如果模型不错,我们就可以测试它的性能,然后就可以使用它了。这就到了第三步。
第三步称为推理,即我们只是使用神经网络。例如,给神经网络一个输入,然后问一个问题:可以通过推理产生输出吗?
图 28:机器学习管道的三个主要步骤是数据、训练和推理
1.2.1 数据
现在,让我们深入了解一下每个步骤。第一:数据。广义上讲,这意味着我们必须收集数据并对其进行预处理。
让我们来看一个例子。如果我们想建立一个供皮肤科医生(专门治疗皮肤病的医生)使用的模型。我们首先要收集许多人脸的数据。然后,我们请专业皮肤科医生来评估是否存在皮肤病。现在可能会出现许多挑战。首先,如果我们拥有的所有数据都包括人脸,那么模型将很难识别身体其他部位的任何皮肤状况。其次,数据可能存在偏差。例如,大部分数据可能是一种肤色或色调的图片。第三,皮肤科医生可能会犯错,这意味着我们会得到错误的数据。第四,我们获得的数据可能会侵犯隐私。
经济激励措施有助于收集高质量的数据,而隐私保护技术可以解决用户在上述例子等敏感环境中的顾虑。
我们将在第2章中介绍更深层次的数据挑战。不过,这可以让你了解到,收集好的数据并对其进行预处理是相当具有挑战性的。
图 29:两个流行数据集的示意图。MNIST包含手写数字,而ImageNet包含数百万张不同类别的注释图像
在机器学习研究中,有许多著名的数据集。常用的有:
MNIST数据集
说明:包含70,000个灰度图像格式的手写数字(0-9)
使用案例:主要用于计算机视觉中的手写数字识别技术。它是一个对初学者友好的数据集,通常用于教育领域。
ImageNet
说明:一个包含1,400多万张图片的大型数据库,标注有20,000多个类别的标签。
使用案例:用于对象检测和图像分类算法的训练和基准测试。一年一度的ImageNet大规模视觉识别挑战赛(ILSVRC)一直是推动计算机视觉和深度学习技术发展的重要活动。
IMDb评论
说明:包含来自 IMDb的50,000篇电影评论,分为两组:训练和测试。每组包含相同数量的正面和负面评论。
使用案例:广泛应用于自然语言处理(NLP)中的情感分析任务。它有助于开发能理解文本中表达的情感(正面/负面)并对其进行分类的模型。
MNIST数据集
说明:包含70,000个灰度图像格式的手写数字(0-9)
使用案例:主要用于计算机视觉中的手写数字识别技术。它是一个对初学者友好的数据集,通常用于教育领域。
ImageNet
说明:一个包含1,400多万张图片的大型数据库,标注有20,000多个类别的标签。
使用案例:用于对象检测和图像分类算法的训练和基准测试。一年一度的ImageNet大规模视觉识别挑战赛(ILSVRC)一直是推动计算机视觉和深度学习技术发展的重要活动。
IMDb评论
说明:包含来自 IMDb的50,000篇电影评论,分为两组:训练和测试。每组包含相同数量的正面和负面评论。
使用案例:广泛应用于自然语言处理(NLP)中的情感分析任务。它有助于开发能理解文本中表达的情感(正面/负面)并对其进行分类的模型。
获取大型、高质量的数据集对于训练良好的模型极为重要。然而,这可能具有挑战性,尤其是对于较小的组织或个人搜索者而言。由于数据非常宝贵,大型机构通常不会共享数据,因为数据提供了竞争优势。
在透明度和开放性与盈利能力之间取得平衡的解决方案可以提高开放数据集的质量。
1.2.2 训练
管道的第二步是训练模型。那么,训练模型究竟意味着什么呢?首先,我们来看一个例子。一个机器学习模型(训练完成后)通常只有两个文件。例如,LLaMa 2(一个大型语言模型,类似于 GPT-4)就是两个文件:
参数,一个 140GB 的文件,其中包括数字。
ru ...[TRUNCATED]
