谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-12
云内动力财报造假被严惩,律师提示维权还可报名加入 云内动力(000903)被处罚,股民索赔可期最新报道 东方通(300379)投资者索赔分析 具身机器人挤满“90后”,“学渣”王兴兴在前,“学霸”王鹤在后后续反转 环保设备行业董秘观察:碧兴物联潘海瑭仅大专学历 违规收到2次警示函 薪酬为74万元最新进展 英伟达打入龙国“机器人天团”,牵手宇树科技与银河通用这么做真的好么? 在岸人民币兑美元收盘报7.1818后续来了 环保设备行业董秘观察:亚光股份吴超群违规收到1次警示函 记入诚信档案 薪酬28万元行业倒数第二 罗博特科:ficonTEC与美国苹果公司有合作是真的? 富士莱:截至2025年7月31日股东总户数为13377户实时报道 云内动力(000903)被处罚,股民索赔可期官方已经证实 环保设备行业董秘观察:亚光股份吴超群违规收到1次警示函 记入诚信档案 薪酬28万元行业倒数第二记者时时跟进 英伟达“最被低估”的业务正像 “火箭飞船”一样迅猛发展 东方通(300379)投资者索赔分析 环保设备行业董秘观察:华宏科技朱大勇年龄55岁为行业内最年长 薪酬高为100万元 居行业第四 今日必读|建信基金:有不法分子伪造营业执照实施诈骗 锂矿板块多股涨停实测是真的 理想i8上市7天调整产品策略,是再造爆款节奏? 37万亿!美债总额创历史新高 美联储即将降息?学习了 超200亿市值PCB龙头强势入股!这家滤波器企业获2.69亿元战略融资是真的? 封神时刻又到了?创新药大火背后,真正推手浮出水面这么做真的好么? AI智能体会是下一场革命?曙光云给出答案这么做真的好么? 全国银行间同业拆借中心:简化境外央行类机构开户及联网材料后续来了 江特电机控股股东江特电气解除质押330万股官方通报 基金观点|海富通周雪军:股市超预期,周雪军后市怎么看? 一博科技:公司主要在高速PCB设计、SI/PI仿真分析方面为国内外众多芯片公司提供技术服务官方通报来了 最新信托公司监管评级下发中 已知最好评级为2级后续反转来了 最新信托公司监管评级下发中 已知最好评级为2级后续反转 牧原股份:业绩增长、港股上市拓出海赛道、多项ESG指标居行业末位是真的? 在岸人民币兑美元收盘报7.1818官方已经证实 比亚迪财报分析:牢牢占据国内第一地位,预计二季度营收同比增长21% 赵建:从黄金美元、债务美元到美元稳定币——国际货币体系的百年大变局最新报道 最新进展 小米集团2Q25预览:电车增势强劲伴随新一轮智能手机下行周期压力官方已经证实 继东方通(300379)公司,实控人也被立案,股民索赔可期 罗博特科:ficonTEC与美国苹果公司有合作实测是真的 百万吨乙烯项目获重大突破,这个国产装备打破国外垄断!官方通报 英伟达“最被低估”的业务正像 “火箭飞船”一样迅猛发展 环保设备行业董秘观察:楚环科技陈朝霞薪酬垫底 为28万元最新进展 牧原股份:业绩增长、港股上市拓出海赛道、多项ESG指标居行业末位反转来了 *ST汇科、*ST高鸿收到行政处罚事先告知书  投资者可参与索赔反转来了 际华集团(601718)被立案,股民索赔可期后续会怎么发展 富士莱:截至2025年7月31日股东总户数为13377户最新进展

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章