谷歌正式宣布巴德将免费创作照片，无限续充让人疯狂！顶级模特之间的第一手实测对战

2024-10-16 01:20:21 | 作者: 匿名

日前，Google Bard瞬间跃居LLM排行榜第二位，超越GPT-4，AI圈瞬间炸了。

“巴德什么时候变得这么支持了？”

事实证明，这也不无道理。

刚刚，谷歌官方宣布，在最新版本Gemini Pro的支持下，巴德不仅在推理、理解、总结、编码能力方面实现了快速提升，而且还可以支持超过40种语言230多个国家。

与此同时，谷歌“只能炫耀图片而无法实际使用”的至尊文森特图像模型Imagen 2也已免费集成到Bard中！

Vincent 地图功能还可以在Google 的ImageFX、Search 和Vertex AI 上体验

巴德的画风有多强？

去年12月，谷歌推出了最新的Imagen 2模型，可以实现高质量、逼真的输出。

虽然生成的效果很惊人，但不少网友吐槽：不开源就没啥用。

向左或向右滑动即可查看

现在，大家可以开始尝试一下Imagen 2 的功能了。首先我们来看看Google 官方提供的很多Bard 生成图像的例子。

例如，生成一只脚踩在冲浪板上的狗。

Bard 生成了更多精彩图像：

提示：生成拼贴艺术，其中包含具有柔和色彩和3D 阴影的海洋和植物的逼真图像，这就是混合媒体。

提示：写一篇社交媒体帖子并生成一张令人垂涎的图像，我可以将其用于水牛翅节。

提示：用蒸汽朋克风格的数字艺术生成时装秀的图像。放大他们的脸。

提示：生成一辆未来汽车行驶在被大自然包围的古老山路上的图像。

提示：生成一个充满活力和生动的图像，描绘一头大象在郁郁葱葱、生机勃勃的丛林中心聚会。大象应该有各种颜色，并装饰有有趣的配饰。

提示：生成一个杂乱的炼金术士工作室的图像，里面充满了冒泡的烧瓶、发光的晶体以及瓶子内旋转的微小发光世界。

提示：生成一个人在日落时看着镜头的真实照片。肖像模式，背景变淡。

为了负责任的生成，Bard 生成的图像将使用SynthID 进行标记。

SynthID 是Google DeepMind 开发的水印工具，可将数字水印直接嵌入到我们生成的图像的像素中。 SynthID 的水印人眼无法察觉，但可检测以进行识别。

很多网友的评论

网友Pete Blackshaw用Bard生成了“一只长着喇叭的贵宾犬”，看起来就像是在抽着一根大烟。

他还使用相同的提示“用历史悠久的明轮车绘制#辛辛那提天际线”让巴德与GPT-4 竞争。看Bard生成的图片，可能因为色调的缘故，更加真实。

另一位初创公司创始人Ryan Carson也在提示下分别测试了DALL·E 3和Bard。

他说，他仍然更喜欢DALL·E 3生成的图片，尽管它贵了32倍。此外，Bard 忽略了大小为1792x1024 的请求。

创建一个以狐狸为特色的等距视频游戏图块图像。该场景采用低多边形设计风格，这是视频游戏中现代数字插图的典型特征。瓷砖应以数字艺术风格渲染，柔和、温暖的灯光轻轻突出多面表面，强调极简主义美感。整体效果应传达宁静的简洁性，这是电子游戏或现代数字艺术中当代数字景观的特征。重点是狐狸，应该用几何形状渲染，保持等距和低多边形主题。 1792x1024。无徽标、文字或文字。

小编甚至觉得巴德的狐狸生动程度更像是《小王子》中的狐狸。

左：DALL·E 3；右：吟游诗人

另一位网友在Midjourney上尝试了一下，花费了0.04美元。

著名导演Yam Laranas用Bad画了一个“好莱坞摄影稻草人”。

网友Yam Laranas制作的寿司看起来很好吃。

马库斯自己用“画一只电子游戏刺猬”创造了一只刺猬。

网友Raj Goodman Anand 表示，他对巴德的图像生成能力感到震惊！它不仅视觉效果好，而且生成文本准确，这是DALL·E经常遇到的问题。

海绵宝宝吃墨西哥卷饼。

网友chientrm制作了一个火星系列。

从火星基地，到城市全景，到飞船，到室内环境，一切都已经想象过了。

向左或向右滑动即可查看

安德鲁·C·贝克尔发现巴德可以用双手完美地绘画。

自称人工智能爱好者的爱德华尝试了四次，画出了一个蓝眼睛、棕色头发的女人。

与《中途》相比，面部图像的生成确实落后了很多。

一大波网友实测

卡通动画风格还是控制得很好。

宫本武藏.

禅宗花园。

魔法城堡。

失败案例

第一张图中，一头骑在马上的骆驼突然长出了一条人腿。

网友LoudEgg创造了一只七星瓢虫，它在喝啤酒，但它似乎在喝咖啡。

一边喝啤酒一边用电脑创造一只瓢虫

这些手的生成也失败了。

还有奇怪的，眼睛。

有些内容是巴德无法创造的。

谷歌正式宣布巴德将免费创作照片，无限续充让人疯狂！顶级模特之间的第一手实测对战

Bard/GPT-4/Midjourney 三家公司大战，用户最喜欢谁？

现在Bard已经发布使用，我们开始比较Bard、GPT-4（DALL·E 3）、Midjourney在相同提示词下图像质量和图像生成方面的差异。

每个公司都有自己的特点。 DALL·E 3 胜出结合GPT-4 后语义理解能力最强。只要用户能提出要求，他就可以画出来。

中途依然具有最强的审美表达力和多样的风格。

如果你想画出赏心悦目的图画，每月10美元的Midjourney仍然是最划算的选择。

Bard 获胜是因为它是免费的。毕竟，没钱对于很多偶尔体验的用户来说，真的很重要。

而且其风格一般都比较写实。如果你想轻松创建逼真、自然的图片，Bard 甚至比前两者更好。

我们先从一些简单的提示词开始，看看它们在处理更一般的提示词时有何不同。

请创建一桌美味的家庭晚餐的图像

诗人：

Bard生成的画面风格相当自然真实。光影和构图都非常接近照片，效果相当不错。

GPT-4：

GPT-4生成的图片内容更加丰富，甚至有点夸张，色彩和构图也更加动画化。

中途的效果更是惊人。尤其是下面两张图，和照片几乎一模一样。光影、食材的细节和真实感、相机的感觉都非常完美。

总结三家公司的表现，中程略胜一筹。

现在我们已经做了一顿丰盛的饭菜，让我们再试一次。如果我们想要生成一张简陋的饭菜，模型的性能会怎样？

请创建一张低质量家庭晚餐餐桌的图像

GPT-4 真的很容易在几秒钟内理解。只要改变同一个提示词的形容词，效果就会立即改变。语义理解能力和图像生成效果非常准确！

但中途似乎并没有注意到提示词的不同，依然端上了一桌子色香味俱全的菜肴，这甚至让我怀疑是不是提示词打错了。

再次确认提示词后，只能感叹该模型的提示词理解能力确实是OpenAI第一。

最令人惊讶的是，巴德也感应到了提示的变化，但它感觉提示词触动了它的护栏，拒绝绘画。

在我们的测试过程中，我们还发现巴德的安全护栏几乎是所有使用的AI产品中最敏感的。只要提示词中出现情绪基调“不那么中性”的词语，就有很大概率会触发护栏，生成的消息会被拒绝。

请创建一个家庭成员在电视上观看足球比赛的图像

接下来我们测试了与字符相关的简单提示词的图片生成效果。

巴德对于人物的处理还是不太好。手部和表情偶尔会扭曲，细节处理得不太好。不过，画风依然保持了比较真实简单的效果，“AI味”并不算太浓。

而且，巴德的画面构图方式会更加多样化，包括电视视角和其他角度的构图。

GPT-4的整体画面风格更加动画化，“AI味”更浓。

而从细节来看，GPT-4一直试图将更多的人和物体融入到画面中，给人一种饱满的感觉。巴德处理这个问题更加自然。

《中途旅行》依然延续了最多样的画面风格和最高的审美表达。唯一的缺点是构图看起来相当重复，没有太大变化。

还有一个小问题就是电视里面的风格和电视外面的风格好像不一致。比如右下的电视感觉比较真实，但电视外面的人物都是动画版的。感觉次元壁出了问题。

请创建一个哭泣的男孩在电视上观看卡通片的图像

我们让AI 生成一张小男孩在看动画片时哭泣的图片，并想测试AI 能否捕捉到另一个上下文中提示词的情感风格差异。

GPT-4 很好地渲染了该图像，与黑色房间作为背景相得益彰。

小男孩哭泣的表情也很到位。

而巴德仍然是一个老问题。当遇到负面情绪时，就会触发护栏，拒绝产生。

Midjourney产生的效果也非常好。不仅很好地捕捉了提示词的情感色彩变化，而且呈现出多样的构图和艺术风格。

然后，我们尝试了复杂提示词生成的效果，看看三种模型在提示词理解和图片效果上的差异。

打造黄昏时熙熙攘攘的城市街道的形象，充满生机和活力。场景设置在充满活力的市中心，夕阳为建筑物投射出温暖的金色色调。

不同背景的人们走在人行道上，有的匆忙，有的悠闲漫步，捕捉着城市生活的本质。其中，一位街头音乐家正在拉小提琴，为都市的喧嚣增添了悠扬的配乐。街头小贩排列在人行道上，出售从热食到手工工艺品的各种商品。该建筑融合了现代摩天大楼和历史建筑，展示了这座城市的动态发展和丰富的历史。

霓虹灯闪烁，邀请路人走进舒适的咖啡馆和熙熙攘攘的商店。这个详细的城市场景充满了城市生活的节奏，体现了黄昏时分大都市的混乱与秩序的和谐。

GPT-4确实可以很好地捕捉和还原提示词中的细节，而且内容非常丰富。

不过似乎为了追求丰富的细节，整体画面感觉有点不自然，好像是特意“上演”的，卡通风格有点太浓了。

巴德的画面整体上自然得多，并没有刻意绘制太多的人物来体现提示语中的细节。

而且画面的构图也相当多样，美术风格与画面内容非常契合。

这种风格也依赖于《中途》，细节丰富，美术风格多样，画面自然，甚至画面中所有人物的服装指数都是一致的，达到了美观与准确性的最佳平衡。

想象一座远离现代世界的古老图书馆，里面摆满了高耸的书架，里面摆满了旧书和卷轴，在昏暗的烛光下投下长长的影子。

空气中弥漫着陈旧纸张的气味和几个世纪以来知识的低语。中心的一张大木桌上，在悬挂灯笼的柔和光芒下，散落着开放的书籍和古代文物。

一位孤独的学者，穿着长袍，仔细阅读一份古老的手稿，用羽毛笔做笔记。在他周围，墙壁上装饰着被遗忘的世界的地图和过去学者的肖像。

气氛是一种庄严和对智慧追求的崇敬。这个场景捕捉到了时间凝固的时刻，一个不受岁月流逝影响的学习圣地。

GPT-4仍然是图片细节最丰富的模型，这再次表明OpenAI对语言的把握特别强。但缺点是画面总是有点不自然，追求细节总感觉像是“舞台画”。

巴德觉得原本提示语中的很多气氛描述都没有办法表达出来。整体画面比较简单，丢失了更多细节。

整体来看，《中途》给人的感觉还是更像是一件艺术品，审美层次统一，细节还原，有氛围。

经过实际测试，可以明显看出三种图像生成AI的特性差异较大。不过，由于Bard是免费的，所以其效果还是略逊于两种付费模式。

用户评论

命里缺他

哇，谷歌这操作太牛了！巴德免费创作照片，这对我来说是个大福利啊！无限续充，简直让人疯狂！我要赶紧试试看，看看效果如何。

有5位网友表示赞同！

■孤独像过不去的桥≈

谷歌这是要放大招啊，巴德免费创作照片，感觉我的摄影技能要升级了。无限续充，这简直是摄影爱好者的福音！

有14位网友表示赞同！

十言i

哈哈，谷歌这招太绝了！巴德免费创作照片，无限续充，我都要忍不住去试试了。不过，顶级模特之间的对战，我也想看看。

有10位网友表示赞同！

采姑娘的小蘑菇

无限续充的政策太吸引人了，但我更想知道巴德免费创作照片的质量怎么样。顶级模特对战，这肯定精彩。

有8位网友表示赞同！

千城暮雪

谷歌这次真是大手笔，巴德免费创作照片，无限续充，让我都心动了。不过，我更期待看到模特们的实战对决。

有13位网友表示赞同！

oО清风挽发oО

巴德免费创作照片，无限续充，这听起来太酷了！我之前就听说过巴德，这次有机会免费使用，真是太幸运了。

有5位网友表示赞同！

葵雨

顶级模特之间的第一手实测对战，这听起来就让人兴奋！谷歌这次真是玩大了，巴德免费创作照片，无限续充，我必须去试试。

有12位网友表示赞同！

孤败

谷歌这次的动作太给力了，巴德免费创作照片，无限续充，感觉我要换手机了！只是，顶级模特对战，我担心会太专业，我这种小白能看懂吗？

有6位网友表示赞同！

一纸愁肠。

巴德免费创作照片，无限续充，这简直是摄影爱好者的狂欢！但我更想看看，这些顶级模特之间会如何对战。

有12位网友表示赞同！

残留の笑颜

谷歌这波操作，感觉我之前用的那些摄影软件都要下岗了。巴德免费创作照片，无限续充，我简直无法抗拒。

有5位网友表示赞同！

铁树不曾开花

顶级模特之间的对战，我虽然不是摄影爱好者，但也是个大粉丝。巴德免费创作照片，无限续充，这让我有了尝试的冲动。

有8位网友表示赞同！

强辩

谷歌这次真是搞了个大新闻，巴德免费创作照片，无限续充，感觉我以后拍照都不用愁了。只是，模特对战，我有点小紧张。

有6位网友表示赞同！

我一个人

巴德免费创作照片，无限续充，这让我想起了那个无限量的信用卡。不过，顶级模特对战，我还是第一次听说。

有16位网友表示赞同！

沐晴つ

谷歌这次太贴心了，巴德免费创作照片，无限续充，简直是摄影爱好者的天堂。不过，我更想看到模特们的实战表现。

有11位网友表示赞同！

挽手余生ら

巴德免费创作照片，无限续充，这让我想起了以前玩的游戏。只是，顶级模特对战，我有点担心自己能不能跟上节奏。

有16位网友表示赞同！

逃避

谷歌这次的动作太酷了，巴德免费创作照片，无限续充，感觉我离成为摄影师又近了一步。顶级模特对战，我必须去支持。

有11位网友表示赞同！

开心的笨小孩

无限续充的政策太吸引人了，巴德免费创作照片，我都不敢相信这是真的。只是，顶级模特对战，我更想看到他们背后的故事。

有11位网友表示赞同！

陌颜

谷歌这次真是太有创意了，巴德免费创作照片，无限续充，这让我对摄影有了新的认识。顶级模特对战，我迫不及待想看了。

有18位网友表示赞同！

南宫沐风

巴德免费创作照片，无限续充，这简直是摄影界的革命！不过，我更想看看那些顶级模特是如何在镜头下展现自己的。

有19位网友表示赞同！

单身i

顶级模特之间的第一手实测对战，这听起来就刺激。巴德免费创作照片，无限续充，感觉我离专业摄影不远了。

有14位网友表示赞同！

体育足球

谷歌正式宣布巴德将免费创作照片，无限续充让人疯狂！顶级模特之间的第一手实测对战

一大波网友实测

失败案例

用户评论

相关视频