谷歌正式宣布巴德将免费创作照片,无限续充让人疯狂!顶级模特之间的第一手实测对战

2024-10-16 01:20:21 | 作者: 匿名

日前,Google Bard瞬间跃居LLM排行榜第二位,超越GPT-4,AI圈瞬间炸了。

“巴德什么时候变得这么支持了?”

事实证明,这也不无道理。

刚刚,谷歌官方宣布,在最新版本Gemini Pro的支持下,巴德不仅在推理、理解、总结、编码能力方面实现了快速提升,而且还可以支持超过40种语言230多个国家。

与此同时,谷歌“只能炫耀图片而无法实际使用”的至尊文森特图像模型Imagen 2也已免费集成到Bard中!

Vincent 地图功能还可以在Google 的ImageFX、Search 和Vertex AI 上体验

巴德的画风有多强?

去年12月,谷歌推出了最新的Imagen 2模型,可以实现高质量、逼真的输出。

虽然生成的效果很惊人,但不少网友吐槽:不开源就没啥用。

向左或向右滑动即可查看

现在,大家可以开始尝试一下Imagen 2 的功能了。首先我们来看看Google 官方提供的很多Bard 生成图像的例子。

例如,生成一只脚踩在冲浪板上的狗。

Bard 生成了更多精彩图像:

提示:生成拼贴艺术,其中包含具有柔和色彩和3D 阴影的海洋和植物的逼真图像,这就是混合媒体。

提示:写一篇社交媒体帖子并生成一张令人垂涎的图像,我可以将其用于水牛翅节。

提示:用蒸汽朋克风格的数字艺术生成时装秀的图像。放大他们的脸。

提示:生成一辆未来汽车行驶在被大自然包围的古老山路上的图像。

提示:生成一个充满活力和生动的图像,描绘一头大象在郁郁葱葱、生机勃勃的丛林中心聚会。大象应该有各种颜色,并装饰有有趣的配饰。

提示:生成一个杂乱的炼金术士工作室的图像,里面充满了冒泡的烧瓶、发光的晶体以及瓶子内旋转的微小发光世界。

提示:生成一个人在日落时看着镜头的真实照片。肖像模式,背景变淡。

为了负责任的生成,Bard 生成的图像将使用SynthID 进行标记。

SynthID 是Google DeepMind 开发的水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。 SynthID 的水印人眼无法察觉,但可检测以进行识别。

很多网友的评论

网友Pete Blackshaw用Bard生成了“一只长着喇叭的贵宾犬”,看起来就像是在抽着一根大烟。

他还使用相同的提示“用历史悠久的明轮车绘制#辛辛那提天际线”让巴德与GPT-4 竞争。看Bard生成的图片,可能因为色调的缘故,更加真实。

另一位初创公司创始人Ryan Carson也在提示下分别测试了DALL·E 3和Bard。

他说,他仍然更喜欢DALL·E 3生成的图片,尽管它贵了32倍。此外,Bard 忽略了大小为1792x1024 的请求。

创建一个以狐狸为特色的等距视频游戏图块图像。该场景采用低多边形设计风格,这是视频游戏中现代数字插图的典型特征。瓷砖应以数字艺术风格渲染,柔和、温暖的灯光轻轻突出多面表面,强调极简主义美感。整体效果应传达宁静的简洁性,这是电子游戏或现代数字艺术中当代数字景观的特征。重点是狐狸,应该用几何形状渲染,保持等距和低多边形主题。 1792x1024。无徽标、文字或文字。

小编甚至觉得巴德的狐狸生动程度更像是《小王子》中的狐狸。

左:DALL·E 3;右:吟游诗人

另一位网友在Midjourney上尝试了一下,花费了0.04美元。

著名导演Yam Laranas用Bad画了一个“好莱坞摄影稻草人”。

网友Yam Laranas制作的寿司看起来很好吃。

马库斯自己用“画一只电子游戏刺猬”创造了一只刺猬。

网友Raj Goodman Anand 表示,他对巴德的图像生成能力感到震惊!它不仅视觉效果好,而且生成文本准确,这是DALL·E经常遇到的问题。

海绵宝宝吃墨西哥卷饼。

网友chientrm制作了一个火星系列。

从火星基地,到城市全景,到飞船,到室内环境,一切都已经想象过了。

向左或向右滑动即可查看

安德鲁·C·贝克尔发现巴德可以用双手完美地绘画。

自称人工智能爱好者的爱德华尝试了四次,画出了一个蓝眼睛、棕色头发的女人。

与《中途》相比,面部图像的生成确实落后了很多。

一大波网友实测

卡通动画风格还是控制得很好。

宫本武藏.

禅宗花园。

魔法城堡。

失败案例

第一张图中,一头骑在马上的骆驼突然长出了一条人腿。

网友LoudEgg创造了一只七星瓢虫,它在喝啤酒,但它似乎在喝咖啡。

一边喝啤酒一边用电脑创造一只瓢虫

这些手的生成也失败了。

还有奇怪的,眼睛。

有些内容是巴德无法创造的。

谷歌正式宣布巴德将免费创作照片,无限续充让人疯狂!顶级模特之间的第一手实测对战

Bard/GPT-4/Midjourney 三家公司大战,用户最喜欢谁?

现在Bard已经发布使用,我们开始比较Bard、GPT-4(DALL·E 3)、Midjourney在相同提示词下图像质量和图像生成方面的差异。

每个公司都有自己的特点。 DALL·E 3 胜出结合GPT-4 后语义理解能力最强。只要用户能提出要求,他就可以画出来。

中途依然具有最强的审美表达力和多样的风格。

如果你想画出赏心悦目的图画,每月10美元的Midjourney仍然是最划算的选择。

Bard 获胜是因为它是免费的。毕竟,没钱对于很多偶尔体验的用户来说,真的很重要。

而且其风格一般都比较写实。如果你想轻松创建逼真、自然的图片,Bard 甚至比前两者更好。

我们先从一些简单的提示词开始,看看它们在处理更一般的提示词时有何不同。

请创建一桌美味的家庭晚餐的图像

诗人:

Bard生成的画面风格相当自然真实。光影和构图都非常接近照片,效果相当不错。

GPT-4:

GPT-4生成的图片内容更加丰富,甚至有点夸张,色彩和构图也更加动画化。

中途的效果更是惊人。尤其是下面两张图,和照片几乎一模一样。光影、食材的细节和真实感、相机的感觉都非常完美。

总结三家公司的表现,中程略胜一筹。

现在我们已经做了一顿丰盛的饭菜,让我们再试一次。如果我们想要生成一张简陋的饭菜,模型的性能会怎样?

请创建一张低质量家庭晚餐餐桌的图像

GPT-4 真的很容易在几秒钟内理解。只要改变同一个提示词的形容词,效果就会立即改变。语义理解能力和图像生成效果非常准确!

但中途似乎并没有注意到提示词的不同,依然端上了一桌子色香味俱全的菜肴,这甚至让我怀疑是不是提示词打错了。

再次确认提示词后,只能感叹该模型的提示词理解能力确实是OpenAI第一。

最令人惊讶的是,巴德也感应到了提示的变化,但它感觉提示词触动了它的护栏,拒绝绘画。

在我们的测试过程中,我们还发现巴德的安全护栏几乎是所有使用的AI产品中最敏感的。只要提示词中出现情绪基调“不那么中性”的词语,就有很大概率会触发护栏,生成的消息会被拒绝。

请创建一个家庭成员在电视上观看足球比赛的图像

接下来我们测试了与字符相关的简单提示词的图片生成效果。

巴德对于人物的处理还是不太好。手部和表情偶尔会扭曲,细节处理得不太好。不过,画风依然保持了比较真实简单的效果,“AI味”并不算太浓。

而且,巴德的画面构图方式会更加多样化,包括电视视角和其他角度的构图。

GPT-4的整体画面风格更加动画化,“AI味”更浓。

而从细节来看,GPT-4一直试图将更多的人和物体融入到画面中,给人一种饱满的感觉。巴德处理这个问题更加自然。

《中途旅行》依然延续了最多样的画面风格和最高的审美表达。唯一的缺点是构图看起来相当重复,没有太大变化。

还有一个小问题就是电视里面的风格和电视外面的风格好像不一致。比如右下的电视感觉比较真实,但电视外面的人物都是动画版的。感觉次元壁出了问题。

请创建一个哭泣的男孩在电视上观看卡通片的图像

我们让AI 生成一张小男孩在看动画片时哭泣的图片,并想测试AI 能否捕捉到另一个上下文中提示词的情感风格差异。

GPT-4 很好地渲染了该图像,与黑色房间作为背景相得益彰。

小男孩哭泣的表情也很到位。

而巴德仍然是一个老问题。当遇到负面情绪时,就会触发护栏,拒绝产生。

Midjourney产生的效果也非常好。不仅很好地捕捉了提示词的情感色彩变化,而且呈现出多样的构图和艺术风格。

然后,我们尝试了复杂提示词生成的效果,看看三种模型在提示词理解和图片效果上的差异。

打造黄昏时熙熙攘攘的城市街道的形象,充满生机和活力。场景设置在充满活力的市中心,夕阳为建筑物投射出温暖的金色色调。

不同背景的人们走在人行道上,有的匆忙,有的悠闲漫步,捕捉着城市生活的本质。其中,一位街头音乐家正在拉小提琴,为都市的喧嚣增添了悠扬的配乐。街头小贩排列在人行道上,出售从热食到手工工艺品的各种商品。该建筑融合了现代摩天大楼和历史建筑,展示了这座城市的动态发展和丰富的历史。

霓虹灯闪烁,邀请路人走进舒适的咖啡馆和熙熙攘攘的商店。这个详细的城市场景充满了城市生活的节奏,体现了黄昏时分大都市的混乱与秩序的和谐。

GPT-4确实可以很好地捕捉和还原提示词中的细节,而且内容非常丰富。

不过似乎为了追求丰富的细节,整体画面感觉有点不自然,好像是特意“上演”的,卡通风格有点太浓了。

巴德的画面整体上自然得多,并没有刻意绘制太多的人物来体现提示语中的细节。

而且画面的构图也相当多样,美术风格与画面内容非常契合。

这种风格也依赖于《中途》,细节丰富,美术风格多样,画面自然,甚至画面中所有人物的服装指数都是一致的,达到了美观与准确性的最佳平衡。

想象一座远离现代世界的古老图书馆,里面摆满了高耸的书架,里面摆满了旧书和卷轴,在昏暗的烛光下投下长长的影子。

空气中弥漫着陈旧纸张的气味和几个世纪以来知识的低语。中心的一张大木桌上,在悬挂灯笼的柔和光芒下,散落着开放的书籍和古代文物。

一位孤独的学者,穿着长袍,仔细阅读一份古老的手稿,用羽毛笔做笔记。在他周围,墙壁上装饰着被遗忘的世界的地图和过去学者的肖像。

气氛是一种庄严和对智慧追求的崇敬。这个场景捕捉到了时间凝固的时刻,一个不受岁月流逝影响的学习圣地。

GPT-4仍然是图片细节最丰富的模型,这再次表明OpenAI对语言的把握特别强。但缺点是画面总是有点不自然,追求细节总感觉像是“舞台画”。

巴德觉得原本提示语中的很多气氛描述都没有办法表达出来。整体画面比较简单,丢失了更多细节。

整体来看,《中途》给人的感觉还是更像是一件艺术品,审美层次统一,细节还原,有氛围。

经过实际测试,可以明显看出三种图像生成AI的特性差异较大。不过,由于Bard是免费的,所以其效果还是略逊于两种付费模式。

用户评论

命里缺他

哇,谷歌这操作太牛了!巴德免费创作照片,这对我来说是个大福利啊!无限续充,简直让人疯狂!我要赶紧试试看,看看效果如何。

    有5位网友表示赞同!

■孤独像过不去的桥≈

谷歌这是要放大招啊,巴德免费创作照片,感觉我的摄影技能要升级了。无限续充,这简直是摄影爱好者的福音!

    有14位网友表示赞同!

十言i

哈哈,谷歌这招太绝了!巴德免费创作照片,无限续充,我都要忍不住去试试了。不过,顶级模特之间的对战,我也想看看。

    有10位网友表示赞同!

采姑娘的小蘑菇

无限续充的政策太吸引人了,但我更想知道巴德免费创作照片的质量怎么样。顶级模特对战,这肯定精彩。

    有8位网友表示赞同!

千城暮雪

谷歌这次真是大手笔,巴德免费创作照片,无限续充,让我都心动了。不过,我更期待看到模特们的实战对决。

    有13位网友表示赞同!

oО清风挽发oО

巴德免费创作照片,无限续充,这听起来太酷了!我之前就听说过巴德,这次有机会免费使用,真是太幸运了。

    有5位网友表示赞同!

葵雨

顶级模特之间的第一手实测对战,这听起来就让人兴奋!谷歌这次真是玩大了,巴德免费创作照片,无限续充,我必须去试试。

    有12位网友表示赞同!

孤败

谷歌这次的动作太给力了,巴德免费创作照片,无限续充,感觉我要换手机了!只是,顶级模特对战,我担心会太专业,我这种小白能看懂吗?

    有6位网友表示赞同!

一纸愁肠。

巴德免费创作照片,无限续充,这简直是摄影爱好者的狂欢!但我更想看看,这些顶级模特之间会如何对战。

    有12位网友表示赞同!

残留の笑颜

谷歌这波操作,感觉我之前用的那些摄影软件都要下岗了。巴德免费创作照片,无限续充,我简直无法抗拒。

    有5位网友表示赞同!

铁树不曾开花

顶级模特之间的对战,我虽然不是摄影爱好者,但也是个大粉丝。巴德免费创作照片,无限续充,这让我有了尝试的冲动。

    有8位网友表示赞同!

强辩

谷歌这次真是搞了个大新闻,巴德免费创作照片,无限续充,感觉我以后拍照都不用愁了。只是,模特对战,我有点小紧张。

    有6位网友表示赞同!

我一个人

巴德免费创作照片,无限续充,这让我想起了那个无限量的信用卡。不过,顶级模特对战,我还是第一次听说。

    有16位网友表示赞同!

沐晴つ

谷歌这次太贴心了,巴德免费创作照片,无限续充,简直是摄影爱好者的天堂。不过,我更想看到模特们的实战表现。

    有11位网友表示赞同!

挽手余生ら

巴德免费创作照片,无限续充,这让我想起了以前玩的游戏。只是,顶级模特对战,我有点担心自己能不能跟上节奏。

    有16位网友表示赞同!

逃避

谷歌这次的动作太酷了,巴德免费创作照片,无限续充,感觉我离成为摄影师又近了一步。顶级模特对战,我必须去支持。

    有11位网友表示赞同!

开心的笨小孩

无限续充的政策太吸引人了,巴德免费创作照片,我都不敢相信这是真的。只是,顶级模特对战,我更想看到他们背后的故事。

    有11位网友表示赞同!

陌颜

谷歌这次真是太有创意了,巴德免费创作照片,无限续充,这让我对摄影有了新的认识。顶级模特对战,我迫不及待想看了。

    有18位网友表示赞同!

南宫沐风

巴德免费创作照片,无限续充,这简直是摄影界的革命!不过,我更想看看那些顶级模特是如何在镜头下展现自己的。

    有19位网友表示赞同!

单身i

顶级模特之间的第一手实测对战,这听起来就刺激。巴德免费创作照片,无限续充,感觉我离专业摄影不远了。

    有14位网友表示赞同!