谷歌正式宣布巴德将免费创作照片,无限续充让人疯狂!顶级模特之间的第一手实测对战
2024-10-16 01:20:21 | 作者: 匿名
日前,Google Bard瞬间跃居LLM排行榜第二位,超越GPT-4,AI圈瞬间炸了。
“巴德什么时候变得这么支持了?”
事实证明,这也不无道理。
刚刚,谷歌官方宣布,在最新版本Gemini Pro的支持下,巴德不仅在推理、理解、总结、编码能力方面实现了快速提升,而且还可以支持超过40种语言230多个国家。
与此同时,谷歌“只能炫耀图片而无法实际使用”的至尊文森特图像模型Imagen 2也已免费集成到Bard中!
Vincent 地图功能还可以在Google 的ImageFX、Search 和Vertex AI 上体验
巴德的画风有多强?
去年12月,谷歌推出了最新的Imagen 2模型,可以实现高质量、逼真的输出。
虽然生成的效果很惊人,但不少网友吐槽:不开源就没啥用。
向左或向右滑动即可查看
现在,大家可以开始尝试一下Imagen 2 的功能了。首先我们来看看Google 官方提供的很多Bard 生成图像的例子。
例如,生成一只脚踩在冲浪板上的狗。
Bard 生成了更多精彩图像:
提示:生成拼贴艺术,其中包含具有柔和色彩和3D 阴影的海洋和植物的逼真图像,这就是混合媒体。
提示:写一篇社交媒体帖子并生成一张令人垂涎的图像,我可以将其用于水牛翅节。
提示:用蒸汽朋克风格的数字艺术生成时装秀的图像。放大他们的脸。
提示:生成一辆未来汽车行驶在被大自然包围的古老山路上的图像。
提示:生成一个充满活力和生动的图像,描绘一头大象在郁郁葱葱、生机勃勃的丛林中心聚会。大象应该有各种颜色,并装饰有有趣的配饰。
提示:生成一个杂乱的炼金术士工作室的图像,里面充满了冒泡的烧瓶、发光的晶体以及瓶子内旋转的微小发光世界。
提示:生成一个人在日落时看着镜头的真实照片。肖像模式,背景变淡。
为了负责任的生成,Bard 生成的图像将使用SynthID 进行标记。
SynthID 是Google DeepMind 开发的水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。 SynthID 的水印人眼无法察觉,但可检测以进行识别。
很多网友的评论
网友Pete Blackshaw用Bard生成了“一只长着喇叭的贵宾犬”,看起来就像是在抽着一根大烟。
他还使用相同的提示“用历史悠久的明轮车绘制#辛辛那提天际线”让巴德与GPT-4 竞争。看Bard生成的图片,可能因为色调的缘故,更加真实。
另一位初创公司创始人Ryan Carson也在提示下分别测试了DALL·E 3和Bard。
他说,他仍然更喜欢DALL·E 3生成的图片,尽管它贵了32倍。此外,Bard 忽略了大小为1792x1024 的请求。
创建一个以狐狸为特色的等距视频游戏图块图像。该场景采用低多边形设计风格,这是视频游戏中现代数字插图的典型特征。瓷砖应以数字艺术风格渲染,柔和、温暖的灯光轻轻突出多面表面,强调极简主义美感。整体效果应传达宁静的简洁性,这是电子游戏或现代数字艺术中当代数字景观的特征。重点是狐狸,应该用几何形状渲染,保持等距和低多边形主题。 1792x1024。无徽标、文字或文字。
小编甚至觉得巴德的狐狸生动程度更像是《小王子》中的狐狸。
左:DALL·E 3;右:吟游诗人
另一位网友在Midjourney上尝试了一下,花费了0.04美元。
著名导演Yam Laranas用Bad画了一个“好莱坞摄影稻草人”。
网友Yam Laranas制作的寿司看起来很好吃。
马库斯自己用“画一只电子游戏刺猬”创造了一只刺猬。
网友Raj Goodman Anand 表示,他对巴德的图像生成能力感到震惊!它不仅视觉效果好,而且生成文本准确,这是DALL·E经常遇到的问题。
海绵宝宝吃墨西哥卷饼。
网友chientrm制作了一个火星系列。
从火星基地,到城市全景,到飞船,到室内环境,一切都已经想象过了。
向左或向右滑动即可查看
安德鲁·C·贝克尔发现巴德可以用双手完美地绘画。
自称人工智能爱好者的爱德华尝试了四次,画出了一个蓝眼睛、棕色头发的女人。
与《中途》相比,面部图像的生成确实落后了很多。
一大波网友实测
卡通动画风格还是控制得很好。
宫本武藏.
禅宗花园。
魔法城堡。
失败案例
第一张图中,一头骑在马上的骆驼突然长出了一条人腿。
网友LoudEgg创造了一只七星瓢虫,它在喝啤酒,但它似乎在喝咖啡。
一边喝啤酒一边用电脑创造一只瓢虫
这些手的生成也失败了。
还有奇怪的,眼睛。
有些内容是巴德无法创造的。
Bard/GPT-4/Midjourney 三家公司大战,用户最喜欢谁?
现在Bard已经发布使用,我们开始比较Bard、GPT-4(DALL·E 3)、Midjourney在相同提示词下图像质量和图像生成方面的差异。
每个公司都有自己的特点。 DALL·E 3 胜出结合GPT-4 后语义理解能力最强。只要用户能提出要求,他就可以画出来。
中途依然具有最强的审美表达力和多样的风格。
如果你想画出赏心悦目的图画,每月10美元的Midjourney仍然是最划算的选择。
Bard 获胜是因为它是免费的。毕竟,没钱对于很多偶尔体验的用户来说,真的很重要。
而且其风格一般都比较写实。如果你想轻松创建逼真、自然的图片,Bard 甚至比前两者更好。
我们先从一些简单的提示词开始,看看它们在处理更一般的提示词时有何不同。
请创建一桌美味的家庭晚餐的图像
诗人:
Bard生成的画面风格相当自然真实。光影和构图都非常接近照片,效果相当不错。
GPT-4:
GPT-4生成的图片内容更加丰富,甚至有点夸张,色彩和构图也更加动画化。
中途的效果更是惊人。尤其是下面两张图,和照片几乎一模一样。光影、食材的细节和真实感、相机的感觉都非常完美。
总结三家公司的表现,中程略胜一筹。
现在我们已经做了一顿丰盛的饭菜,让我们再试一次。如果我们想要生成一张简陋的饭菜,模型的性能会怎样?
请创建一张低质量家庭晚餐餐桌的图像
GPT-4 真的很容易在几秒钟内理解。只要改变同一个提示词的形容词,效果就会立即改变。语义理解能力和图像生成效果非常准确!
但中途似乎并没有注意到提示词的不同,依然端上了一桌子色香味俱全的菜肴,这甚至让我怀疑是不是提示词打错了。
再次确认提示词后,只能感叹该模型的提示词理解能力确实是OpenAI第一。
最令人惊讶的是,巴德也感应到了提示的变化,但它感觉提示词触动了它的护栏,拒绝绘画。
在我们的测试过程中,我们还发现巴德的安全护栏几乎是所有使用的AI产品中最敏感的。只要提示词中出现情绪基调“不那么中性”的词语,就有很大概率会触发护栏,生成的消息会被拒绝。
请创建一个家庭成员在电视上观看足球比赛的图像
接下来我们测试了与字符相关的简单提示词的图片生成效果。
巴德对于人物的处理还是不太好。手部和表情偶尔会扭曲,细节处理得不太好。不过,画风依然保持了比较真实简单的效果,“AI味”并不算太浓。
而且,巴德的画面构图方式会更加多样化,包括电视视角和其他角度的构图。
GPT-4的整体画面风格更加动画化,“AI味”更浓。
而从细节来看,GPT-4一直试图将更多的人和物体融入到画面中,给人一种饱满的感觉。巴德处理这个问题更加自然。
《中途旅行》依然延续了最多样的画面风格和最高的审美表达。唯一的缺点是构图看起来相当重复,没有太大变化。
还有一个小问题就是电视里面的风格和电视外面的风格好像不一致。比如右下的电视感觉比较真实,但电视外面的人物都是动画版的。感觉次元壁出了问题。
请创建一个哭泣的男孩在电视上观看卡通片的图像
我们让AI 生成一张小男孩在看动画片时哭泣的图片,并想测试AI 能否捕捉到另一个上下文中提示词的情感风格差异。
GPT-4 很好地渲染了该图像,与黑色房间作为背景相得益彰。
小男孩哭泣的表情也很到位。
而巴德仍然是一个老问题。当遇到负面情绪时,就会触发护栏,拒绝产生。
Midjourney产生的效果也非常好。不仅很好地捕捉了提示词的情感色彩变化,而且呈现出多样的构图和艺术风格。
然后,我们尝试了复杂提示词生成的效果,看看三种模型在提示词理解和图片效果上的差异。
打造黄昏时熙熙攘攘的城市街道的形象,充满生机和活力。场景设置在充满活力的市中心,夕阳为建筑物投射出温暖的金色色调。
不同背景的人们走在人行道上,有的匆忙,有的悠闲漫步,捕捉着城市生活的本质。其中,一位街头音乐家正在拉小提琴,为都市的喧嚣增添了悠扬的配乐。街头小贩排列在人行道上,出售从热食到手工工艺品的各种商品。该建筑融合了现代摩天大楼和历史建筑,展示了这座城市的动态发展和丰富的历史。
霓虹灯闪烁,邀请路人走进舒适的咖啡馆和熙熙攘攘的商店。这个详细的城市场景充满了城市生活的节奏,体现了黄昏时分大都市的混乱与秩序的和谐。
GPT-4确实可以很好地捕捉和还原提示词中的细节,而且内容非常丰富。
不过似乎为了追求丰富的细节,整体画面感觉有点不自然,好像是特意“上演”的,卡通风格有点太浓了。
巴德的画面整体上自然得多,并没有刻意绘制太多的人物来体现提示语中的细节。
而且画面的构图也相当多样,美术风格与画面内容非常契合。
这种风格也依赖于《中途》,细节丰富,美术风格多样,画面自然,甚至画面中所有人物的服装指数都是一致的,达到了美观与准确性的最佳平衡。
想象一座远离现代世界的古老图书馆,里面摆满了高耸的书架,里面摆满了旧书和卷轴,在昏暗的烛光下投下长长的影子。
空气中弥漫着陈旧纸张的气味和几个世纪以来知识的低语。中心的一张大木桌上,在悬挂灯笼的柔和光芒下,散落着开放的书籍和古代文物。
一位孤独的学者,穿着长袍,仔细阅读一份古老的手稿,用羽毛笔做笔记。在他周围,墙壁上装饰着被遗忘的世界的地图和过去学者的肖像。
气氛是一种庄严和对智慧追求的崇敬。这个场景捕捉到了时间凝固的时刻,一个不受岁月流逝影响的学习圣地。
GPT-4仍然是图片细节最丰富的模型,这再次表明OpenAI对语言的把握特别强。但缺点是画面总是有点不自然,追求细节总感觉像是“舞台画”。
巴德觉得原本提示语中的很多气氛描述都没有办法表达出来。整体画面比较简单,丢失了更多细节。
整体来看,《中途》给人的感觉还是更像是一件艺术品,审美层次统一,细节还原,有氛围。
经过实际测试,可以明显看出三种图像生成AI的特性差异较大。不过,由于Bard是免费的,所以其效果还是略逊于两种付费模式。
相关视频
-
室外篮球哪个牌子好耐打(篮球爱好者必备的室外球品牌推荐)(室外篮球哪个牌子好用)
2023-09-07
-
NA2012季后赛热火对凯尔特人(2012热火vs凯尔特人揭幕战)
2023-09-07
-
世预赛积分榜2021(世预赛积分榜亚洲出现要求)
2023-09-07
-
坎特雷拉公主攻略(坎特雷拉故事)
2023-09-07
-
谢尔盖米林科维奇萨维奇
2023-09-07
-
最新黎巴嫩球联赛排名及球队析(黎巴嫩篮球联赛比分)
2023-09-07
-
郎平的事迹介绍及其他名人的成功经历(郎平的名人故事)
2023-09-07
用户评论
哇,谷歌这操作太牛了!巴德免费创作照片,这对我来说是个大福利啊!无限续充,简直让人疯狂!我要赶紧试试看,看看效果如何。
有5位网友表示赞同!
谷歌这是要放大招啊,巴德免费创作照片,感觉我的摄影技能要升级了。无限续充,这简直是摄影爱好者的福音!
有14位网友表示赞同!
哈哈,谷歌这招太绝了!巴德免费创作照片,无限续充,我都要忍不住去试试了。不过,顶级模特之间的对战,我也想看看。
有10位网友表示赞同!
无限续充的政策太吸引人了,但我更想知道巴德免费创作照片的质量怎么样。顶级模特对战,这肯定精彩。
有8位网友表示赞同!
谷歌这次真是大手笔,巴德免费创作照片,无限续充,让我都心动了。不过,我更期待看到模特们的实战对决。
有13位网友表示赞同!
巴德免费创作照片,无限续充,这听起来太酷了!我之前就听说过巴德,这次有机会免费使用,真是太幸运了。
有5位网友表示赞同!
顶级模特之间的第一手实测对战,这听起来就让人兴奋!谷歌这次真是玩大了,巴德免费创作照片,无限续充,我必须去试试。
有12位网友表示赞同!
谷歌这次的动作太给力了,巴德免费创作照片,无限续充,感觉我要换手机了!只是,顶级模特对战,我担心会太专业,我这种小白能看懂吗?
有6位网友表示赞同!
巴德免费创作照片,无限续充,这简直是摄影爱好者的狂欢!但我更想看看,这些顶级模特之间会如何对战。
有12位网友表示赞同!
谷歌这波操作,感觉我之前用的那些摄影软件都要下岗了。巴德免费创作照片,无限续充,我简直无法抗拒。
有5位网友表示赞同!
顶级模特之间的对战,我虽然不是摄影爱好者,但也是个大粉丝。巴德免费创作照片,无限续充,这让我有了尝试的冲动。
有8位网友表示赞同!
谷歌这次真是搞了个大新闻,巴德免费创作照片,无限续充,感觉我以后拍照都不用愁了。只是,模特对战,我有点小紧张。
有6位网友表示赞同!
巴德免费创作照片,无限续充,这让我想起了那个无限量的信用卡。不过,顶级模特对战,我还是第一次听说。
有16位网友表示赞同!
谷歌这次太贴心了,巴德免费创作照片,无限续充,简直是摄影爱好者的天堂。不过,我更想看到模特们的实战表现。
有11位网友表示赞同!
巴德免费创作照片,无限续充,这让我想起了以前玩的游戏。只是,顶级模特对战,我有点担心自己能不能跟上节奏。
有16位网友表示赞同!
谷歌这次的动作太酷了,巴德免费创作照片,无限续充,感觉我离成为摄影师又近了一步。顶级模特对战,我必须去支持。
有11位网友表示赞同!
无限续充的政策太吸引人了,巴德免费创作照片,我都不敢相信这是真的。只是,顶级模特对战,我更想看到他们背后的故事。
有11位网友表示赞同!
谷歌这次真是太有创意了,巴德免费创作照片,无限续充,这让我对摄影有了新的认识。顶级模特对战,我迫不及待想看了。
有18位网友表示赞同!
巴德免费创作照片,无限续充,这简直是摄影界的革命!不过,我更想看看那些顶级模特是如何在镜头下展现自己的。
有19位网友表示赞同!
顶级模特之间的第一手实测对战,这听起来就刺激。巴德免费创作照片,无限续充,感觉我离专业摄影不远了。
有14位网友表示赞同!