三英战吕布!四款文生图大模型孰优孰劣
2023-08-04 15:21:01 来源:壹零社爱科学 编辑:

在文生图大模型领域,以Midjourney、Stable-Diffusion为代表的“舶来品”为先驱,国产文生图大模型也乘着这股东风,如雨后春笋般快速成长起来,尤其考虑到海外版本的文生图大模型本身就有着语言不通、网络限制等问题,咱们中国玩家需要一波接地气的国产文生图大模型。

所以我们本期就用 百度文心一格、阿里巴巴通义万相、美图WHEE,来和Stable-Diffusion 玩一次“三英战吕布”,用实际操控体验和输出效果,检验一下国产文生图大模型到底有几斤几两吧。

011

国产大模型上手难度明显更低

虽然文生图听起来好像很智能,但实际操作过程中仍需要熟悉各种参数设置和使用流程,所以它并不是一个毫无门槛的东西,不过门槛是有高低之分的,更友好的使用方式就能接触到更多的玩家。

首先是Stable-Diffusion,它最大的特色就是开源和本地化,开源意味着免费,本地化则代表着使用不受账号限制,这俩特色也有明显的缺点,因为它是海外软件,自行部署需要联网下载很多插件,对网络有着极高的要求,所以最简单的方式就是去国内网站下载现成的“懒人包”,解压即用,非常方便。而本地化的问题就是它的算力也需要本地提供,也就是你需要很强的NVIDIA显卡才能进行高效的计算,比如我们本次测试使用的就是来自吾空X Pro Max游戏本的RTX 4090。

Stable-Diffusion界面最为复杂,可玩性也最高

文心一格的风格类型不多,但可以进行AI编辑

通义万相的界面非常简单

美图WHEE风格较多,高级设置和Stable-Diffusion相似度很高

作为对比,百度文心一格、阿里巴巴通义万相、美图WHEE都是在线文生图大模型,与他们对标的就是Midjourney。

因为是在线文生图,所以它们既不需要本地部署,也不用担心本地算力的问题,唯一要做的就是申请账号,目前百度文心一格已经开放注册,阿里巴巴通义万相还在定向邀请测试阶段,我们作为受邀媒体拿到了账号。

而美图WHEE则是用户自行申请内侧阶段,可能因为用户量还不算太大,所以申请通过的速度比较快,我们只等了一两天就获得了使用资格。总体来说除了阿里巴巴通义万相,其他两款大家都能体验。

使用成本方面,百度文心一格需要消耗“电量”来进行计算,生成一张图需要2个“电量”,“电量”可以做任务获取,也可以单独购买,或者开通会员获取,会员有每月69元/139元/339元三个档次。阿里巴巴通义万相封测阶段每天可以生成50次,美图WHEE则是不限制生成次数,但如果想自己训练模型就需要加入官方群去碰运气了。作为参考,同为在线文生图工具的Midjourney现在只有付费用户才能使用,最基础的订阅也需要10美元/月(约合人民币71.46元)。

最后我们再来看使用体验,Stable-Diffusion的参数设置很复杂,并且生成的风格模型需要单独下载,同时还必须手动设定采样器、采样步骤、相关性等参数,不过它有专业的第三方社区,不仅有大量风格模型可以下载,还可以查看其他用户上传的图片和激励词,虽然只能使用英文,但活用“拿来主义”就能生成优质的图像了。除此之外还有丰富的插件系统,可以训练模型、调整人物动作、设定自己想要的角色形象等等,上手难度最高。

百度文心一格和阿里巴巴通义万相的使用界面都非常直观,输出激励词,选择风格和画面比例,就能直接生成图片了,有意思的是百度文心一格无法使用复杂的英文激励词(比如你在海外社区里抄来的感觉还不错的英文激励词),必须逐句翻译成中文才能使用,而阿里巴巴通义万相没有这个问题。

至于美图WHEE,简单来说它的界面就是简化版的Stable-Diffusion,虽然不能自行安装插件和风格模型,但也提供了近20种风格选项,在高级设定里还有和Stable-Diffusion非常相似的参数选项,当然也可以让系统自己决定。有正反向激励词可填,并且中英文都能使用,属于高手能玩转,新手也能轻松拿捏的类型,目前来看是最好的选择。

021

输出效果

除人像外,国产已具备较高实用性

在了解完这四款文生图大模型的上手难易度之后,接下来我们就开始实际测试吧,每次测试都输出3组照片来择优选用,我们准备了三组激励词,分别是:

“女孩,白色女装,卷发,浅笑”的人像图

“远景雪山,近景樱花,湍急河流,瀑布”的风光照

“橙色超级跑车,霓虹灯夜景,赛博朋克”的产品渲染图

第一组:人像PK,Stable-Diffusion完胜

从左到右,从上到下:Stable-Diffusion、文心一格、通义万相、WHEE

在选择了各自的写实人像风格后进行输出,可以很明显地看到百度文心一格和阿里巴巴通义相在写实性上明显不如Stable-Diffusion和美图WHEE,绘画的印记过于明显,而且背景都是相对简单的纯色,无法生成如同照片一般的写实效果。

而通过多次对比测试,我们发现如果是使用英文激励词,美图WHEE和Stable-Diffusion的人像生成效果几乎是“一脉相承”,具有很高的真实性,但如果换用中文激励词就有概率输出不那么好看的结果,看来两者背后的大模型或许有着千丝万缕的联系。

从细节表现来看,四款文生图大模型都会出现多余的手指甚至多余的手脚等问题,Stable-Diffusion和百度文心一格可以局部微调,但后者需要收“电量”,而且Stable-Diffusion还有明显更丰富的人像风格模型可供选择,所以人像部分依然是Stable-Diffusion胜出。

第二组:风景照PK,通义万相有惊喜

从左到右,从上到下:Stable-Diffusion、文心一格、通义万相、WHEE

从对文字的理解来看,阿里巴巴通义万相是本轮测试的优胜者,画面表现也符合我们的期待,美图WHEE和百度文心一格在多次测试后的表现只能说是勉强合格,大多数时候都没办法获得让人满意的输出结果。

而且和人像一样,如果换用英文激励词,美图WHEE生成优质图像的几率会明显提升,达到和Stable-Diffusion相近的水准。从本轮风景照的输出效果来说Stable-Diffusion和阿里巴巴通义万相是优胜者。

第三组:跑车渲染图PK,各有千秋

从上到下:Stable-Diffusion、文心一格、通义万相、WHEE

文生图大模型在生产力方面的一大用处就是为各类产品设计师提供创意思路,而在跑车的渲染图测试中,可以看到它们多少都借鉴了现有车型,尤其是兰博基尼、迈凯伦和保时捷的一些特点,对提示词的理解都比较正确。我们还测试了机甲、乐器、果蔬、居家装饰等项目,在这些领域四款文生图大模型都能做到相当不错的渲染水准,算是打个平手吧。

美图WHEE所理解的“虎头虎脑的大胖小子”

除此之外,我们还对此前国产大模型闹过笑话的提示词进行了额外测试,比如夫妻肺片、车水马龙、虎头虎脑的大胖小子等等,百度文心一格和阿里巴巴通义都能准确生成我们想要的图片,而万相美图WHEE就显得有些挣扎,“夫妻肺片”生成了红烧牛肉,“虎头虎脑的大胖小子”也变成了叠在一起的两个老虎脑袋……虽然“车水马龙”没有问题,但显然,它并没有完全理解我们到底在说什么。

作为一个从去年年底就开始接触和使用文生图大模型的早期玩家,在我看来,无论是使用体验还是最终效果,国产人工智能文生图大模型在这么短的时间内能做到如此巨大的进步,本身就是一件值得点赞的事情,从效果来说,当前最大的限制就是人像生成,但其实也可以理解,因为人工智能的人像生成无论从法律角度还是伦理角度都是需要边界的,否则就会成为色情犯罪的导火索,所以我认为与其说是国产人工智能大模型无法生成好的女性人像,不如说是主动给它加了一个“紧箍咒”,因为我们也实际测试了男性人像的生成,效果虽然还是不及Stable-Diffusion那么强,但明显比女性人像要真实得多。

除此之外,我们认为还是需要一个中文的社区来汇集玩家,让大家可以在这个社区发图,发激励词,分享心得体验,大模型厂商也能在其中获得用户反馈,只有这样才能让飞轮转起来,目前也需要大家都拧成一股绳,各自为政是无法长久的。

关键词:

相关阅读
分享到:
版权和免责申明

凡注有"环球传媒网 - 环球资讯网 - 环球生活门户"或电头为"环球传媒网 - 环球资讯网 - 环球生活门户"的稿件,均为环球传媒网 - 环球资讯网 - 环球生活门户独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"环球传媒网 - 环球资讯网 - 环球生活门户",并保留"环球传媒网 - 环球资讯网 - 环球生活门户"的电头。