最强测评!StableDiffusion3 VS Midjourney VS DALL-E3 VS Playground2.5 四款当前最热AI到底谁是王者?多角度出图对比测试|SD3 API购买方法

氪學家
29 Apr 202410:54

TLDR本期视频对比了四款当前热门的AI绘画工具:StableDiffusion3、Midjourney、DALL-E3和Playground2.5。通过人物、二次元、超现实和语义理解等多个角度的出图测试,展现了各AI在不同场景下的表现。StableDiffusion3虽然在某些方面表现出色,但考虑到其较高的成本(10美元约150张图),性价比并非最优。Midjourney和Playground2.5在多个测试中展现了良好的性能,可作为StableDiffusion3的替代选择。视频还展示了如何为StableDiffusion3充值,并讨论了AI在角色设计、手部细节等方面的挑战。最终,视频建议观众根据个人需求选择合适的AI绘画工具,并承诺未来将提供更多相关信息。

Takeaways

  • 💰 StableDiffusion3(SD3)目前仅开放API,价格不低,10美元可购买1000积分,每张图成本约0.5美元。
  • 🎨 通过与Midjourney、DALL-E3和Playground2.5的比较,测试了SD3在人物、二次元、超现实和语义理解等方面的出图效果。
  • 🚀 SD3在出图速度上因调用API而不占用本地算力,是四款AI中出图最快的。
  • 🖼️ 在构图和美观上,Playground2.5表现最佳,但在文字还原程度上,SD3和Midjourney更胜一筹。
  • 🚫 SD3和DALL-E3在处理裸背等敏感内容时,会模糊或拒绝出图,显示出较严格的内容限制。
  • 🤩 在写实风格和面部特写方面,SD3和Midjourney的细节处理更出色,但DALL-E3在写实风格上表现一般。
  • 🎭 在二次元风格测试中,SD3的构图最佳,DALL-E3在真实感上表现合理,Midjourney的枪指向未完全依照提示词。
  • 🌌 超现实风格测试中,Playground2.5和SD3表现较好,DALL-E3在元素组合上效果一般,Midjourney在玻璃效果上未达到预期。
  • 🧐 在语义理解测试中,SD3和Midjourney在复杂提示词的理解上表现较好,DALL-E3在五个球的位置上未完全准确。
  • 🕵️‍♂️ 在角色设计测试中,DALL-E3因版权问题拒绝出图,而SD3和Midjourney成功出图并体现了角色名。
  • 👐 最后的手部特写测试显示,尽管AI模型在手部细节上有所优化,但当前技术仍难以准确还原复杂手势,如指定手指佩戴戒指。

Q & A

  • StableDiffusion3的API价格是多少,以及它如何计算出图成本?

    -StableDiffusion3的API价格是10美元可以购买1000积分,每张图需要6.5积分,因此每张图的成本大约是0.5美元。

  • 在视频测试中,哪些AI绘画工具参与了同台竞技?

    -参与同台竞技的AI绘画工具有StableDiffusion3、Midjourney、DALL-E3和Playground2.5。

  • 根据视频内容,StableDiffusion3在哪些方面的表现较为突出?

    -StableDiffusion3在对提示词中文字的还原程度、写实风格的人物细节、以及对超现实风格绘画的理解方面表现较为突出。

  • Midjourney在出图速度上与其他AI相比如何?

    -Midjourney在出图速度上是最慢的,因为它一次出四张图,但这并不影响其出图质量。

  • DALL-E3在处理写实风格图像时有哪些限制?

    -DALL-E3在处理写实风格图像时,对于涉及裸体的内容会直接拒绝出图,显示出其对出图内容的限制较为严格。

  • Playground2.5在美学模型方面的表现如何?

    -Playground2.5在美学模型方面表现出色,尤其是在构图和整体美观度上,但在文字的还原和某些细节处理上不如其他AI。

  • 视频提到了哪些AI在处理超现实风格绘画时的表现?

    -视频提到StableDiffusion3和Playground2.5在处理超现实风格绘画时表现较好,而DALL-E3则在元素组合上效果一般,Midjourney在某些风格元素的还原上没有做到很好。

  • 在角色设计测试中,哪个AI因为版权问题拒绝出图?

    -在角色设计测试中,DALL-E3因为版权问题拒绝出图。

  • 根据视频内容,StableDiffusion3的性价比如何?

    -根据视频内容,虽然StableDiffusion3的表现与其他几家AI相当,但考虑到其价格,即10美元只能出150张图左右,因此它的性价比并不是最高的。

  • 视频作者对于测试视频的制作难度有何看法?

    -视频作者认为虽然看起来测试视频制作简单,但实际上剪辑起来非常费劲,甚至开玩笑说以后如果再做这种视频他就是狗,表达了对制作过程的不满和挑战。

  • 视频作者建议如何选择合适的AI绘画工具?

    -视频作者建议用户根据自己的实际需求去选择合适的工具,例如可以使用Midjourney加Playground,或者一些StableDiffusionXL模型去做平替。

  • 视频中提到的AI绘画工具在哪些方面进行了测评?

    -视频中对AI绘画工具在人物、二次元、超现实、语义理解等多方面进行了测评,并通过相同的提示词对比了它们的出图结果。

Outlines

00:00

📈 Introduction and SD3 API Testing

The video starts with the host's humorous commitment to not create similar videos again, following a previous video on StableDiffusion3 (SD3). The host recaps the availability of free methods to use SD3 and mentions the community's enthusiasm that prompted a follow-up video. The video then transitions into a detailed demonstration of the SD3 API's payment process, using a Google account for login and a VISA credit card for payment. The host also discusses the cost of using SD3, which is not low, with 10 USD for 1000 credits and a cost of approximately 0.5 USD per image. The video sets up a comparison between SD3 and three other prominent AI art models: Midjourney, DALL-E3, and Playground 2.5, across various categories including character, anime, surrealism, and semantic understanding. The host provides instructions on where to find the prompts used in the video for testing.

05:00

🎨 AI Art Model Comparison and Testing

The video proceeds with a side-by-side comparison of the four AI art models using identical prompts to evaluate their performance. The host notes the speed of image generation, with SD3 being the fastest due to API usage, and Midjourney being the slowest. Aesthetically, Playground 2.5 is considered to have the best composition, but SD3 and Midjourney also perform well. DALL-E3 is noted for its realistic style. The host discusses the accuracy of text representation in images, with SD3 and Midjourney showing good text还原 (reproduction/representation). The video also touches on restrictions regarding sensitive content and the models' adherence to community guidelines. The host provides additional resources for those interested in deploying SD3 or experiencing Midjourney and DALL-E3, and the video continues with tests on realism, anime style, surrealism, and semantic understanding, with various prompts to challenge the AI models.

10:03

🔍 Semantic Understanding and Role Design Testing

The video further explores the AI models' capabilities by testing their semantic understanding with complex prompts. None of the models accurately represent the positions and colors of objects as described in the prompts, but SD3 and Midjourney come close. The host also tests the models' ability to create role designs, with DALL-E3 refusing to generate images due to potential copyright issues. SD3 and Midjourney perform well in this category, but SD3 makes a mistake in one of the role designs. The video concludes with a test of the models' ability to draw hands, which is considered a difficult task for AI. The host notes that while the models have improved, there are still inaccuracies in the depiction of hands, especially when including additional details like a ring. The video ends with the host's commentary on the challenges of creating such comparison videos and a call to action for viewers to like, subscribe, and follow the channel for future updates.

Mindmap

Keywords

💡StableDiffusion3

StableDiffusion3是一种人工智能图像生成模型,它能够根据给定的文本提示生成图片。在视频中,它与其他几款AI绘画工具进行了比较,以测试其在不同方面的性能,如人物、二次元、超现实风格以及语义理解等。例如,视频中提到StableDiffusion3在处理写实风格和超现实风格时的表现,以及它在语义理解方面的准确性。

💡Midjourney

Midjourney是另一款AI绘画工具,以其出图的精美度和准确度而闻名。在视频中,它被用来与StableDiffusion3进行比较,特别是在人物和写实风格的图像生成方面。例如,Midjourney在生成手部特写时的细节处理被认为是最好的,尽管在某些情况下,它对亚洲人物的五官理解存在偏差。

💡DALL-E3

DALL-E3是一款以语义理解能力著称的AI绘画工具。在视频中,它在处理复杂语义提示和风格还原方面的表现被特别提及。例如,尽管DALL-E3在某些测试中未能完全准确地还原提示词中的元素,但它在颜色理解和风格把控方面仍然展现出了一定的优势。

💡Playground2.5

Playground2.5是一个美学模型,它在视频中被用来与StableDiffusion3、Midjourney和DALL-E3进行比较。它在超现实风格和某些美学方面的测试中表现出色。例如,Playground2.5在处理提示词中的复古照片风格时,其元素还原度和风格把控被认为是优于其他AI的。

💡API

API(应用程序编程接口)是一种允许不同软件或服务之间交互的协议。在视频中,StableDiffusion3的API被提及,因为它是用户与该模型交互的主要方式。例如,视频中介绍了如何通过StabilityAI的官网购买API积分,以及如何使用这些积分来生成图像。

💡充值

在视频中,提到了如何为StableDiffusion3的API充值,这是用户在使用该模型之前必须进行的操作。充值过程涉及到支付信息的输入和验证,例如使用国内浦发银行的VISA信用卡进行充值,并且需要短信验证来完成支付。

💡写实风格

写实风格是指在艺术作品中尽可能真实地再现现实世界的外观。在视频中,几款AI绘画工具在生成写实风格的图像时的表现被进行了比较。例如,StableDiffusion3和Midjourney在面部特写的细节处理上被认为是最好的,而DALL-E3则在写实风格的表现上略显不足。

💡二次元

二次元通常指的是动漫、漫画等虚拟世界,与现实世界(三次元)相对。在视频中,AI绘画工具在生成二次元风格的图像时的表现被测试。例如,StableDiffusion3在构图上被认为是最好的,而DALL-E3在人物与景深关系的处理上则更合理。

💡超现实

超现实风格是一种艺术表现形式,它超越了现实,创造出梦幻般的图像和场景。在视频中,AI绘画工具对超现实风格的理解和表现被评估。例如,Playground2.5在超现实风格的测试中,其构图和意境被认为是最符合提示词的。

💡语义理解

语义理解是指对语言中单词、短语或句子含义的理解能力。在视频中,几款AI绘画工具在处理复杂语义提示时的表现被比较。例如,StableDiffusion3在处理包含颜色和位置信息的提示词时,展现了较好的语义理解能力。

💡角色设计

角色设计是创造具有独特外观和个性的角色的过程。在视频中,AI绘画工具在生成特定角色设计时的能力被测试。例如,Midjourney在生成长发亚洲女孩角色时,尽管画风乍一看还可以,但在理解亚洲人物特征方面存在偏差。

Highlights

StableDiffusion3、Midjourney、DALL-E3和Playground2.5四款AI绘画工具的对比测试

StableDiffusion3的API价格为10美元购买1000积分,每张图成本约0.5美元

Midjourney以出图精美度与准确度著称

DALL-E3以其文生图语义理解能力而知名

Playground2.5以其美学模型而受到用户喜爱

测试将从人物、二次元、超现实、语义理解等多方面进行

StableDiffusion3充值教程,包括如何使用谷歌账号登录StabilityAI官网

StableDiffusion3在出图速度上优于其他AI,因为它调用的是API

Playground2.5在构图和美观上表现最佳

Midjourney一次出四张图,速度最慢但质量高

StableDiffusion3和Midjourney在文字还原程度上表现良好

DALL-E3在文字与场景融合度上做得最好

StableDiffusion3在处理大场景加文字的融合上表现更佳

Midjourney和DALL-E3在真人写实风格上的限制更严格

Playground2.5在写实风格面部特写上细节表现最佳

StableDiffusion3在二次元风格的构图上表现优秀

DALL-E3在超现实风格中尽力还原提示词中的每个元素

Midjourney在复古照片风格把控上优于其他AI

StableDiffusion3在语义理解测试中表现出色,尤其是在颜色和文字的准确还原上

Midjourney在角色设计上的表现更胜一筹,尤其是在画风和人物五官的还原上

StableDiffusion3在手部特写测试中出现了手指崩坏的问题

StableDiffusion3虽然性能出色,但性价比不是最高的选择