FLUX.1 Krea
综合介绍
FLUX.1-Krea-dev是由Black Forest Labs与Krea AI合作开发的一款先进的文生图AI模型。 该模型拥有120亿参数,其核心特点是能够根据文本描述生成具有出色真实感和独特美学风格的图像,并致力于避免现有AI模型普遍存在的“过度饱和”和不自然的观感。
FLUX.1-Krea-dev是一个开放权重模型,这意味着研究人员和开发者可以免费获取其核心代码,并在此基础上进行二次开发和创新。 该模型在遵循文本指令方面表现出色,其生成结果在很多情况下能与一些不公开源代码的商业模型相媲美。 它的架构与FLUX.1 [dev]生态系统完全兼容,可以作为一个灵活的基础模型,方便艺术家和开发者根据自身需求进行定制化调整,以应用于各种下游应用。 此外,模型经过了引导蒸馏(guidance distillation)技术训练,使其在运行时更加高效。
功能列表
- 高质量文生图:输入一段文字描述,即可生成高清晰度、具有摄影美感的图片。
- 独特的审美风格:模型经过特殊训练,旨在克服AI图像常见的过度饱和与失真问题,生成更自然、更逼真的视觉效果。
- 精确的指令遵循:能够较好地理解并执行复杂的文本指令,生成符合用户预期的图像内容。
- 开放权重:提供开放的模型权重,供开发者、研究人员和艺术家进行科学研究或开发创新的艺术工作流。
- 高效运行:采用了引导蒸馏技术进行训练,提升了模型的运行效率。
- 灵活定制:可作为基础模型,支持开发者进行微调和二次开发,以适应不同的应用场景。
- 多平台兼容:支持在
ComfyUI
和diffusers
等主流AI绘画工具和开发库中使用。
使用帮助
FLUX.1-Krea-dev模型主要面向有一定技术背景的开发者和AI绘画爱好者,可以通过多种方式进行安装和使用。
方式一:在Diffusers中使用(适合开发者)
对于熟悉Python编程的开发者,最直接的方式是使用Hugging Face的diffusers
库来调用模型。
1. 安装或更新Diffusers库首先,需要确保你已经安装了最新版本的diffusers
库。打开终端或命令行工具,输入以下命令:
pip install -U diffusers
2. 编写Python代码运行模型接下来,你可以通过以下Python代码来加载并使用FLUX.1-Krea-dev模型。建议在拥有足够显存(VRAM)的NVIDIA显卡上运行。
import torch
from diffusers import FluxPipeline
# 从Hugging Face Hub加载模型,使用bfloat16精度以获得更好性能
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-Krea-dev",
torch_dtype=torch.bfloat16
)
# 如果你的GPU显存有限,可以启用CPU offload以节省显存
# 如果显存充足(例如大于24GB),可以移除此行以获得更快的速度
pipe.enable_model_cpu_offload()
# 输入你的文本描述
prompt = "一只青蛙举着一个写着“hello world”的牌子"
# 生成图像
# 你可以调整height和width来设置图像尺寸,guidance_scale用于控制图像与文本的匹配程度
image = pipe(
prompt=prompt,
height=1024,
width=1024,
guidance_scale=4.5,
).images[0]
# 保存生成的图像
image.save("flux-krea-dev.png")
print("图像已成功保存为 flux-krea-dev.png")
代码解释:
torch_dtype=torch.bfloat16
: 这行代码指定了模型加载时使用的数据类型,bfloat16
是一种可以有效降低显存占用的数据格式,同时保持不错的精度。pipe.enable_model_cpu_offload()
: 这是一个节省显存的技巧。当GPU显存不足时,它会将模型中不常用的部分临时卸载到CPU内存中,在需要时再加载回GPU。这会降低生成速度,但是能让模型在显存较小的硬件上运行。pipe()
: 这是执行文生图操作的核心函数。你可以通过调整其中的参数来控制生成结果,例如height
,width
,guidance_scale
等。
方式二:在ComfyUI中使用(适合AI绘画玩家)
ComfyUI是一个广受欢迎的节点式AI绘画图形界面工具,它也支持FLUX.1-Krea-dev模型。
1. 下载模型文件你需要从Hugging Face页面手动下载模型的权重文件。
- 主模型文件: 前往
black-forest-labs/FLUX.1-Krea-dev
的 "Files and versions" 标签页,下载名为flux1-krea-dev.safetensors
的文件。 - 文本编码器文件: FLUX模型需要两个文本编码器。你需要在
black-forest-labs/FLUX.1-dev
的仓库中找到并下载t5xxl_fp16.safetensors
和clip_l.safetensors
。 - VAE文件: VAE用于解码潜在空间图像为像素图像,可以下载通用的
ae.safetensors
。
2. 放置模型文件将下载好的.safetensors
文件放入ComfyUI对应的模型文件夹中:
- 将
flux1-krea-dev.safetensors
放入ComfyUI/models/flux/
目录下。 - 将文本编码器文件放入
ComfyUI/models/clip/
目录下。 - 将VAE文件放入
ComfyUI/models/vae/
目录下。
3. 构建工作流打开ComfyUI界面,你需要搭建一个包含以下节点的工作流:
- Load Diffusion Model: 加载主模型,选择
flux1-krea-dev.safetensors
。 - DualCLIPLoader: 加载两个文本编码器,分别选择
t5xxl_fp16.safetensors
和clip_l.safetensors
。 - Load VAE: 加载VAE模型,选择
ae.safetensors
。 - 将这些节点的输出连接到相应的采样器节点(如
SamplerFLUX
),并连接文本输入、潜空间大小等节点。
对于显存非常有限的用户(例如8GB),可以在加载模型时将weight_dtype
设置为fp8_e4m3fn_fast
,但这可能会牺牲一些图像质量。
应用场景
- 数字艺术与插画艺术家可以使用该模型将抽象的创意和复杂的场景描述转化为视觉图像,探索新的艺术风格,或者为自己的作品快速生成创作灵感和素材。
- 广告与市场营销营销团队可以快速生成高质量、符合品牌风格的广告图片、社交媒体内容和产品宣传图,而无需花费高昂的成本进行实景拍摄。
- 游戏与影视概念设计游戏开发者和电影制作人可以利用该模型快速将场景、角色和道具的文字描述可视化,加速概念设计阶段的迭代速度,并为团队提供直观的视觉参考。
- 产品原型可视化设计师可以输入产品的功能和外观描述,生成产品的概念图和使用场景图,用于内部讨论、用户调研和方案展示。
QA
- 这个模型是免费使用的吗?FLUX.1-Krea-dev的开放权重版本遵循非商业性使用许可(flux-1-dev-non-commercial-license),这意味着个人、学习和研究目的下使用是免费的。 但如果需要用于商业用途,必须通过Black Forest Labs的许可门户获取商业授权。
- 使用这个模型对硬件有什么要求?作为一个拥有120亿参数的大模型,FLUX.1-Krea-dev对硬件,特别是GPU显存(VRAM)有较高的要求。官方示例建议使用支持
bfloat16
的NVIDIA显卡。如果显存不足(如低于16GB),虽然可以通过CPU offload等技术运行,但生成速度会非常慢。为了获得流畅体验,建议使用24GB或更高显存的GPU。 - 这个模型生成的图片可以避免奇怪的“AI感”吗?是的,这正是该模型的一个主要设计目标。通过特殊的训练方法,FLUX.1-Krea-dev旨在生成纹理更自然、光影更逼真的图像,避免其他AI模型中常见的过度平滑、饱和度过高或出现不合逻辑细节的问题。
- 该模型和Krea AI网站上的图像生成工具有什么关系?FLUX.1-Krea-dev是Krea AI在线图像生成工具背后所使用模型的一个开放权重版本。 你可以在Krea AI的网站上直接体验其完整功能,而这个Hugging Face仓库则为希望自行部署和定制化开发的开发者提供了模型本身。