DiffSensei - Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

精读DiffSensei

Posted Dec 12, 2024

By YK LI

11 min read

Intro

论文：DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

DiffSensei: 一个创新框架，转么用于生成动态多角色控制的漫画。通过桥接MLLM和Diffusion Model, 实现可控的漫画生成。

主要贡献：

DiffSensei在漫画生成领域上，超越了现有模型
MangaZero数据集：43K漫画页面和427K个注释面板，支持在连续帧中可视化多变的角色互动和动作。

结论：DiffSensei实现了卓越的、角色一致的面板，这些面板能够动态地响应文本提示，超越了现有方法，推进了故事可视化领域的发展。

Question List

Q1: 论文想要解决的主要问题是什么?
Q2：这是一个有价值的问题？
Q3：先前的解决方案有哪些？存在哪些难点？
Q4：论文提出的假设是什么？
Q5：MangaZero数据集是如何构建的？如何筛选数据？如何评估数据是否完备？
Q6：DiffSensei具体是如何实现的？
Q7：效果如何？结论是什么？
Q8：下一步优化的方向是什么？

Q1：论文想要解决的主要问题是什么?

任务定义：故事可视化（Story visualization），即从文本描述中创建视觉叙事的任务。

主要问题：通常缺乏对角色外观和互动的有效控制，特别是多角色场景中。
特别是在漫画领域，需要跨面板保持一致的角色、精确的布局控制以定位多个角色，以及将对话无缝集成到连贯、视觉上吸引人的方式中。
漫画生成领域的难题：

通常不能跨场景定制角色，有一些办法能解决，但仍不自然，比较僵硬；限制了角色表达和叙事。
没有提供对布局和对话放置的必要控制

Q2：这是一个有价值的问题？

有价值！
随着信息爆炸、时间碎片化、多模态技术发展；信息的组织方式一定会变得越来越直观，从文字 –> 音频 –> 视觉 –> 脑机。这是个逐渐演化的过程，也可能会跳跃发展。但在当前这个时间点，视觉叙事正在逐渐崛起。

Q3：先前的解决方案有哪些？存在哪些难点？

漫画领域主要有两大难点：角色一致性，角色动作可控性
对于角色一致性：

文本(+图像): 不稳定
LoRA: 源于缺乏捕获同一角色在不同表情和姿势中的多种外观的数据集
Traing-Free: 类似IP-Adapter，常常导致角色僵硬，限制了动态叙事所需的表情和动作的多样性

Q4：论文提出的假设是什么？

假设，之前的难点，主要原因在于：

缺少捕获同一角色在不同表情和姿势中的多种外观的数据集。
当前技术对文本的提示相应不够好。

Ok，解决这两个问题：

收集一个大规模Manga数据集
使用MLLM提升文本响应能力
采用了掩码注意力机制来管理角色布局
专门针对漫画的对话嵌入技术，允许对对话放置进行精确控制

Q5：MangaZero数据集是如何构建的？如何筛选数据？如何评估数据是否完备？

任务定义

首先定义任务及模式，然后针对性构建数据集。

任务定义：定制漫画生成

为了在N个面板（或帧）中生成一个漫画故事，输入包括：

每个面板的文本提示T0, T1, …, TN−1，
角色图像I = I0, I1, …, IK−1，
每个面板的角色边界框Bc 0, Bc 1, …, Bc N−1，
每个面板的对话边界框Bd 0, Bd 1, …, Bd N−1。

一个面板的可视化表示为Pi = Φθ(Ti, I, Bc i, Bd i)，其中Φ是整体模型函数，θ代表模型学习的参数。

数据集构建

参照了著名数据集Manga109, 但包含了更多2000年后的漫画。

下载：从MangaDex下载
选择了48个漫画系列，每个系列下载1000页，共获得43K个双页图像。
标注：最新的漫画理解模型Magi
对于漫画特定的注释，包括面板边界框、角色边界框、角色ID和对话边界框。由人工参与校验角色ID。
生成标题：为每个Panel生成标题
使用LLaVA-v1.6-34B

Q6：DiffSensei具体是如何实现的？

子模块

Motivation

避免复制粘贴效果：通过将角色图像特征转换为标记，防止直接从源图像复制像素细节。
MLLM作为角色适配器：使用MLLM接收源角色特征和面板标题，生成与文本兼容的目标角色特征。
布局控制：采用轻量级的掩码编码技术，减少计算成本，同时保持高精度。

多角色特征提取

特征提取：CLIP&Magi, 提取局部和图像级特征。
特征处理：通过重采样模块处理特征，将角色图像压缩成少量标记，避免编码细粒度空间特征。

掩码交叉注意力注入

角色布局控制：通过复制键和值矩阵创建独立的角色交叉注意力层，应用掩码交叉注意力注入机制控制角色布局。

对话布局编码

对话嵌入：引入可训练的嵌入表示对话布局，通过掩码与噪声潜在相加，编码对话位置。

MLLM作为文本兼容的角色特征适配器

动态角色调整：MLLM允许基于文本提示动态修改角色状态。
损失函数：计算LM Loss、MSE Loss和扩散损失，以训练MLLM并确保编辑后的角色特征与图像生成器对齐。

两阶段训练

Stage 1：图像生成器训练 - SDXL

初始化模型
- 图像编码器：CLIP & Magi
- 特征提取器：IP-AdapterPlus-SDXL
- 图像生成器：SDXL
训练
- 使用1e-5的学习率训练SDXL
- 训练250K步

Stage 2：MLLM LoRA 微调

初始化
- 图像生成器：SDXL
- MLLM： SEED-X
训练
- 使用1e-4的学习率训练MLLM
- 训练20K步
- LoRA-Rank为64
- 仅训练LoRA和重采样器

评估

评估数据集 MangaZero、Manga109
自动化评估指标
- Fréchet Inception Distance得分（FID）
- CLIP Score
- DINO图像相似度（DINO-I）
- DINO角色图像相似度（DINO-C）
- 对话边界框F1得分
人类评估维度
- 文本-图像对齐
- 风格一致性
- 角色一致性
- 图像质量
- 总体偏好
对照组
- StoryDiffusion
- AR-LDM
- StoryGen
- SEED-Story
- MS-Diffusion

StoryDiffusion是一种无需训练的方法。我们直接使用在MangaZero上微调的SDXL文本到图像模型进行评估。
尽管如此，我们重新训练了其他基线模型，以在我们的数据集上进行公平比较。(这种方式是否科学，存疑！)

Q7：效果如何？结论是什么？

DiffSensei在五个自动化指标上一致性地超越了基线模型
在多个维度上获得了人类评估者的最高评分，特别是在总体偏好、角色一致性和图像质量方面

Q8：下一步优化的方向是什么？

文中没有提下一步方向，但这个模式过于复杂了，是否能够简化，使用MLLM来统一实现特征提取器。而且基于的是SDXL，对于文字的表现能力其实难讲，如果能基于FLUX开发可能会更好。

Reading, Paper

MLLM Manga

This post is licensed under CC BY 4.0 by the author.

Intro

Intro

Question List

Q1：论文想要解决的主要问题是什么?

Q2：这是一个有价值的问题？

Q3：先前的解决方案有哪些？存在哪些难点？

Q4：论文提出的假设是什么？

Q5：MangaZero数据集是如何构建的？如何筛选数据？如何评估数据是否完备？

任务定义

任务定义：定制漫画生成

数据集构建

Q6：DiffSensei具体是如何实现的？

子模块

Motivation

多角色特征提取

掩码交叉注意力注入

对话布局编码

MLLM作为文本兼容的角色特征适配器

两阶段训练

Stage 1：图像生成器训练 - SDXL

Stage 2：MLLM LoRA 微调

评估

Q7：效果如何？结论是什么？

Q8：下一步优化的方向是什么？

Trending Tags