同济大学与腾讯联手，如何用\"画风配方\"造出史上最大风格图库？ ...

邬小姐农 · 发表于 2026-4-22 18:36:51

这项由同济大学、腾讯、南洋理工大学、香港科技大学、香港大学、福州大学和新加坡国立大学联合完成的研究，以预印本形式于2026年4月9日发布，论文编号为arXiv:2604.08364，有兴趣深入了解的读者可以通过该编号查询完整论文。

**画风这件事，比你想象的难多了**
每个人小时候大概都玩过描红纸——把一张半透明的纸蒙在原画上，学着把一只老虎画成同样的模样。风格迁移这件事在计算机视觉领域的意思差不多：给计算机看一张参考图，告诉它"照着这个画风，帮我把一只猫画出来"。听起来简单，做起来却麻烦得很。
问题的根源在于"画风"本身极难定义。颜色算画风吗？算，但只是其中一层。笔触的粗细、颜料堆叠的厚度、光线打在画面上的方式、颜料是水彩还是油彩……这些因素交织在一起，才构成一个人眼能感知到的"风格"。更棘手的是，就连同一位大师的作品，在不同时期、不同心情下创作出来，风格也可能相差很远——梵高早年的暗沉和晚年的旋涡状笔触就是典型例子。
正因如此，现有的风格迁移方法始终有一块顽固的短板：它们拿来训练自己的"素材"太差了。要训练一个风格迁移模型，最直接的做法是准备成对的图像——同一种风格、不同内容的一组图。但这种成对素材从哪儿来？从互联网上收集太难保证同风格，让已有的风格迁移模型自动生成又陷入了"用坏工具造好工具"的死循环：生成的图往往只学到了颜色，笔触、质感、光线全部丢失，而且不同张图之间的风格还互相不一致。
研究团队把这个问题想得很清楚：要想得到真正好用的风格迁移模型，必须先有一个"画风配方"足够精准、品类足够丰富、每道配方做出来的菜又足够统一的大型数据集。而MegaStyle这整套方案，就是为了解决这个"先有鸡还是先有蛋"的困局而生的。
**一、数据集的三个硬指标：统一、多样、高质**
在正式介绍MegaStyle的做法之前，需要先理解研究团队给自己定下的三个核心目标，因为这三个目标贯穿了整个方案的设计逻辑。
第一个目标叫"同风格内部一致"（intra-style consistency）。通俗地说，如果数据集里有一组图片都标注为"浮世绘风格"，那这一组里每一张图，不管画的是猫还是房子，都必须真的是浮世绘风格，而不是第一张是日式木版画、第二张变成了水彩、第三张又莫名其妙带上了赛博朋克的感觉。这一点听起来理所当然，但之前的数据集偏偏做不到，因为它们是用已有的风格迁移模型来生成图片的，而那些模型本身就不稳定，同样的风格输入，每次生成的结果都微妙不同。
第二个目标叫"不同风格之间足够多样"（inter-style diversity）。数据集里收录的风格种类得够多，不能只有那几个大家耳熟能详的风格。否则训练出来的模型就只会处理有限的几类风格，遇到新风格就手足无措了。
第三个目标是"整体图像质量要高"。模糊的、有色块污染的、边缘碎裂的图像，会让模型学到错误的东西，哪怕风格对了，图像质量本身就是一种干扰。
以往最接近这个目标的数据集是OmniStyle-150K，它从1000种基础风格出发，用六种主流风格迁移方法生成了15万张图。然而，生成结果普遍只学到了参考图的颜色，完全忽略了笔触和质感，而且不同风格迁移方法对同一张图处理出来的结果风格相互矛盾——一张图是数字插画感，另一张却是重水彩渲染，明明是"同风格"的一组图，看起来完全不像同一个人画的。这就像你拿着同一道菜谱，却让六个厨艺参差不齐的厨师各做了一道，端上来的菜差异极大，根本无法当作统一"配方"来学习。
**二、核心洞察：让大模型当"风格翻译官"**
研究团队找到的突破口，来自对一类大型生成模型能力的重新审视。
近年来，像Qwen-Image这样的文生图大模型，已经展现出一种惊人的能力：当你用文字描述一种风格，它能非常精确地把这种风格反映在生成的图像上，而且同一段风格描述，无论你让它画猫、画车、画火箭，生成的图像都忠实维持着同一种风格特征。这就好像给了这个模型一本极其精准的"画风字典"——每个词条（风格描述）对应一种独一无二的视觉呈现方式，而且这本字典的用法非常稳定，不会朝令夕改。
研究团队在论文的一个示例中展示了这一点：用"儿童绘画风格"这一段描述，让Qwen-Image分别生成了一辆车、一枚火箭、一只鸟和一个机器人，四张图画风高度一致，都有那种孩子用蜡笔随手涂鸦的感觉——颜色块状、线条歪歪扭扭、充满天真气息。这正是之前的方案做不到的事：风格描述一致，生成结果也一致。
基于这个核心发现，整个MegaStyle数据集构建方案就有了一条清晰的主线：不再用已有的风格迁移模型来生成配对图像，转而用文字描述风格，再用文生图大模型根据文字描述生成风格配对图。文字是精准的，大模型的风格映射是稳定的，两者结合，就能生产出风格内部高度一致的成对图像。
**三、从图像到文字：精心设计的"风格翻译"流程**
具体操作上，整个数据集的构建被分为三个阶段，每个阶段都有精心的设计细节。
第一阶段是收集素材图像。研究团队从三个来源拼凑出一个包含200万张图的"风格图像池"：从去重后的JourneyDB数据集中取了100万张涵盖各类风格的Midjourney生成图；从WikiArt数据集取了8万张涵盖27种流派的真实画作；再从LAION-Aesthetics数据集中筛选出了100万张带有风格特征的图片。与此同时，另外再从LAION-Aesthetics中取出200万张普通的非风格化图片，构成"内容图像池"，这些图片里有各种日常物件和场景，只负责提供"画什么"的信息。
第二阶段是把图像翻译成文字。研究团队请了另一个大型视觉语言模型Qwen3-VL来做这个翻译工作。对于风格图片，他们给Qwen3-VL一份专门设计的指令模板，要求它从以下几个维度描述图片风格：总体艺术风格是什么、主色调和配色是什么、光线是如何分布的、使用了什么样的艺术媒介（水彩、油画、数字插画……）、表面质感是什么样的、笔触的宽窄长短和方向是怎样的——同时明确要求它完全忽略画面里画的是什么内容，只描述"怎么画"。这样得到的风格描述，就是一份纯粹的"画风配方"。
对于内容图片，指令则完全相反：只描述画面里有什么物体、它们的位置关系是什么，完全不提任何风格相关的词汇——颜色、光线、质感、材质统统不许提。这样得到的内容描述，就是一份纯粹的"画什么"清单。
这一步翻译结束后，研究团队得到了200万条风格描述和200万条内容描述。但200万条里必然存在大量重复和相似的描述，直接用这些数据训练会导致模型对某些常见风格过度拟合，忽视罕见风格。于是进入第三阶段：对文字描述进行去重和均衡采样。
研究团队先用三种去重方法层层过滤——完全相同的去掉、近似的去掉、语义上高度重叠的也去掉——把200万条精简到100万条。然后用一种叫做"分层k-means聚类"的方法对剩余的描述进行均衡抽样：把描述按语义相似度分成不同的簇，从每个簇里按比例抽取，确保最终留下来的描述在风格和内容上都均匀分布，就像超市采购员确保货架上不会只摆可乐、连矿泉水都买不到。这个过程最终产出了17万条风格描述和40万条内容描述。
研究团队还对17万条风格描述做了一个分析，发现其中涉及的总体艺术风格多达8000种，排名靠前的包括图形插画、水彩插画、抽象表现主义、数字渲染、波普艺术、明暗对比画法、浪漫主义、赛博朋克数字艺术、3D数字插画等等，而且没有哪种风格占据压倒性的比例，分布相当均匀。
进入最后的生成阶段，研究团队把每条风格描述随机搭配若干条内容描述，形成"内容+风格"的组合提示词，然后交给Qwen-Image批量生成图片。同一条风格描述搭配不同内容描述，就能生成一组画风高度一致、内容各不相同的图片——这正是训练风格迁移模型所需要的成对数据。最终，MegaStyle-1.4M数据集诞生，包含140万张图片，覆盖17万种细粒度风格，每种风格下有多张不同内容的图片配对。
与之前的数据集对比，这个规模是相当惊人的：WikiArt有8万张图但只有27种风格，IMAGStyle有21万张图和1.5万种风格，OmniStyle-150K有15万张图和1000种风格，而MegaStyle-1.4M有140万张图和17万种风格，而且三个核心指标——风格内部一致性、风格间多样性、图像质量——都做到了同时满足。更重要的是，由于整套流程的每个环节都是可以自动化扩展的，理论上17万条风格描述搭配40万条内容描述可以产生680亿种不同的组合，数据集的规模上限几乎没有天花板。
**四、训练"风格鉴赏家"：MegaStyle-Encoder**
有了数据集，研究团队做的第一件事是训练一个专门评判风格相似度的模型，叫做MegaStyle-Encoder。
为什么需要这个？因为在评估风格迁移效果时，需要一个可靠的指标来量化"这张生成图的风格和参考图有多像"。目前常用的方法，如CLIP的图像特征相似度，本质上是为了理解图像内容而训练的，它更擅长判断"画面里有没有猫"，而不是"这张图的笔触风格和那张图像不像"，用它来评价风格相似度就像让一个美食评论家去评判音乐节奏感——专业不对口。
另一个专门为风格设计的模型叫CSD，它基于WikiArt数据集训练，按画家名字给图片分类来学习风格特征。问题在于，同一位画家在不同时期的画风差异可能极大，按画家名字划分的"同风格"图片在视觉上可能差得很远。这好比让你学习"法国菜的特点"，但教材里把路易十四宫廷宴席和现代小酒馆的家常菜混在一起，你学完可能更糊涂。
MegaStyle-Encoder的训练方式不同。它以SigLIP图像编码器为基础，用MegaStyle-1.4M数据集进行微调，采用一种叫做"风格监督对比学习"的训练策略。这个策略的核心思路是：同一条风格描述下生成的图片，不管内容多么不同，都应该在风格特征空间里彼此靠近；而不同风格描述下生成的图片，即使内容相似，也应该在特征空间里彼此远离。这就像是在一个巨大的坐标系里，把"同风格的图"拉到一起，把"不同风格的图"推开。
为了让学习更准确，训练时还额外加了一个辅助任务：让图像特征和对应的风格描述文字的特征也保持接近——即图像编码器学到的风格特征，应该和描述这种风格的文字在语义空间里是一致的。这相当于给模型配了一本"风格词典"作为参考，防止它学歪。
训练时用了8192张图片的超大批次，目的是在每次更新时都能看到足够多的"反例"，逼着模型不能只靠颜色这种浅层特征来区分风格，而必须真正学习笔触、质感这些更深层的视觉特征。
在一个专门为此设计的检索测试集上，MegaStyle-Encoder的表现远远超过了CLIP和CSD。这个测试集叫StyleRetrieval，从训练集未见过的800种总体艺术风格出发，每种风格生成32张图，用其中4张作为查询，看能不能从剩余28张里检索出同风格的图。在mAP@1这个指标上，CLIP得了9.29分，CSD得了45.60分，而MegaStyle-Encoder得了88.46分——几乎是CSD的两倍。论文里还展示了直观的可视化对比：给定一张参考图，SigLIP检索出来的最相似图片往往是内容相近但风格完全不同的图；CSD的结果好一些，但偶尔还是会受内容干扰；MegaStyle-Encoder检索出的图则无论内容如何，风格都高度吻合。
为了排除"在自家生成的数据上测试存在优势"的疑虑，研究团队还在三个额外的测试集上验证了结果：包含真实画作的StyleBench、用FLUX模型生成的FLUX-Retrieval，以及OmniStyle-150K数据集。MegaStyle-Encoder在所有三个测试集的所有指标上均排名第一，说明它学到的风格特征有真正的泛化能力，而不是对Qwen-Image生成风格的死记硬背。
**五、训练"风格画家"：MegaStyle-FLUX**
有了高质量的成对数据集，研究团队做的第二件大事是训练风格迁移模型MegaStyle-FLUX。这个模型基于FLUX，后者是目前最强大的开源文生图模型之一，采用扩散变换器（Diffusion Transformer）架构。
训练的逻辑很直白：从MegaStyle-1.4M里随机挑出两张同风格的图，一张作为参考风格图，另一张作为训练目标。模型拿到参考图和一段描述目标内容的文字提示，任务是生成一张画风和参考图一致、但内容按照文字描述来的新图片。
在技术实现上，参考风格图先经过FLUX的图像编码器（VAE）压缩成视觉特征向量，然后切割成小块（patch），这些小块和带噪声的目标图片的小块以及文字描述的特征一起输入到FLUX的核心网络——多模态扩散变换器（MM-DiT）里。
这里有一个细节值得一提：参考图的视觉小块被加上了一种经过特殊偏移处理的位置编码（shifted RoPE），目的是防止网络把参考图和目标图的位置信息混淆——毕竟两张图是完全不同的画面，不能让网络以为它们在空间上是对齐的，否则模型可能直接把参考图的内容复制到输出里，而不是学习风格。这是避免"内容泄漏"的关键设计。
训练时，只更新扩散变换器的参数，其他组件（编码器、解码器等）全部冻结不动，以LoRA（低秩适配）的方式进行微调，秩设置为128。整个训练过程持续3万步，图像分辨率512×512。
**六、实验结果：在七位"对手"面前的全面对决**
研究团队把MegaStyle-FLUX和当前最主流的七种风格迁移方法放在一起做了全面比较，包括DEADiff、StyleShot、Attention-Distillation（Attn-Distill）、CSGO、StyleCrafter、InstantStyle和StyleAligned。测试用了StyleBench中的50张真实画作风格参考图和20个文字内容提示。
在定量指标上，用MegaStyle-Encoder计算的风格相似度（Style分数）和用CLIP计算的文字对齐度（Text分数）被同时测量。MegaStyle-FLUX在Text分数上排名第一（23.20），Style分数排名第二（76.16，第一名是Attention-Distillation，为85.59）。但这个第二名是有背景的——Attention-Distillation得到最高Style分数的代价是极低的Text分数（20.29），因为它的策略基本上是把参考图直接复制粘贴，输出和文字提示几乎没有关系。真正需要同时兼顾风格准确和内容正确的时候，Attn-Distill其实是失败的。
人工评价的结果更能说明问题：超过30位评估者对所有方法的输出进行了风格和内容的双维度排名。MegaStyle-FLUX在人工风格偏好得分上以31.37分大幅领先，第二名InstantStyle只有18.19分；在人工内容偏好得分上，MegaStyle-FLUX同样以28.72分居首，第二名StyleShot只有13.69分。
定性的视觉对比也很直观：CSGO、DEADiff和StyleCrafter在面对训练时未见过的新风格时基本失效，只能转移颜色，完全丢失笔触和质感；StyleShot和StyleAligned表现更好，但有内容泄漏问题，比如参考图里有一个碟子，生成图里莫名其妙出现了同样的碟子；InstantStyle和Attn-Distill对文字提示反应迟钝，容易把参考图里的特定元素直接搬过来——在某个案例里，参考图里有一条黏土条，生成的第一行结果里也出现了这条黏土条，尽管文字提示根本没有提到它。MegaStyle-FLUX生成的图像则干净地只保留了风格，内容忠实跟随了文字提示。
**七、数据集对模型的影响：换个"食谱"，厨艺天差地别**
为了验证是MegaStyle-1.4M本身让结果变好，而不只是模型架构的功劳，研究团队做了一个对照实验：用同样的FLUX架构，分别在三个不同数据集上训练，然后对比结果。
在JourneyDB上训练的模型表现最差，连参考图的颜色都学不准——因为JourneyDB里的图片没有经过成对匹配，同一个训练批次里被当作"同风格"的两张图其实风格差得很远，模型学到了混乱的信号，什么都学不好。
在OmniStyle-150K上训练的模型只能转移基础颜色，笔触、质感、材质感这些更深层的风格特征完全无法学习——这印证了最初的判断，OmniStyle-150K里的风格对虽然在内容上有配对，但风格本身不够一致，导致模型学到的只是颜色这个最表层的特征。
在MegaStyle-1.4M上训练的模型则能很好地处理各种复杂风格：3D立体感、平面插画风、水墨画风都能准确迁移。数字指标上，JourneyDB训练的Style得分是34.56，OmniStyle-150K训练的是51.49，MegaStyle-1.4M训练的是76.16，差距相当显著。
研究团队还做了另一个对照：把StyleShot这个有公开训练代码的基线方法，在FLUX架构下分别用它原有的StyleGallery数据集和MegaStyle-1.4M来训练，比较结果。用StyleGallery训练的StyleShot-FLUX只能迁移基础颜色，而换成MegaStyle-1.4M之后，StyleShot-FLUX-Mega能学到3D、平面、水墨这些更高级的风格。这进一步证明，数据集的质量才是制约风格迁移能力的关键瓶颈，而不是模型架构本身。当然，MegaStyle-FLUX在所有指标上仍然优于StyleShot-FLUX-Mega，原因在于StyleShot用了一个额外的图像编码器来提取风格特征，这个额外的压缩步骤会损失一部分细粒度风格信息，而MegaStyle-FLUX直接把参考图的视觉token送进网络，保留了更完整的风格细节。
**八、局限与未来：还有哪些"食谱"没写好**
研究团队在论文里坦率地指出了这套方案目前的两个主要局限。
第一个局限来自视觉语言模型对风格的描述能力。Qwen3-VL在描述一些不常见的风格时，有时会给出模糊、不精确的词汇——比如对某种特殊材质的描述语焉不详。这主要是因为指令模板没有足够细致地引导模型关注哪些视觉维度。研究团队计划未来进一步优化指令设计，让风格描述覆盖更广的风格空间。
第二个局限来自Qwen-Image的生成偏见。这个模型在遇到某些文化相关风格时，会自动关联一些刻板印象。比如当风格描述包含"日本绘画"时，生成的人物往往穿着和服、留着传统发型，场景带着明显的江户时代或明治时代气息。这是模型训练数据里固有的文化偏见，靠改进指令模板解决不了，只能期待未来更好的生成模型来逐步修正。
尽管如此，研究团队对整个框架的可扩展潜力持乐观态度，并计划把数据集规模扩展到1000万张的级别。
说到底，MegaStyle这项工作的核心贡献是把一个"数据质量"问题转化成了一个"提示词工程"问题，然后借助大型生成模型的稳定性把它优雅地解决了。当你手里有一份精确的风格描述，现代的文生图大模型会忠实地按照这份描述生成图片，而且每次生成都高度稳定——这个特性，在此之前一直被忽视，现在被研究团队发现并充分利用了。
对于普通用户而言，这项研究最直接的意义是：未来的相机滤镜、图片编辑软件、AI绘图工具，在处理"照着这种风格画"这个任务时，将有更高的准确率和稳定性。你指定一个风格参考，工具输出的结果会真正学到那种风格的内在逻辑，而不是只把颜色抄走。这是画风"翻译"走向真正精准的一步。
Q&A
Q1：MegaStyle-1.4M数据集和以前的风格数据集相比，最大的区别是什么？
A：最大的区别在于风格内部的一致性和风格种类的丰富程度同时达标。以前的数据集，比如OmniStyle-150K，只有1000种风格，而且同一组图内部风格不稳定；WikiArt有真实画作但风格分类太粗糙。MegaStyle-1.4M覆盖了17万种细粒度风格，共140万张图，并且同一种风格下的所有图片由同一份文字描述生成，风格高度一致。
Q2：MegaStyle-Encoder评价风格相似度和普通CLIP有什么本质区别？
A：CLIP本质上是为了理解图像内容（画面里有什么）而训练的，用它判断风格相似度，就像拿温度计量湿度，方向不对。MegaStyle-Encoder基于SigLIP进行微调，训练目标明确设定为：同一种风格的图片彼此靠近、不同风格的图片彼此远离，还加入了风格描述文字作为辅助监督，让模型专注于笔触、质感这些真正的风格特征，而不是颜色或内容。
Q3：MegaStyle-FLUX为什么在风格相似度上不是得分最高的，却仍然被认为效果最好？
A：风格得分最高的Attention-Distillation（85.59分）是靠大量复制参考图内容实现的，文字指令几乎被无视，内容对齐得分极低（20.29分）。这相当于"把答案原封不动抄过来"来拿高分，其实什么都没学会。MegaStyle-FLUX的风格得分76.16排名第二，但文字对齐得分23.20排名第一，人工评价的风格和内容偏好得分也均排名第一。真正的风格迁移需要同时做到"画风像参考图"和"内容跟文字提示一致"，MegaStyle-FLUX是唯一同时满足两个条件的方法。

		自动登录	找回密码
密码			立即注册

同济大学与腾讯联手，如何用\"画风配方\"造出史上最大风格图库？ ...

浏览过的版块