”小有可为“AI开源公益赛 -- 我们用AI给孤独症儿童做了一本书

”小有可为“AI开源公益赛 -- 我们用AI给孤独症儿童做了一本书

一、介绍

1.1 赛题背景

“小有可为”公益赛旨在通过真实社会问题的场景设定,引导参赛者将前沿 AI 技术应用于弱势与特殊人群的支持与赋能。我们选择的赛题二聚焦孤独症谱系障碍(Autism Spectrum Disorder, ASD)儿童绘本生成,以 Qwen-Image 系列模型为基础,通过 LoRA 微调训练,构建适配 ASD 儿童需求的绘本视觉风格与生成工作流。孤独症儿童在社交沟通、语言理解、兴趣与行为模式以及感知加工等方面具有明显差异,传统面向普通儿童的绘本在信息复杂度、叙事节奏和视觉呈现上往往难以匹配其认知特点。赛题提出以多模态生成模型为核心,探索如何在保证风格一致性与画面可控性的前提下,为 ASD 儿童提供简洁、清晰、可个性化调整的绘本内容。

1.2 主要任务

在该赛题中,参赛团队需基于 Qwen-Image 训练风格 LoRA,并结合主办方提供的绘本故事文本,生成面向四类功能场景(常识认知、社交礼仪、心智解读、趣味故事)的多图故事绘本。主要任务包括:

  1. 分析 ASD 儿童的认知与视觉特点,抽象出适合其使用的绘本风格规范;
  2. 构建和整理训练素材,对 Qwen-Image 进行 LoRA 微调,使模型在多页、多故事场景中保持角色与风格一致;
  3. 设计面向不同功能类型的提示词与生成流程,确保表情、动作和情节细节与文本故事高度贴合;
  4. 产出至少 8 个故事的完整绘本图像与对应提示词,并在魔搭社区发布 LoRA 模型。

二、背景介绍

2.1 自闭症儿童的背景与特征

自闭症谱系障碍是一类神经发育障碍,其核心特征包括持续性的社交沟通缺陷,以及受限、重复的行为、兴趣或活动模式。这些特征通常在儿童早期即已出现,并对学习、生活与社会功能造成显著影响。对于 ASD 儿童来说,理解社交信息往往需要持续、反复的教学支持:在自然互动中,他们难以通过眼神、表情和语调快速捕捉他人意图;对隐喻、幽默等非字面语言的理解能力有限;在群体活动中,他们也较少主动发起互动,更倾向选择独自玩耍。

为了让自闭症儿童学习理解社交信息,传统课堂中的教学介入,通常依赖口头讲解、规则说明或情景演示。长期倚重这些方式,一方面加重了教师的讲解与课堂管理负担,另一方面也容易让学生感到无聊、疲惫,从而难以维持注意力。市面上已有一些将游戏化和交互式应用引入干预过程的尝试,但在个体化程度、成本限制和可扩展性方面依然存在不足。

此外,ASD 儿童在感知与兴趣方面也呈现出显著的个体差异。有的儿童对声音、光线和视觉刺激高度敏感,过于复杂的画面可能带来额外的认知负担;有的儿童对固定秩序有强烈依赖,对变化反应明显;也有部分儿童的兴趣高度集中于少数主题,对非兴趣内容缺乏学习动机。正因为如此,任何面向 ASD 儿童的有效教学材料,都必须在信息量控制、一致性与可预测性方面进行更为精细的设计。

2.2 利用绘本作为辅助教学介入

绘本以图文结合的方式呈现情境,本身就非常适合支持 ASD 儿童的学习与干预。相较于口头讲解或抽象规则,绘本的优势首先体现在“直观性”上:图像能直接呈现人物、场景与动作细节,大幅减少理解负担;其次是“结构化”,一页一情境的形式天然符合“起因—经过—结果”的叙事方式,便于拆解复杂行为;同时绘本内容稳定,可反复阅读,有助于形成惯例与长期记忆;此外,绘本还能将社交规则、情绪变化与应对策略嵌入具体情境中,为行为迁移提供了良好的桥梁。

但在真实教学场景中,要让绘本真正有效服务于 ASD 儿童,其难点与挑战同样显著。首先是来自儿童本身的特征差异。许多 ASD 儿童视觉敏感度较高,若画面过于复杂、背景元素冗余或叙事线索太多,容易造成信息超载;同时,他们在兴趣主题、语言水平与认知能力上的差异极大,使传统的“通用绘本”往往难以匹配个体需求。其次,在家庭端,家长普遍面临缺乏适配孩子认知水平的绘本资源的问题。市面上大多数绘本针对普通儿童设计,内容元素多、结构复杂,不利于 ASD 儿童筛选与理解关键信息,而家长也通常缺乏足够的专业能力与时间来自行制作高质量的个性化材料。再者,从机构端来看,特教老师往往需要为“每个孩子”准备“定制化”的教学绘本和视觉提示卡,这意味着重复而繁琐的手工制作流程、可观的时间成本和难以规模化的工作负担。在有限的人力与时间条件下,要同时兼顾个体化与材料质量,几乎是不可能完成的任务。

在这样的背景下,一个既能支持个体化定制,又能在视觉品质与结构化表达上保持高度一致性的绘本自动生成方案,具有清晰且迫切的实践价值。

2.3 基于多模态 AI 的解决思路

基于“大语言模型 + 图像生成模型”的多模态方案,对绘本的文本内容与视觉呈现进行联合建模。在语言层面,我们希望让模型能够理解儿童的兴趣偏好(例如特定的动物、颜色或交通工具)、其认知与语言水平(如句式复杂度、词汇难度、叙事节奏)以及故事场景的功能类别(如常识认知、社交礼仪、心智解读或趣味故事)。基于这些条件,大语言模型能够生成结构清晰、语义明确、信息量适中且紧贴教学目标的故事文本,为后续的图像生成提供扎实的语义基础。在视觉层面,我们以 Qwen-Image 作为基础模型,并通过 LoRA 微调来确保生成的绘本图像符合 ASD 绘本的视觉规范。具体而言,所有故事中的角色需要在发型、服饰与身体比例上保持一致,以维持角色辨识度;整体画风应稳定统一,避免跨页风格跳变;构图上尽可能保持简洁,让每一页聚焦于单一的核心信息,减少多主体、多线索带来的干扰;色彩策略偏向高饱和度纯色块,以凸显主体并避免复杂渐变造成的认知负担;同时,在背景呈现上尽量弱化无关细节,控制装饰性元素数量,从而降低视觉噪音。通过提示词策略与 LoRA 微调的结合,我们力图在多图故事的生成过程中维持风格与角色的一致性,并能根据不同教学功能(如认知、礼仪、心智、趣味)灵活调整构图和色彩设计,使生成结果更贴合 ASD 儿童的实际学习与使用需求。

2.4 核心挑战

在上述思路的基础上,本项目在实际落地时仍面临若干关键挑战。首先是风格统一性:绘本往往跨越多个情节与页面,如果模型无法在不同故事或不同页之间维持一致的画风、色彩和整体氛围,就容易出现明显的“断层感”,影响阅读连续性。其次是人物一致性:主角需要在不同场景中保持稳定且可识别的外貌与比例,这既依赖训练数据的设计,也依赖提示词的严格控制,否则角色形象可能在跨页时发生漂移。第三个挑战来自表情与动作的贴合度。ASD 绘本在许多情况下依赖夸张且直观的情绪表达来辅助理解,因此模型不仅要“画对角色”,还必须根据文本生成具有足够辨识度的表情和动作,这对于社交礼仪类和心智解读类绘本尤为重要。最后一个挑战是构图与色彩对 ASD 视觉特性的适配。相比“好看”,ASD 儿童更需要视觉上明确、对比清晰、结构可预测的画面。因此,如何控制画面复杂度、避免过度混色、保持信息焦点突出,是生成时必须重点解决的问题。后续章节将围绕这些挑战,系统呈现我们在数据准备、风格建模、LoRA 训练与绘本生成各环节中的具体方法与实验过程。


三、方法论

3.1 风格确定

在为 ASD 儿童设计绘本时,首先必须区分两类完全不同的设计逻辑:“绘本要教什么”(功能)与 “绘本要怎么画”(风格功能维度决定故事本身的教育目标,例如:社交故事类故事旨在教社交技能,减少焦虑;情绪认知类强调识别情绪及其调节。不同功能所服务的学习目标本质不同。而风格维度关心的是最终画面应该采取怎样的视觉呈现方式。例如,常识认知类绘本通常需要写实、简洁、单主体的构图,以便儿童能将视觉信息迁移到现实生活;心智解读类绘本则依赖“情绪—事件”的对比结构,通过左右构图和颜色映射帮助孩子理解因果关系。这两套逻辑互不替代:功能决定内容焦点,而风格决定视觉策略。仅依赖任意单一维度都会导致设计上的偏差,因此必须将二者结合,才能系统地指导绘本的构图、色彩和表达方式。

基于功能的绘本分类(内容来源 - “小有可为”赛方直播)
基于绘本风格的绘本分类(内容来源 - “小有可为”赛题要求)

因此,我们将两套逻辑——来自儿童能力发展的 功能分类(社交故事、情绪认知、自理能力、感官刺激、兴趣拓展)以及来自绘本创作的 风格分类(常识认知、社交礼仪、心智解读、趣味故事)——整合到一个“功能 × 风格二维矩阵”中。

功能 × 风格二维矩阵:

功能目标 ↓ / 视觉风格 →常识认知社交礼仪心智解读趣味故事
社交故事类可能用写实或卡通混合展示社交场景主风格(分格漫画、夸张动作)可用心智解读强化情绪反馈可转为故事形式增强兴趣
情绪认知类用简单物象象征情绪变化结合社交场景(如“道歉”)主风格(左右对比、颜色映射)可延展为趣味化情绪故事
自理能力类主风格(单主体操作步骤)可嵌入礼仪行为(如洗手)--
感官刺激类写实简洁、强化感官元素-可用色彩强化情绪平复可延展为放松主题故事
兴趣拓展类---主风格(连续场景、主题色)

在该矩阵中,行维度描述故事的教学目标(即该故事属于哪类教育功能),列维度规定该类型故事应采用的视觉表达策略。每一个单元格都进一步给出具体的画风、构图方式和色彩策略,例如:

  • 情绪认知 × 心智解读 → 左右对比结构 + 情绪色彩映射;
  • 自理能力 × 常识认知 → 单主体操作步骤 + 写实物体特征;
  • 社交故事 × 社交礼仪 → 分步骤交互结构 + 夸张动作线;
  • 感官刺激 × 趣味故事 → 强化动态形变 + 高频感官反馈。

通过这种方式,我们能够系统性地为每一个绘本故事找到它应当采用的视觉表达方式,接下来,我们将官方所提供的测试集中的不同故事映射到二维矩阵中:

story_type示例标题教育功能分类(直播逻辑)风格分类(官方逻辑)归类原因
常识认知拍皮球感官刺激 + 兴趣拓展常识认知主题以“物体特征+运动体验”为核心,强化“触觉、听觉(砰砰砰)”感受,带有感官训练性质。
常识认知吃苹果自理能力常识认知包含“拿、洗、吃、分享”等操作顺序,帮助儿童建立日常行为程序。
常识认知喂鸽子社交故事 + 感官刺激常识认知含与他人共同行动(合作喂鸽)+ 视觉刺激(鸽子、撒米),兼具社交与感官双重功能。
常识认知用过的东西要收好自理能力常识认知强调生活秩序与物品归位,典型的“行为习惯训练”类故事。
常识认知坐高铁常识认知 + 自理能力常识认知教儿童认识公共交通与出行流程,属于“社会常识+规则学习”。
社交礼仪主动打招呼社交故事社交礼仪场景直接展示“打招呼”的礼仪规则,典型社交学习内容。
社交礼仪不小心碰到人要说对不起社交故事 + 情绪认知社交礼仪教“道歉”礼仪,同时涉及“他人情绪理解”。
社交礼仪邀请同学玩游戏社交故事社交礼仪明确教发起社交互动的行为流程;分步骤叙事,适合漫画格表现。
社交礼仪等别人说完社交故事 + 情绪认知社交礼仪主题为“倾听等待”,内含自我抑制和社交规范。
社交礼仪排队滑滑梯社交故事社交礼仪强调公共秩序、等待规则,纯粹社交场景训练。
心智解读小朋友不借给我玩具情绪认知心智解读聚焦“失望—调节—替代行为”,典型情绪理解与管理训练。
心智解读乐乐要吃饭情绪认知 + 自理能力心智解读表达“饥饿情绪→自伤→图卡沟通”的因果理解;训练表达与调节。
心智解读大大的喷嚏情绪认知 + 社交故事心智解读教孩子理解“自己行为→他人反应”的情绪因果链。
心智解读小熊耳朵脏了情绪认知 + 社交故事心智解读教“他人难过—自己反思—道歉修复”,核心是同理心。
心智解读分你一块小饼干情绪认知 + 社交故事心智解读理解他人需求并主动分享,情绪感知与社交互动兼具。
趣味故事堆雪人兴趣拓展 + 社交故事趣味故事在合作活动中培养社交兴趣,具备故事性与愉悦体验。
趣味故事影子游戏感官刺激 + 兴趣拓展趣味故事强调视觉形变与身体模仿,属于感官游戏型故事。
趣味故事一起吹泡泡兴趣拓展 + 社交故事趣味故事互动游戏类场景,强化“轮流”“比较”“合作”。
趣味故事接球游戏社交故事 + 情绪认知趣味故事包含“输赢调节、鼓励与再尝试”,结合社交与情绪成长。
趣味故事课堂作业情绪认知 + 自理能力 + 社交故事趣味故事综合型故事:挫折情绪管理 + 求助社交 + 自我表达。


最终得到二维矩阵 + 测试集的映射矩阵:

功能目标 ↓ / 风格类别
常识认知社交礼仪心智解读趣味故事
社交故事类喂鸽子打招呼 / 邀请
/ 排队 / 等别人说完
小熊耳朵脏了 / 分饼干 / 大喷嚏堆雪人 / 一起吹泡泡 / 接球游戏 / 课堂作业
情绪认知类-不小心碰到人要说对不起乐乐要吃饭 / 小朋友不借玩具接球游戏 / 课堂作业
自理能力类吃苹果 / 用过的东西要收好 / 坐高铁-乐乐要吃饭课堂作业
感官刺激拍皮球--影子游戏
兴趣拓展类喂鸽子--堆雪人 / 一起吹泡泡

根据最后的映射矩阵,我们可以确保所有生成结果既服务于 ASD 儿童的学习需求,又在风格上保持一致、可控且可解释。这一矩阵也成为后续训练集筛选、提示词构建与 LoRA 微调的重要基础,使整个绘本生成流程具备清晰的风格依据与稳定的视觉方向。

3.2 流程介绍

为了构建可用于孤独症儿童绘本生成的专属风格 LoRA,我们遵循了一个标准化的、多阶段处理流程。该流程参考并借鉴了 ModelScope 官方提供的 LoRA 训练与生成工作流,包括素材准备、标注规范化、训练配置与生成策略等内容[2][3][4][5][6][7]。

整体流程由五个主要步骤构成:“构思 -> 训练集准备 -> 打标 -> 参数设置 -> 绘本生成”。

  1. 构思(Ideation)
    明确目标风格、功能场景与角色设定,收集参考示例并确定期望的绘本视觉特征。
  2. 训练集准备(Dataset Construction)
    从多来源收集与目标风格一致的图像素材,并按照角色类与场景类进行分类整理,确保训练数据在风格与内容上的一致性。
  3. 打标(Captioning)
    根据统一的标签范式,为每张训练图像生成简洁、规范的描述文本,为 LoRA 学习提供更明确的风格与构图信号。
  4. 参数设置(Training Configuration)
    配置 LoRA 训练参数(如学习率、rank、batch size 等),并选择合适的基底模型与训练步数,以确保模型既能学习风格,又避免过拟合。
  5. 绘本生成(Inference & Book Composition)
    基于训练好的 LoRA,通过模块化提示词模板与风格锚定策略生成绘本图像,并保证跨页风格统一、角色一致及画面可控。

该流程为整个方法论提供了清晰的执行路径,使我们能够系统、高效地构建符合 ASD 儿童视觉需求的绘本风格模型。

3.3 具体流程

3.3.1 构思

在构思阶段,我们首先依据前述“功能 × 风格”二维矩阵,确定每个故事在画风、构图与色彩上的核心需求,并据此建立绘本的整体视觉方向。随后,我们在市面上筛选与目标风格具有较高相似性的绘本与插画,作为风格参考样例。在获得这些参考图像后,我们将它们输入大模型进行“提示词反推”,自动解析图像所采用的画风特征、主色调、光影处理、构图方式、人物比例与背景复杂度等视觉元素,并提炼出能够有效指导 LoRA 训练的风格关键词。在这一基础上,我们再结合 ASD 绘本的特殊视觉需求(如高对比度色块、低背景干扰、关键动作强调、面部表情清晰化)对反推提示词进行定制化微调,使其更符合我们的目标风格。最终,我们根据调优后的提示词在 Midjourney 中批量生成一组风格统一、视觉稳定的参考图像,作为后续训练集中“风格锚定”的基础素材,同时也为 LoRA 模型的微调提供明确的视觉目标与一致性的风格框架。

以《吃苹果》为例,《吃苹果》的文本内容:

["桌上有一个苹果。", "苹果,红红的。", "乐乐拿起苹果,洗了洗。", "苹果,香香的。", "“咔嚓 ——” 乐乐咬了一口苹果。", "朵朵说:“我也要吃苹果!”", "乐乐递给朵朵一块苹果。", "苹果,甜甜的。", "他们吃着苹果,笑得真甜。"]

《吃苹果》在二维矩阵中的功能风格维度分别对应:“自理能力”,“常识认知”。在功能维度上属于“自理能力类”,意味着我们需要强调日常操作步骤的清晰呈现,并通过重复性与指令性的叙述帮助儿童理解动作链条。因此,我们将文本内容拆解为一系列连续的关键动作,包括苹果特写、拿起苹果、洗苹果、闻味道、咬苹果、递苹果以及两人共同品尝等环节。明确动作序列后,也随之确定了绘本中必须突出表现的关键瞬间。在风格维度上,《吃苹果》归属于“常识认知类”绘本,其视觉目标是帮助孤独症儿童识别事物特征并建立生活规则,因此画风应保持简单且写实,色彩以高饱和纯色块为主,背景应尽量简化以减少干扰,构图上保持单页单主体与中心对称,以强化视觉焦点。综合两个维度后的风格定位,使我们能够明确本绘本在执行层面上需要遵循的原则:保持单主体呈现、突出关键动作、强化写实风格以及确保色彩清晰明快。

功能目标 ↓ / 风格类别
常识认知社交礼仪心智解读趣味故事
社交故事类喂鸽子打招呼 / 邀请
/ 排队 / 等别人说完
小熊耳朵脏了 / 分饼干 / 大喷嚏堆雪人 / 一起吹泡泡 / 接球游戏 / 课堂作业
情绪认知类-不小心碰到人要说对不起乐乐要吃饭 / 小朋友不借玩具接球游戏 / 课堂作业
自理能力类✅吃苹果 / 用过的东西要收好 / 坐高铁-乐乐要吃饭课堂作业
感官刺激类拍皮球--影子游戏
兴趣拓展类喂鸽子--堆雪人 / 一起吹泡泡

确定视觉方向后,我们进一步从市面上筛选与目标风格接近的绘本作为参考,并借助大模型对这些参考图像进行提示词反推,从中提炼可用于后续训练的风格关键词、构图描述与色彩逻辑。经过比较,我们最终选定 Benji Davies 的《The Storm Whale》与《我的情绪小怪兽》作为参考样例,这两部绘本均具备色彩饱和、画面简洁的特点,符合 ASD 绘本对视觉明确性的要求。虽然两者在写实程度上略有不足,但这些差异可以通过后续提示词微调与 LoRA 训练来弥补。

《The Storm Whale》
《我的情绪小怪兽》

3.3.2 训练集准备

在准备训练集时,我们的核心目标是让 LoRA 能够稳定地学到“同一种画风”和“一致的人物形象”。因此,整个数据构建流程都围绕“统一风格、可控生成、保证多样性”这三件事展开。首先,我们希望所有训练图片的画风在视觉上能一眼看出“是同一个绘本系列”,因此在 Midjourney 中会使用统一的 prompt 模板,结构通常是“触发词 + 画风描述 + 主体(包含服装和姿势)+ 背景 + 简短氛围”。同时,我们会配合 --sref 固定参考画风、--cref 锚定人物形象,以避免风格和人物在不同场景中发生漂移。为了确保整个生成过程可管理、可复现,我们还用表格记录每一张图片对应的 prompt 和参数,这一步实际上非常关键,会让后续训练更加可控高效。

在实际数据收集时,我们先从人物入手。根据选定的风格参考绘本,为主角生成不同姿势、不同角度、不同表情的图像,让模型能够稳定识别角色的外形特征以及基本画风。之后,我们会根据测试集的每个故事,把情节拆分成多个小场景,并为每个场景生成 3 到 4 张风格一致但动作、情绪、视角有所变化的图片。这种“同风格多变化”的策略能让模型在保持风格稳定的前提下,学到更多泛化能力。通过这样的流程,我们最终得到一套既统一又丰富的训练集,也为后续的 LoRA 微调打下了扎实基础。

“乐乐” 的人物基本形象
“他们吃着苹果,笑得真甜”场景对应的生成图

3.3.3 打标过程

在准备训练集的过程中,打标其实是一个“既枯燥但又很关键”的步骤。我们先用魔搭社区里的 JoyCaption 来给所有图片跑一遍自动标注,让模型帮我们快速生成第一版描述。虽然这一步能省下大量时间,但自动生成的内容不够好,所以还需要“二次加工”。为了避免手动一个个改到崩溃,我们会让 GPT 来帮忙做“专业绘本标注员”的角色扮演:把自动标注、生成图片的原始 prompt、以及我们固定的标注规则全部输入进去,让它根据模版重新写一份更干净、统一的 caption。我们常用的模版结构很简单:

触发词 + 画风 + 主体(人物外形、姿势、动作) + 背景 + 氛围描述

我们来看一个例子,这是我们生成《吃苹果》故事中的“他们吃着苹果,笑得真甜”的prompt。“图片当前的标注信息”是我们在魔搭社区上利用JoyCaption第一次标注得到的内容;“MidJourney Prompt”是我们利用MidJourney所生成的这张图的prompt;“规则”是我们对标注内容的要求 ,可以根据自己的需求喜好进行调整;

###图片当前的标注信息###
This is a digital watercolor-style drawing depicting two children, a boy and a girl, sitting on the ground with their legs crossed, each holding and eating a large red apple. The boy, on the left, has short black hair and wears a white t-shirt and blue pants. The girl, on the right, has shoulder-length brown hair and wears a light purple shirt and white shorts. Both children have rosy cheeks and are smiling with closed eyes. The background features a soft, yellowish gradient with subtle tree shapes. The overall color palette is warm and gentle, creating a peaceful, innocent atmosphere.
 
###MidJourney Prompt###(利用MidJourney所生成这张图的 prompt)
watercolor illustration of two cheerful children, a boy named LeLe and a girl named DuoDuo, both happily eating red apples. LeLe wears a white shirt and blue pants, DuoDuo wears a lavender dress with a ponytail hair. They sit or stand side by side, smiling brightly with apples in their hands, cheeks puffed, and joy lines or playful hand-drawn strokes around them showing laughter and happiness. Warm yellow watercolor background, soft sunlight glow, simple and balanced composition, childlike picture book style, expressive brushstrokes, focus on the shared joy of eating apples together, lively and heartwarming atmosphere --ar 3:2 --v 6.0 --raw 
###规则###
1. 范式:触发词 + 画面风格 + 主体(包括服装姿势等) + 背景 + 主要氛围(氛围描述不易过多,简单概括即可,例如光线、特效等);
2. 标签不宜过于复杂,单张图片的标签尽量不要超过225个token。过多的标签在生成图像时可能会带来不便,而过少的标签可能无法提供足够的信息;
3. 用英语来做标注;
4. 触发词:watercolor(可自己设定);
5.如果图片中是男孩的话,那么他的名字是“LeLe”; 如果是女孩的话,那么角色名字是“DuoDuo”;
6.你可以参考Midjourney生成的prompt对图片想传达的信息进行更深的理解,并在标注的时候体现出来;
7.这个场景和上一个场景是一样的,所以我希望你进行标注的时候注意调整措辞,保证标注信息的多样性;


最终微调后的标注内容:

watercolor, soft picture book illustration of LeLe and DuoDuo sitting side by side on the ground, happily eating red apples. LeLe, the boy on the left, has short dark hair and wears a white t-shirt with blue pants, smiling with his eyes closed as he takes a bite. DuoDuo, the girl on the right, has short brown hair and wears a light purple dress, also smiling joyfully with her eyes closed while eating her apple. Both children are barefoot, sitting on warm, sandy ground with another apple resting between them. The background is a gentle yellow watercolor wash with hints of beige and faint trees, radiating warmth and happiness. Bright, cheerful atmosphere.

3.3.4 模型训练

这里提供一张可以参考的参数表,我们项目中并没有做过多的参数试验,这里就不展开了。

步数 (Repeat)建议设置为8-12步
训练轮数 (Epochs)建议设置为10-15次
图像分辨率建议设置为768-1024,并开启分桶功能(开启分桶后可以自适应素材的尺寸)。
学习率 (Learning Rate)学习率就像模型在学习时“迈出的步子”的大小。如果步子太大(学习率过高),模型可能会在最优解附近跳来跳去,难以收敛,导致训练不稳定或者效果不佳。如果步子太小(学习率过低),模型学习的速度会非常慢,可能需要很长时间才能达到理想的效果,甚至可能陷入局部最优解。
在Flux风格Lora训练中的应用: 对于画风类的Lora,我们通常希望模型学习到风格的细腻特征,因此学习率一般会设置得相对较低(例如你提到的 0.0002-0.00035)。对于全新的概念或者需要更大幅度调整的场景(例如人物或特定产品),则需要更高的学习率(例如 0.0005 以上)以便模型更快地捕捉到主要特征。
Dim值 (Dimension)Dim 值可以看作是 Lora 模型用来存储“知识”的容量大小。更高的 Dim 值就像一个更大的笔记本,可以记录更多关于要学习的风格或对象的细节和复杂性。
如果你的目标风格非常细腻、包含很多复杂的纹理或笔触,可以尝试更高的 Dim 值(例如 32 或 64)。对于一些相对简单的风格或者只需要学习主体的大致特征,较低的 Dim 值可能就足够了(例如 8 或 16)。你需要根据实际效果和模型大小进行权衡。
Alpha值:Alpha 值就像是控制 Lora 模型对原始模型影响程度的“开关”。它可以调整 Lora 模型学习到的风格特征在最终生成图像时所占的比重。
当 Alpha 值d等于 Dim 值时 (Alpha/Rank = 1),Lora 模型学习到的特征会以其原始的强度与原始模型结合。
当 Alpha 值小于 Dim 值时 (Alpha/Rank < 1),Lora
模型的影响会相对减弱,可能需要更高的学习率来补偿。
较高的 Alpha 值通常能带来更强的风格迁移效果,但也可能更容易出现与原始风格不一致的情况。你需要根据你希望 Lora 模型对生成结果产生多大的影响来调整 Alpha 值。通常建议 Alpha 值设置为 Dim 值的一半或等于 Dim 值,作为起始的尝试。
优化器 (Optimizer):简单理解: 优化器是模型“如何迈出学习步伐”的具体方法。它负责根据损失函数计算出的梯度来更新模型的权重。不同的优化器有不同的更新策略,就像不同的运动员有不同的跑步方式。
通常我们在魔搭使用的AdamW,。他对初始学习率的选择不那么敏感,并且其集成的权重衰减有助于防止过拟合,这对于训练风格Lora也是有益的。
关于 Loss 值请不要过分依赖Loss值。由于不同概念的复杂程度各异,在Flux模型中,Loss值所体现的参考价值相对有限。最终的评判标准仍然是生成图像的实际效果。

参数设置参考表格[3]

3.3.5 绘本生成

在前面几个步骤完成后,我们已经拥有了训练好的 LoRA 模型。接下来要做的,就是在魔搭社区平台上利用Prompt和参数调整来生成绘本图。这个过程中参数我们没怎么动,只是将每次出图的数量选择为4,从而能够检验出图的稳定性(同一个prompt对应的图片风格和内容越相似意味着我们所训练出来的模型对于该场景的生成稳定性越高)。对于生成图片的prompt,我们构建了一套“半自动”的构建方法:我们给每一张图都设计了一个“模块化 prompt”,这个模版中包含了四个部分:

1)要生成的场景:测试集中对应的场景描述

2) 这张图的标注内容(“3.3.3 打标”中得到的场景图片标注)

3)我们用于训练的 MidJourney 参考 prompt

4)生成 出图prompt 的规则(触发词 + 画风 + 主体 + 背景 + 氛围)

在生成出图 prompt 的过程中,我们会加入一组固定的“锚定模块”来提升生成结果的稳定性。这里可以用一个更直观的比喻来理解:想象我们最终的绘本图,就像一座由积木搭建起来的城堡,而用于搭建城堡的积木,就是构成 prompt 的不同元素。我们当然不希望每次搭出来的城堡都一模一样,但也不希望它们之间差异过大、结构混乱。因此,为了在“多样性”与“稳定性”之间取得平衡,我们会在搭建过程中让某些关键积木保持固定,而其他部分则允许自由变化。类比到绘本生成上,所谓“锚定模块”就是在 prompt 里明确写出的稳定结构。例如:指定“城堡始终在画面中心”、“城堡与城墙保持左—右关系,且两者之间保持一定距离”、“它们的相对比例大约为 5:1”,等等。这些清晰的指令可以让模型在变化细节的同时,保持整体结构不变。回到绘本生成本身,我们使用的“锚定模块”也非常类似,且往往集中在最容易引发风格漂移的部分,包括但不限于:人物的相对位置、动作要点、表情强度、背景色调、旁白文字的位置与风格等。通过提前锁定这些关键元素,模型生成的图像既不会千篇一律,也不会因为自由度过大而失去一致性。

LLM 根据这些模块组合出的 prompt,能自然保持整个绘本的风格一致性。虽然理论上这一整套流程可以做到全自动化,但我们在比赛中采用的是人工检查 + LLM 重写的方式:灵活性更高,也更容易调整风格细节。最终,LoRA 会根据这些 prompt 输出绘本的最终图像。由于前面做了的“锚定”和统一,整本绘本在人物外貌、动作表现、背景风格、色彩倾向上都能保持一致,而图像之间的细微变化(表情、姿势、视角)又确保了故事本身的生动性。整个生成过程既可控、又足够自由,非常适合用于 ASD 儿童绘本这种对风格稳定性要求极高的场景。

模版示例:

###要生成的场景###

“他们吃着苹果,笑得真甜”
 

###可参考的Prompt###
soft watercolor and flat educational picture book style illustration, showing a close-up portrait of LeLe thinking quietly. LeLe is a young boy with short brown hair and fair skin, wearing his familiar burnt-orange long-sleeve shirt. the image focuses only on his upper body and face. he gently places one finger near his lips in a classic thoughtful pose, with his eyes looking diagonally upward as if recalling or understanding something important. his eyebrows curve inward slightly in a soft thinking shape, and his mouth is closed in a small, calm, reflective line. add two or three tiny curved orange thinking lines near his forehead to subtly emphasize his thoughtful mood. the background is minimal and soft, using pale pastel watercolor washes in beige or light blue, keeping all attention on LeLe’s expression and gesture. use flat clean outlines, smooth watercolor color areas, and minimal shading. 
 
###利用MidJourney生成的Prompt###
watercolor illustration of two cheerful children, a boy named LeLe and a girl named DuoDuo, both happily eating red apples. LeLe wears a white shirt and blue pants, DuoDuo wears a lavender dress with a ponytail hair. They sit or stand side by side, smiling brightly with apples in their hands, cheeks puffed, and joy lines or playful hand-drawn strokes around them showing laughter and happiness. Warm yellow watercolor background, soft sunlight glow, simple and balanced composition, childlike picture book style, expressive brushstrokes, focus on the shared joy of eating apples together, lively and heartwarming atmosphere --ar 3:2 --v 6.0 --raw 
 

###规则###
1. 范式:触发词 + 画面风格 + 主体(包括服装姿势等) + 背景 + 主要氛围(氛围描述不易过多,简单概括即可,例如光线、特效等)
2. 标签不宜过于复杂,单张图片的标签尽量不要超过225个token。过多的标签在生成图像时可能会带来不便,而过少的标签可能无法提供足够的信息。
3. 用英语来输出;
4. 触发词:watercolor
5. 可以参考“可供参考的prompt”基础上进行调整

人物:
6.锚定人物之间的相对位置关系,乐乐在画面的左边,朵朵在画面的右边;
7.利用线条来表现乐乐和朵朵吃苹果的动作;
8. 如果图片中是男孩的话,那么他的名字是“LeLe”; 如果是女孩的话,那么角色名字是“DuoDuo”背景:1. 背景是黄色,用于表现人物开心的心理状态
9. 锚定生成的字在画面中的位置、大小,字要是黑色的。字的内容:“他们吃着苹果,笑得真甜” 

得到用于出图的prompt:

watercolor, soft flat educational picture book style illustration of two small children, LeLe and DuoDuo, happily eating apples together. LeLe, the young boy with short warm-brown hair, fair skin, wearing a white T-shirt and blue pants, is positioned clearly on the left side of the image. DuoDuo, the young girl with dark-brown hair tied in a short ponytail with a red band, wearing a lavender dress and white shoes, is positioned clearly on the right. Both children smile brightly while taking cheerful bites of their red apples; draw small thin curved motion lines near their mouths and hands to emphasize the “eating apples” action. The apples should be slightly smaller than each child’s face to maintain natural child–object proportions. The background is a warm bright yellow watercolor wash, representing happiness and sweetness. At the top center of the picture, place clean black printed Chinese text: “他们吃着苹果,笑得真甜”. The composition is simple and balanced, with flat outlines, minimal shading, and a warm joyful atmosphere.

出图效果:

对应的生成图

四、结果展示

这里放一个我们生成的“常识认知”类的生成绘本。绘本中包含“拍皮球”和“吃苹果”两个故事。四个绘本风格所对应的模型链接也在下方,欢迎大家尝试并给出宝贵意见。

赛道二--常识认知.pdf

模型链接:

常识认知类模型

心智解读类模型

社交礼仪类模型

趣味故事类模型

五、反思

本项目的整体流程已经能够稳定地产生符合 ASD 儿童视觉需求的绘本图像,但仍存在多个可进一步完善的方向。首先,在打标环节,虽然使用了 LLM 辅助生成标签,但整体流程仍依赖人工校对与修订,效率有限。未来可以尝试构建更完整的自动化标注流水线,例如基于规则的自动校准或图文一致性检测,以减少人工介入,提高可扩展性。其次,由于比赛时间限制,我们未能对 LoRA 的风格一致性、人物一致性、构图稳定性等关键因素进行系统性的消融实验,也缺乏不同参数配置下的迭代对比,导致模型性能的上界可能尚未充分验证。最后,本项目尚未完成真实用户测试。未来应将生成的绘本置于 ASD 儿童的实际教学或家庭场景中,通过行为反应、注视轨迹或教师反馈等方式评估学习效果,以更科学地验证模型的实际价值。

引用

[1] EmoLand- Utilizing narrative animations, multilevel games, and affective computing to foster emotional development in children with autism spectrum disorder

[2] https://www.modelscope.cn/learn/1151?pid=1152

[3] https://www.modelscope.cn/learn/1151?pid=1153

[4] https://www.modelscope.cn/learn/1151?pid=1154

[5] https://www.modelscope.cn/learn/1151?pid=1155

[6] https://www.modelscope.cn/learn/1151?pid=1196

[7] https://www.modelscope.cn/learn/1151?pid=1247

[8] https://www.modelscope.cn/learn/1151?pid=1282