大佬有Q群吗 学习炼丹 :)
大佬有Q群吗 学习炼丹 :)
没有。
炼丹的话在C站和B站找找教程,不难的,成本主要在硬件和时间上。
嗯嗯 核心是想学习下数据集准备 例如是否都要白底图 发型 侧脸等怎么处理 打标要注意什么
数据集确实是核心。
就人物lora而言,我个人的经验是抠背景的好处多于坏处。
好处是只需要描述人物主体,训练时会减少干扰,坏处则是变成白底或黑底后有些动作会难以描述(比如靠墙撑杆之类的动作,因为物体消失了会显得不符合逻辑);但一定要抠干净,目前应该还是BiRefNet最好用,如果用comfyui抠图的话,要注意ComfyUI_BiRefNet_ll这个节点不要更新到最新,用3月的版本就行,最新版本虽然更快但抠出来的可能会有毛边,这个需要自行测试一下。
白底黑底都可以,黑底相对好描述一些,因为图片处理时会自动将透明背景识别成黑色背景,打标时描述为纯黑色背景就行。
发型描述想要准确一点可以借助现有的AI语言大模型进行识别,比如通义千问就能比较准确地描述发型。
用自然语言打标的,基本上都可以让千问来描述图片,结果只需要简单修改一下即可;
如果不是自然语言类的,比如老一点的sd,理论上用wd14tagger识别出来的发型也足够了,注意头发长度描述是否准确就行。
纯粹的侧脸也就是半边脸,打标时得说明是“侧脸轮廓”,如果是sd的就是"profile";
如果不是纯粹侧脸,打标时可以说明一下转向程度,比如”头部略微转向镜头左侧",进一步可以更准确地描述为”头部向镜头左侧转向了45度",也可以宽泛一点的就直接描述为”四分之三侧脸“,这个描述因为是专用名词,sd里面也可以用,叫作”Three-quarters profile“或者"Three-quarters view";
总体来说,新出来的模型本身对侧脸的处理就已经不错了,所以倒不用刻意添加一些侧脸图片。
新出的模型基本都可以用中文自然语言进行打标,我自己使用的大概就是下面这种格式:
"一位年轻东亚女性,肤色白皙,棕色眼睛,眼神温柔。她留着深棕色中长发,发尾微卷,自然垂落于肩部。她面带浅浅微笑,嘴唇涂有柔和的珊瑚色口红,妆容精致自然。她穿着一件米黄色圆领上衣,衣身布满圆形几何刺绣图案,以蓝绿色与金色丝线为主,中心点缀深色圆形珠饰,富有民族风与手工质感。她身体微微前倾,头部略微向右倾斜,目光直视镜头,表情亲切自然。画面构图以人物胸部以上为主体,背景为纯黑色,突出人物轮廓与服饰细节。光线柔和均匀,来自正面,营造出温暖、干净的视觉氛围,整体风格为时尚写真,强调真实质感与细腻纹理。"
如果是sd、flux这种用tagger打标的,大概是下面这种格式:
"a woman, long hair, realistic, watch, looking at viewer, wristwatch, black background, simple background, upper body, parted lips, sweater, brown hair, jewelry, long sleeves, brown eyes, black hair, photorealistic, hand on own chest"
去除掉nose/feet等直接的五官或肢体描述,也就是遵循基础原则——需要保留的(人物)特征,就不要描述出来;
如果有触发词的话,放在最前面就行。
非常感谢回复 很详细 很有启发! 模型对中文的支持令咱振奋. 最后不知道咱们尺寸方面有没有建议要求 我一半用那种抖音长条尺寸 比如7201024 这种 感觉是不会有问题 还是转化成10241024正方形要好点? 我自己喜欢生成长条形抖音那种尺寸的图..
一般不需要自行转化,现在比较好用的训练器比如kohya_ss和ai-toolkit都是支持自动裁剪的,也就是分桶处理(buckets)。
原图为7201024的话,训练分辨率设置成512512应该是比较合适的,也可以试试512768和768768;
训练器一般会将原图缩放并裁剪成最接近训练分辨率的比例,然后再用这些处理过后的图片开启真正的训练;
可能需要注意的是训练器使用的裁剪方式一般是center crop(中心裁剪),也就是会尝试删除图片四周的内容,但理论上只要人物脸部不要太靠近边缘,一般都不会对训练结果产生负面影响。