【天天新视野】融资丨「星尘数据」完成5000万元A轮融资,华映资本领投
近日,AI数据服务商星尘数据宣布完成5000万元人民币A轮融资,本轮融资由华映资本领投,小米生态链背景的厚天资本和瑞夏资本跟投。融资将用于端
强烈建议先阅读:一文弄懂 Diffusion Model
1. 论文信息标题:Multi-Concept Customization of Text-to-Image Diffusion
作者:Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.
【资料图】
原文链接:https://arxiv.org/pdf/2212.04488.pdf
代码链接:https://www.cs.cmu.edu/~custom-diffusion/
2. 引言最近通过文本生成图像的深度学习相关技术取得了非常大的进展,2021已经成为了图像生成的一个新的milestone,诸如DALL-E和Stable diffusion这种模型都取得了长足的进步,甚至达到了“出圈”的效果。通过简单文本prompts,用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景,并把它们进行组合排序,这让现有的图像生成模型看上去是无所不能的。
但是,尽管这些模型具有多样性和一些泛化能力,用户经常希望从他们自己的生活中合成特定的概念。例如,亲人、朋友、宠物或个人物品和地点,这些都是非常有意义的concept,也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的,因此在大规模的模型训练过程中很难出现。事后通过详细的文字,来描述这种概念是非常不方便的,也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像,我们能否用新概念(例如宠物狗或者“月亮门”,如图所示)增强现有的文本到图像扩散模型?经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战:
首先,模型倾向于遗忘现有概念的含义:例如,在添加“moon gate”这一concept的时候,“moon”的含义就会丢失。其次,由于stable diffusion这样的网络往往参数会超级多,所以在小数据上训练模型,容易造成对训练样本进行过拟合,而且采样中变化也有限。此外,论文还关注了一个更具挑战性的问题,即组group fine-tuning,即能够超越单个个体concept的微调,并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的,比如 concept mixing以及concept omission。在这项工作中,论文提出了一种fine-tuning技术,即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战,新方法固定一小部分模型权重,即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。为了防止模型丧失原来强大的表征能力,新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation,这可以让模型更快的收敛,并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上,并对各种数据集进行了实验,其中最少有四幅训练图像。对于添加单个concept,新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是,我们的方法可以有效地组成多个新concepts,而直接对不同的concepts进行组合的方法则遇到困难,经常会省略一个。最后,我们的方法只需要存储一小部分参数(模型权重的3%),消耗的GPU memory非常有限,同时也减少了fine-tuning的时间。
3. 方法总结来讲,论文提出的方法,就是仅更新权重的一小部分,即模型的交叉注意力层。此外,由于目标概念的训练样本很少,所以使用一个真实图像的正则化集,以防止过拟合。
对于Single-Concept Fine-tuning,给定一个预训练的text-to-image diffusion model,我们的目标是在模型中加入一个新的concept,只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识,允许根据文本提示使用新概念生成新的图像类型。这可能具有挑战性,因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要,也比较有挑战。所以就仅仅fine-tuning新的K和V,而对于query,则保持不变,这样就可以增加新概念的同时,保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式:
概括起来实际上非常简单,就是训练一个k和v的矩阵,来扩充维度,增加模型的表征能力,使其能生成更为丰富的图像内容。
而对于Multiple-Concept Compositional Fine-tuning,为了对多个概念进行微调,我们将每个概念的训练数据集合并,并使用我们的方法将它们联合训练。为了表示目标概念,我们使用不同的修饰符的
由于我们的方法仅更新与文本特征相对应的key和value投影矩阵,因此我们可以将它们合并,以允许使用多个微调概念生成。让集合
近日,AI数据服务商星尘数据宣布完成5000万元人民币A轮融资,本轮融资由华映资本领投,小米生态链背景的厚天资本和瑞夏资本跟投。融资将用于端
12月29日换电概念板块较上一交易日下跌0 13%,海汽集团领跌。当日上证指数报收于3073 7,下跌0 44%。深证成指报收于10996 41,下跌0 13%。换电
前列腺按摩你是否试过?滋味如何?比较自慰,前列腺按摩作为一种行为疗法,不仅不会引起前列腺充血的问题,更可以大大提高性快感。那么为什么
【环球网综合报道记者赵友平】香港大公文汇全媒体、经济日报网消息称,新冠疫情暴发3年以来,香港首个前往澳门的旅行团将于今日(29日)下午4
武汉12岁的周周一个多星期前出现阵发性咳嗽并伴有发热,家长害怕去医院会交叉感染,于是在家自行吃药治疗。退热之后,周周咳嗽的症状没有好转
这一生态特点导致个别韩国媒体经常不顾事实真相,在涉华报道中采取片面的偏执态度,故意炒作抹黑中国形象,试图毒化中韩关系,给两国关系健康
证券简称:慧辰股份 证券代码:688500上海荣正企业咨询服务(集团)股份有限公司
CFi CN讯:(一)实际募集资金金额和资金到位情况经中国证券监督管理委员会《关于核准浙江天正电气股份有限公司首次公开发行股票的批复》(证
日本央行表示,将10年期日本国债收益率波动区间从目标水平扩大,将有助于加强收益率曲线控制的可持续性。货币政策方面,日本央行表示,将继续
朝鲜官方传媒周三(28日)早上报道,朝鲜最高领导人金正恩在执政劳动党第八届六中全会第二天会议上,公布军方在2023年的新目标,意味着在踏入
在使用电热水器洗澡的过程中,电热水器的内部电器元器件或者是加热棒出现故障以后,这些漏电电流是会顺着水路传输的。漏电电流在与人体接触的
(原标题:凯盛新材:目前公司氯化亚砜产能基本可以满足当下自用和客户需求)同花顺(300033)金融研究中心12月27日讯,有投资者向凯盛新材(3
央视网消息:经过十余年施工建设,今天(12月27日),连接四川省德阳绵竹市和阿坝州茂县的绵茂公路正式建成通车,全程通行时间约为1小时20分钟
中新经纬12月27日电微念官方微信号27日消息,微念与李子柒在绵阳市中级人民法院的调解下,双方达成和解。截图来源:微念官方微信号国家企业信
“互联网+医疗”大数据可以为防疫提供参考吗?近日,随着疫情防控措施持续优化,关于各地疫情峰值的大V模型、小程序预测等也引发了网友的讨论
证 券 代 码:002179 证 券 简 称:中航光电 公 告 代 码:2022-087号
为了激发更多商家参与到公益服务,树立积极向上的商业形象,成都市武侯区顺江社区携手成都幸福家社会工作服务中心,于2022年12月24日在智慧雅
九龙证券指出,2022年以来一向压制A股的多重因素将在2023年迎来转机,下一年A股有望逐渐聚力上行,延续已开启的中期全面修正趋势。迈向后疫情
卡塔尔世界杯结束了,阿根廷夺冠,梅西封王,圆满了。我想说青春结束了,却又怕显得矫情。第一次看世界杯,还是在20年前的2002年。那时候还小
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
凤凰网科技讯北京时间12月24日消息,眼下,埃隆马斯克(ElonMusk)的巨额财富和借贷能力正受到特斯拉公司的考验。就在他急于稳定自己在推特公司javas
中京电子公告,公司拟在泰国投资新建印制电路板(PCB)生产基地,主要产品为高密度多层板(MLB)和高密度互连板(HDI),重点应用领域包括汽车
截至2022年12月23日收盘,ST升达(002259)报收于3 38元,上涨3 05%,换手率2 26%,成交量17 03万手,成交额5711 28万元。12
1、发尾的风2、一笔画情3、冰蓝色的雨4、记忆之城5、笙歌歇尽6、九妄碎梦7、乱世笙歌8、依旧可爱9、蜜糖怀抱10、怀倦几秋11、情话饶舌12、眼神
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可