目录
第1页目录:深度学习 ->生成模型 ->StyleGAN ->玩代码 ->定制人脸生成 ->现实人脸编码 ->人脸属性编辑 ->人脸视频合成 ->
第2页目录:含穿着人物生成 ->含穿着人物服装迁移、姿态变化与动作视频生成
第3页目录:应用类生成算法——视频擦除 ->效果展示
第4页目录:多模态生成 ->商业化想法
多模态生成方向研究

多模态生成

  多模态生成是指多种模态信息输入到单/多模态信息输出的过程,譬如一段文本+人物图像的输入,模型输出人物念对应文本的合成视频,即为跨图像和文本两种模态信息的多模态生成的范例。多模态生成是一种极有价值的研究方向,简单来说,将多种模态的信息(譬如语音、文本、表情等)融入生成模型能更多维度地提取信息,有利于增强生成图像的控制能力和表意能力,带来更多元的业务场景。

  对于StyleGAN而言有两点非常适用于多模态生成的优势。第一点是StyleGAN所构建的映射并不是低维编码到图像的直接映射,而是构建了从低维编码到中间向量(W)的过渡映射,然后再映射到最终图像,因此中间向量分布宽度是足够大的(不需要服从正态分布的先验),于是W空间可作为多模态对齐和变换的操作潜空间;第二点是潜空间(W)到图像的映射方式是自适应实例归一化(AdaIN),AdaIN具有很灵活的调节功能,对于多模态融合的信息有较好的仿射拟合能力。

多模态生成样例:一种基于文本控制的图像生成模型——StyleCLIP

  譬如StyleCLIP就是一项非常有意思的工作,其将文本控制能力引入进了StyleGAN之中,使图像生成变得更易于控制和具有更丰富的功能。

April 06,2021 分割线

工作啦

  读研时光飞快,不知不觉就要参与工作了,后续的研究内容没法再对外写出了,有缘在产品的江湖再会吧。

  回顾我的读研三年时间,感觉自己蛮奇葩的:三年时间做过多种项目,但凭着较浓的兴趣也抽空捣鼓了不少与生成技术有关的博客和开源代码。我逐渐对AI有一种看法:AI的本质是盘数据的逻辑,因此我不看好人们在理解AI方面做出的尝试,因为理解数据逻辑对人类来说本身已经是超纲的事情,用数学推导去解释无法严谨也没必要。所以,我更倾向于将AI当做达成目的的工具使用,我们对于模型搭建的设计有多巧妙取决于我们对于数据逻辑的感知有多精准。所以,AI的本源是工程。人生苦短,不妨硬训一发。

May 07,2022 商业化想法

工作一年后思考:为什么人们愿意为「数字人」买单?

  这个问题还挺重要的,有一点拙见想表达一下。我觉得没有人把这个问题讲清楚过,很多人都是一股脑在做。
  我身边有做技术的人也有做商业的人,他们关注点还是挺不一样的,比如要么是技术很fancy,要么是好讲故事拉投资。但我觉得真正重要的是用户的角度——假如我啥也不懂,我看见一个数字人,我觉得这个技术很牛很逼真,可能我点赞转发一波。。但我凭啥掏钱买它??它能给我提供啥服务呢?
  目前看有两种理由,第一种是我喜欢TA(TA是个偶像),为了给TA应援或者得到TA的定制祝福语等付费,这种有市场但是不够有黏性(用户离开TA照样生活);另一种理由比较难找,就是那种真人搞不定只有数字人能搞定,同时这个任务又不得不做的场景——难找是因为目前数字人还处在模仿真人的阶段(能力复刻于真人),但找到这个点非常重要。
  我能想到的刚需场景包括:1. 照片聊天器:家里放一张人物照片,按一个按钮之类的,他的嘴巴能动能说话,这个很酷哦,因为总有我们思念的人,单纯照片还不够寄托相思之情; 2. 数字打工人:利用面部驱动+唇语合成制作一个数字人替身,让替身为真人打工(卖方要偷懒+买方要内容)。比如明星授权面部版权合成祝福语卖给上百个商家;销售授权面部版权合成一百段介绍视频传播给一百个客户;甚至我可以买一个“我”的替身,这些都是长期且广的需求点。
  总而言之,只有找到真人搞不定的而数字人才能搞定的场景才能称之为商业化。目前已推的像新闻播报/手语翻译/虚拟人带货等都属于噱头,它们是很棒的功能型数字人但不一定能做到商业化,因为这些能力真人也可以做到,所以它们的付费逻辑还不够强烈。数字人赛道的正确落脚点一定是在挖掘用户的使用意愿上,即填空题的命题格式为:“如果我不用动脑子就能实现__”,过去二十年间创业者们在衣、食、住、行与资讯上大行其道(参考淘宝、美团、微信、滴滴与抖音),而在数字人时代这个空填哪一组词,直接决定着功能型数字人是否能转变为商业型数字人。其中至关重要的一环是,数字人制作流程必须精简为即插、即用、即得的接口,用户必须产生简单、快乐、爽的体验。
  当然,我的认知一直在变化中,商业化过程也一定得经过验证-矫正-再验证-再矫正的过程,数字人真正的价值一定要等到市场经过一番厮杀以后才能见真知。

—— 写于20220507