一年前,ChatGPT 的爆火很快在大语言模型领域催生了“百模大战”。一年后,Sora 横空出世再次惊艳世人,这一次是否会掀起新一轮的 AI 视频领域的百模大战?
近期,DiT(Diffusion Transformer)论文的作者谢赛宁在朋友圈分享了他对 Sora 的看法,其中核心资源的排序是——人才第一、数据第二、算力第三,其他都没有什么是不可替代的。
为此,「甲子光年」基于公开资料与现有信息,整理了国内 12 家创业公司与 4 家大厂的 AI 视频团队信息。
这些信息不仅给产品爱好者较为全面的 AI 生成视频模型总结,也给更多的关注人工智能技术走向的 AI 从业者们一份技术与人才指南。
HeyGen 成立于 2020 年 11 月,核心创始成员有两位,是同济大学的校友。
HeyGen 联合创始人、CEO 徐卓(Joshua Xu),是卡内基梅隆大学计算机硕士。徐卓是早期 Snapchat 员工(2014 年 - 2020 年),关键工程负责人。在 Snapchat 的 6 年里,徐卓领导了多个关键工程领域,例如广告平台、推荐系统、机器学习平台(Barista)和 AI 相机。
HeyGen 联合创始人、CPO(首席产品官)梁望(Wayne Liang),是卡内基梅隆大学人机交互硕士。梁望是前字节跳动美国设计主管,领导企业软件和内部产品创新的设计;Smule 前设计总监,领导国际设计团队设计数百万日活产品,领导了视频和直播等关键举措,使 UGC 内容增长了 10 倍以上。
HeyGen 在 2022 年 9 月推出 AI 视频创作工具,仅用 7 个月的时间实现了 100 万美元的 ARR(年度经常性收入),然后又于 10 月份达到 1000 万美元。如今,这一数字已经跃升至 1800 万美元。
HiDream.ai 成立于 2023 年 3 月,是一家专注于构建视觉多模态(文本、图片、视频、3D等)基础模型及应用的生成式 AI 公司。
HiDream.ai 创始人兼 CEO 梅涛,是人工智能、计算机视觉和多媒体领域的全球知名学者,加拿大工程院外籍院士,IEEE/IAPR/CAAI Fellow,曾担任京东集团副总裁和微软研究院资深研究员。他发表的论文被引用超过三万余次,先后荣获 15 项最佳论文奖,拥有 70 多项专利,并主导研发了多款全球数百万日活用户的商业产品。
HiDream.ai 团队中,博士、硕士占 90% 以上,核心团队成员曾任职于微软、百度、腾讯、华为、京东、字节跳动等全球 500 强公司的核心技术团队。
2023 年 4 月,HiDream.ai 核心技术成员组队,完成由阿尔法公社、中喝大种子一号基金参与的种子轮融资;12月,HiDream.ai 完成由科大讯飞领投的天使轮融资。
Möbius 是一款上线 日的 AI 视频模型,团队只有三个人:AI 算法工程师 LogicQ,软件工程师 Peki(刘佩),财务 Zhao。
1 月 14 日,Peki 在 Reddit 上发布了 2 个帖子,冲上了 Reddit 热搜。当时,Peki 发布了一个特斯拉汽车视频,比较了Möbius 和 Runway 的效果,结果被一个小哥骂的狗血淋头,因为 Möbius 效果太好,以至于让他认为视频是恶意剪辑故意诋毁 Runway 的。
Peki 告诉「甲子光年」,Möbius 目前的模型缺陷主要有2个——畸变,当角色大幅度运动时容易产生畸变扭曲;角色一致性,需要所有时长中角色保持一致,也就是语义连贯。这些问题的核心是基础模型,当基础模型要达到一定的智能,真正对物理理解,问题就会解决。Peki 表示正在努力。
尽管如此,Peki 自信地表示,如果与全球范围内进行产品对比,Möbius 和 Sora 差距是一定是最小的。
Möbius 上线之后,零广告推入情况下,至今已为用户生成了数百万的视频,并获取了可观的收入。
Morph Studio 成立于 2022 年,专注于 text-to-video 生成技术与社区平台,通过 SD+自研模型技术帮助用户实现短视频快速生成,其视频生成模型已经于去年8月上线 Discord。
2023 年 5 月,Morph Studio 宣布已完成数百万美元种子轮融资,由百度风投单独投资。
Morph Studio 创始人徐怀哲为香港科技大学人工智能方向博士创业,师从倪明选教授和沈向洋教授,曾在微软小冰参加AI音乐生成研发。Morph Studio 的两位联合创始人赵世豪、殷子欣都是香港科技大学人工智能博士。
除了技术团队外,Morph Studio 也加强了其产品团队的实力,猫眼电影签约制作人、上海国际电影节评委,前硅谷头部 AIGC 公司核心成员海辛也于近期加入 Morph Studio。
「甲子光年」独家获悉,Neverends 的联合创始人,为 Llama 中文社区联合发起人曲东奇。曲东奇毕业于东南大学,德国亥姆霍兹研究中心访问学者。曲东奇也是《Llama大模型实践指南》一书的作者之一。
爱诗科技成立于 2023 年 4 月,已经完成了数千万元人民币天使轮融资。
爱诗科技创始人、CEO 王长虎深耕计算机视觉、人工智能领域 20 年,曾任字节跳动视觉技术负责人,参与了抖音和TikTok等产品从 0 到 1 的建设和发展,搭建了字节跳动视觉算法平台和业务中台,主导了字节跳动视觉大模型从0到1的建设。王长虎曾任微软亚洲研究院主管研究员,发表国际论文百余篇,拥有专利数百项。
爱诗科技团队成员来自清华、北大、中科院等顶级学府,曾任职于字节、微软亚洲研究院、快手、腾讯等头部机构的核心技术团队,拥有世界一流的计算机视觉算法攻坚能力和解决系统工程问题的经验。
爱诗科技的视频生成工具 Pixverse,支持 4K 高清视频生成,在运动准确性、一致性和丰富性等方面取得了进展。爱诗科技将在 2024 年 3 月发布新版本的多模态视频生成大模型。
李白人工实验室是杭州王道控股有限公司旗下的专注计算机视觉和生成式人工智能算法、产品研发的技术团队,成立于 2018 年,由唐勇博士领导成立。
唐勇毕业于美国宾夕法尼亚州立大学,在美国知名 500 强企业担任技术学科专家,高级工程师等。其他成员均毕业于国内外知名高校,清华、北大、浙大、英国皇家理工和美国常青藤范围等。
李白人工智能实验室在图像生成方面已经有不少积累,推出的产品有神采PromeAI、图可丽cutout.pro 等国内外在线工具网站及多个App、小程序。其中 cutout.pro 项目海外月活超千万用户,海外站更是跻身图像编辑工具分类排名前十;神采 PromeAI 项目荣获 AI 产品榜出海 20 强。
去年 10 月 31 日-11 月 2 日,由李白人工智能实验室团队携手阿里云等团队制作的李白数字展亮相云栖大会。
毛线 月,产品正式上线 月,从 AI 绘画工具起步,逐步打造 AIGC 社区。
6Pen 同时提供两个模型:一个是基于 Disco Diffusion 的模型「西瓜」,优点是图片效果好,但速度非常慢,成本会非常高;另一个是小模型「南瓜」,可以用更快的速度去生成图片。据介绍,用户普遍做法是先采用「南瓜」绘图,如果画作满意,继续使用参考图的方式传输到「西瓜」模型,也就是 Disco Diffusion上,再进行一次重新生成。
生数科技成立于 2023 年 3 月,由瑞莱智慧 RealAI、蚂蚁集团和 BV 百度风投联合孵化,聚焦于多模态生成式大模型与应用产品开发。前瑞莱智慧副总裁唐家渝出任 CEO。
生数科技于 2023 年初开源了基于 Transformer 的多模态扩散大模型 UniDiffuser,实现基于一个底层模型完成文生图、图文联合生成、图文改写等多种生成任务。生数科技也正从 0 到 1 打造着产业级的多模态深度生成式大模型,覆盖文本、图像、3D 模型、音视频等多个模态。目前该大模型正在快速迭代中。
徐图智能成立于 2023 年 6 月,由 IEEE Fellow、香港大学教授徐东成立。
艺映 AI 是由 MewXAI 团队开发的AI视频生成工具,可以由文本、图像生成AI视频。可以将文本描述转换为视频动画,也可以上传图片将其变为动态视频,适用于多种场景,如抖音短视频、小说推文、AI 短片、AI 电影等制作。
右脑科技成立于 2022 年 9 月,是一家专注研发 AI 图像和视频生成的初创公司, 致力于将 AIGC 技术应用于图像及视频领域,赋能创作,让想象成为具象。
在视频生成领域,阿里巴巴通义实验室开发了开源视频生成模型和代码系列 VGen,具备非常先进和完善的视频生成系列能力,包含了如下内容:
2024 年 1 月 19 日,百度推出了一款视频生成模型 UniVG,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。
腾讯近期推过两个视频生成模型项目,第一个是在 2023 年 12 月,北京大学、腾讯 AI Lab 与香港科技大学三家联合发布一款视频生成模型 AnimateZero。
AnimateZero 是一种基于视频扩散模型的零样本图像动画生成器。研究人员提出了一种分步生成视频的方法,将外观和运动过程解耦,提高生成效率和可控性。通过零样本修改,还能将 T2V 模型转换为 I2V 模型,使其成为零样本图像动画生成器。在应用方面,AnimateZero 介绍了通过文本控制动作、视频编辑、帧插值、循环视频生成和真实图像动画等多种应用场景。
单瀛,腾讯杰出科学家、ARC Lab & AI Lab CVC总监。单瀛博士曾担任微软雷德蒙研究院博士后研究员,SRI International 资深研究员和微软科研主管,在国际顶级会议和刊物上发表 120 多篇论文,并拥有多项美国/国际专利。2018 年底单瀛加入腾讯公司内容和平台事业群(PCG),创立了ARC Lab 并担任中心主任,同时兼任腾讯 AI Lab 视觉计算中心主任、QB 搜索技术负责人,致力于多模态内容生成、理解、学习中的算法研究和应用推广。
寸晓东,腾讯 AI Lab 视觉计算中心研究员,本科毕业于西安电子科技大学计算机系,硕士与博士毕业于澳门大学计算机与信息科学系,导师是潘治文教授。加入腾讯之前,寸晓东先后在阿里巴巴、海康威视研究院、华为诺亚方舟实验室工作。目前,寸晓东正在使用与 AIGC 相关的技术,研究设计新颖的图像/视频生成、翻译和编辑应用(特别是在动漫游戏领域)。
Yong Zhang,腾讯 AI Lab 高级研究员,研究方向是AIGC。在加入腾讯之前,Yong Zhang 于 2018 年在中国科学技术院自动化研究所(CASIA)获得了博士学位,导师是胡包钢教授和董未名教授,他们都是国家模式识别实验室(NLPR)的成员。在加入 CASIA 之前,Yong Zhang 于 2012 年在湖南大学获得了自动化专业的工学学士学位。从 2015 年 9 月到 2017 年 9 月,Yong Zhang 在伦斯勒理工学院(RPI)的智能系统实验室(ISL)担任联合博士生,导师是 Qiang Ji 教授。
Menghan Xia, 腾讯AI Lab 视觉计算中心的一名研究员,目前专注于基础生成模型(AIGC)、多模态学习和面部运动合成。Menghan Xia 于 2021 年在香港中文大学(CUHK)获得了计算机科学与工程博士学位,导师是黄田津教授;于 2014 年获得了武汉大学摄影测量与遥感专业的工学学士学位,以及 2017 年获得了模式识别与智能系统专业的工学硕士学位,两位导师都是姚剑教授。在攻读博士学位期间,Menghan Xia 自 2019 年 3 月起与 Adobe Research进行了为期一年的合作,并在 2021 年夏天在微软亚洲研究院(MSRA)进行了研究实习。
2023 年 12 月,新加坡国立大学的 Show Lab 联合字节跳动发布了一款视频模型 MagicAnimate()——一种基于扩散模型的人体图像动画框架,旨在增强时间一致性、忠实地保留参考图像并提高动画保线 名研究人员参与。其中,冯佳时曾为新加坡国立大学电子与计算机工程系的助理教授,研究兴趣包括计算机视觉和机器学习。冯佳时教授目前已经加入 TikTok 担任研究科学家,正在组建一个新的基础研究团队。
Chenxu Zhang,字节跳动 Intelligent Creation Lab 的一名研究科学家,本科毕业于北京航空航天大学软件工程专业,硕士毕业于计算机,博士毕业于德克萨斯大学达拉斯分校计算机。Chenxu Zhang 的研究兴趣包括计算机图形学、计算机视觉和人工智能,重点关注会说话的面部生成、会话手势合成、带有人类运动的去模糊NeRF、文本/图像到3D,以及有情感会说线 月,字节跳动新加坡团队再次发布新的模型,名为 MagicVideo-V2(),将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中。受益于这些架构设计,MagicVideo-V2 可以生成具有出色保真度和平滑度的美观、高分辨率视频。通过大规模用户评估,它表现出了优于 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型等领先文本转视频系统的性能。
陈硕, TikTok 新加坡的一名研究科学家,本科就读于南京邮电大学物联网学院;硕士就读于清华大学电子工程系,导师是廖庆敏教授和周飞博士;博士就读于阿姆斯特丹大学,导师是Cees Snoek教授和Pascal Mettes博士。陈硕曾作为访问学生在深圳先进技术研究院多媒体研究中心学习,导师是乔宇教授。
1990 年至 2001 年,李航曾在日本 NEC 公司中央研究所担任研究员,期间从事了 NEC 文本数据挖掘产品的开发。2001 年至 2012 年,李航就职于微软亚洲研究院,任研究员、主任研究员、高级研究员。2012 年至 2017 年,李航在华为诺亚方舟实验室任首席科学家、实验室主任,2017年离职加入字节跳动。