AI线上讲座:解码视频生成奥秘,揭开Sora面纱
两周前,OpenAI的Sora视频生成模型在ChatGPT之后再度掀起了人工智能领域的热潮。在这个备受关注的时刻,我们很荣幸邀请到专注于大模型视频生成研究的校友于力军同学,为我们揭示视频生成领域的奥秘以及Sora背后的核心技术。 于力军同学是卡内基梅隆大学博士生和谷歌研究院学生研究员。他专注于多任务视频生成方向的研究并取得了丰硕的成果,发表了包括 VideoPoet、W.A.L.T 和 MAGVIT-v2 等逼真度极高的视频生成模型。这些模型与Sora一样,都是构建在Transformer和扩散模型等技术之上,并且采用了开创性的Tokenizer设计,位于视频生成领域的最前沿。 我们希望通过这次讲座,帮助大家了解最新的视频生成技术,并从侧面了解Sora背后的原理,展望视频生成领域的机遇与未来方向。 欢迎大家踊跃参加,一同揭开视频生成的神秘面纱! 主讲人:于力军 https://me.lj-y.com/ 于力军本科毕业于北京大学计算机系,拥有计算机和经济学双学位。目前是卡内基梅隆大学计算机系的博士生,也曾长期担任 Google Research 的学生研究员。他的研究兴趣围绕多模态基础模型,尤其是使用离散token进行多任务视频生成,代表成果有 VideoPoet, W.A.L.T 和 MAGVIT-v2等基于transformer和扩散模型等的视频生成技术。他多次在 CVPR、NeurIPS、ICLR 等顶会上发表高光论文,并曾获得 Siebel 学者、百度学者等荣誉。 讲座时间: 2024.03.09 (周六), 13:00-14:30 PST 报名方式: 请点击文末"阅读原文" (read more) 前往 Eventbrite 报名以便于我们安排活动容量,谢谢! 讲座摘要: 虽然大语言模型 (LLM) 在语言生成任务中占据主导地位,但在图像和视频生成方面并不如扩散模型表现出色。为了有效地利用 LLM 进行视觉生成,一个关键组件是视觉 Tokenizer,它将像素空间输入转换为适合 LLM 学习的离散令牌(tokens)。基于我们之前对 MAGVIT 和 SPAE Tokenizer 的经验,我们引入了 MAGVIT-v2,这是一个视频 Tokenizer,旨在使用通用令牌词汇为视频和图像生成简洁且富有表现力的令牌。借助这个新的 Tokenizer,我们证明了 LLM 在标准图像和视频生成基准上优于扩散模型。此外,该 Tokenizer 还显示出比最新编解码器更强的视频压缩能力和视频理解优势。在Continue reading "AI线上讲座:解码视频生成奥秘,揭开Sora面纱"
