Name: AI线上讲座：解码视频生成奥秘，揭开Sora面纱
Start: 2024-03-09T13:00:00-08:00
End: 2024-03-09T17:00:00-08:00

AI线上讲座：解码视频生成奥秘，揭开Sora面纱

March 9, 2024 @ 1:00 pm - 5:00 pm

两周前，OpenAI的Sora视频生成模型在ChatGPT之后再度掀起了人工智能领域的热潮。在这个备受关注的时刻，我们很荣幸邀请到专注于大模型视频生成研究的校友于力军同学，为我们揭示视频生成领域的奥秘以及Sora背后的核心技术。于力军同学是卡内基梅隆大学博士生和谷歌研究院学生研究员。他专注于多任务视频生成方向的研究并取得了丰硕的成果，发表了包括 VideoPoet、W.A.L.T 和 MAGVIT-v2 等逼真度极高的视频生成模型。这些模型与Sora一样，都是构建在Transformer和扩散模型等技术之上，并且采用了开创性的Tokenizer设计，位于视频生成领域的最前沿。我们希望通过这次讲座，帮助大家了解最新的视频生成技术，并从侧面了解Sora背后的原理，展望视频生成领域的机遇与未来方向。欢迎大家踊跃参加，一同揭开视频生成的神秘面纱！主讲人：于力军 https://me.lj-y.com/ 于力军本科毕业于北京大学计算机系，拥有计算机和经济学双学位。目前是卡内基梅隆大学计算机系的博士生，也曾长期担任 Google Research 的学生研究员。他的研究兴趣围绕多模态基础模型，尤其是使用离散token进行多任务视频生成，代表成果有 VideoPoet， W.A.L.T 和 MAGVIT-v2等基于transformer和扩散模型等的视频生成技术。他多次在 CVPR、NeurIPS、ICLR 等顶会上发表高光论文，并曾获得 Siebel 学者、百度学者等荣誉。讲座时间： 2024.03.09 (周六), 13:00-14:30 PST 报名方式：请点击文末"阅读原文" (read more) 前往 Eventbrite 报名以便于我们安排活动容量，谢谢！讲座摘要：虽然大语言模型 (LLM) 在语言生成任务中占据主导地位，但在图像和视频生成方面并不如扩散模型表现出色。为了有效地利用 LLM 进行视觉生成，一个关键组件是视觉 Tokenizer，它将像素空间输入转换为适合 LLM 学习的离散令牌（tokens）。基于我们之前对 MAGVIT 和 SPAE Tokenizer 的经验，我们引入了 MAGVIT-v2，这是一个视频 Tokenizer，旨在使用通用令牌词汇为视频和图像生成简洁且富有表现力的令牌。借助这个新的 Tokenizer，我们证明了 LLM 在标准图像和视频生成基准上优于扩散模型。此外，该 Tokenizer 还显示出比最新编解码器更强的视频压缩能力和视频理解优势。在Continue reading "AI线上讲座：解码视频生成奥秘，揭开Sora面纱"