AI专题线上讲座:大语言模型低延迟推理技术的新进展

chatGPT和大语言模型(LLM)是过去一年多以来科技和投资领域最热门的话题。大量企业,研究团队和开源社区的加入,使LLM在短短一年时间内快速发展和迭代。尤其是在开源社区, 参数高效微调、模型轻量化部署以及快速推理等多个方向进展迅速, 使原本昂贵的大模型部署和应用变得逐渐经济和高效。 为了帮助大家紧跟LLM技术发展的最前沿,北京大学北加州校友会今年继续举办AI领域的专题讲座。在本期讲座中,我们非常荣幸地邀请到UC San Diego助理教授张昊博士为大家带来主题为“大语言模型低延迟推理技术进展”的讲座。作为LLM技术的业内专家, 张博士将与大家深入分享他的团队在LLM推理优化方面的前沿研究成果。我们希望这场讲座能使大家清晰地了解LLM在推理中存在的难点和痛点,以及业内学者们正在研发的解决方案。 主讲人:张昊博士 https://cseweb.ucsd.edu/~haozhang/ 个人简介:张昊博士是UC San Diego Halıcıoğlu 数据科学学院和计算机科学与工程系的助理教授。在此之前,他于 2014 年至 2020 年在卡内基梅隆大学计算机科学系完成了博士学位,随后在UC Berkeley担任博士后研究员。在此期间,张博士曾加入机器学习初创公司 Petuum。   张博士的研究兴趣在于机器学习和系统交叉领域。他是UC Berkeley LYMSYS Org的创始人之一,早期工作包括 Vicuna、vLLM、Chatbot Arena, 和Alpa等等LLM领域名声赫赫的项目。 他的研究成果获得了 OSDI'21Continue reading "AI专题线上讲座:大语言模型低延迟推理技术的新进展"