The great success of large deep learning models in various applications in recent years have encouraged many researchers to seek improved performance by utilizing larger models and bigger data in practical problems involving unstructured data, leading to psychological implications to pursuit large models everywhere. However, the fundamental principle of statistical modeling tells us that an over-flexible large model without a clear focus on unique features of the problem of interest would often lead to inefficient utilization of data and sub-optimal results. In this talk, I will provide a few examples in analyzing complex unstructured data, including texts, videos and multimodal data, that deep learning can be greatly enhanced by statical learning once we integrate them wisely. We hope these examples could inspire more research efforts on developing advanced statistical approaches with competitive performance and transparent interpretation for analyzing complex unstructured data on top of deep learning.
报告人简介:邓柯,清华大学统计与数据科学系长聘副教授、副系主任,清华大学数据科学交叉研究院副院长。主要从事贝叶斯统计方法的研究和与生物医学、人工智能、智能制造、人文社科的交叉研究。2008年获得北京大学统计学博士学位,同年进入哈佛大学统计系从事研究工作,历任博士后、副研究员,2013年加入清华大学工作至今。2014年入选国家高层次人才计划青年项目,2016年获“科学中国人年度人物”荣誉称号,2018年受聘北京智源人工智能研究院担任数理基础方向的“智源研究员”,2024年当选“国际统计学会”(International Statistical Institute,ISI) Elected Member。在统计学、数据科学知名期刊和会议发表论文五十余篇,主持多项科技部重点研发计划、国家自然科学基金、国家社科基金及北京市自然科学基金项目。在中文文本分析和数字人文方面的研究工作获得获“国际华人数学家大会”(ICCM)和“中国数字人文大会”最佳论文奖,在生物信息学方面的研究工作获得教育部“高校科学研究优秀成果奖”自然科学奖,在政务大数据分析方面的多项成果被政府采纳并应用。他是国际计算统计学会亚太地区分会理事、中国现场统计研究会计算统计分会理事长、中国青年统计学家协会副会长、中国人工智能学会智慧医疗专业委员会副主任委员、国家抗肿瘤药物临床应用专家委员会委员,还担任国际统计学杂志 Statistica Sinica、Communications in Statistics 副主编,以及《应用概率统计》、《应用数学与力学》、《统计与精算》、《数字人文》等期刊的编委。