1、高 阳 教授,博导多智能体强化学习中的博弈和近似均衡南京大学计算机软件新技术国家重点实验室合作者 :胡裕靖 (南京大学阿里研究院 ),安波 (南洋理工大学 )2018年 8月 24日关于我1997-2000,南京大学攻读博士学位博士论文题目:多 agent强化学习研究目前任:p 中国人工智能学会理事p 中国机器学习专委会副主任p 中国粒计算与知识发现专委会副主任p 中国计算机学会人工智能与模式识别专委会常委p 江苏省人工智能学会副理事长近似博弈的均衡迁移报告提纲大数据背景下的多智能体决策非共享支付矩阵的多智能体博弈延迟反馈下的强化学习稀疏交互下的知识迁移和博弈约简多智能体学习中的博弈和近似均衡
2、大数据背景下的多智能体决策152016年度最大的科技新闻之一AlphaGo VS 李世石 AlphaGo VS 柯杰深度学习、强化学习、蒙特卡罗树搜索6大数据特点和关键技术表示技术 学习技术 推理技术面向大数据的高效知识表示面向大数据的在线学习技术面向大数据的动态推理技术关键技术存在问题大数据的 4V特征海量 (Volume)、快速多变 (Velocity)、多样性 (Variety)、不精准性 (Veracity)适应大数据特征的人工智能技术博弈推理技术7大数据环境下面向多个行为实体复杂决策的博弈推理技术从 2015年上证指数周 K线中看各方 博弈空方:要跌政府、多方:跌够了空方:还没够多方
3、:再涨政府:该跌一跌政府:捣乱的统统抓起来!政府:人民币国际化、中小企业发展、经济转型、亚投行,涨8博弈推理技术p 已有推理技术p 基于逻辑的演绎推理方法 适用于小规模问题p 结合统计的归纳推理方法 适用于大数据场景 p 面向大数据复杂决策的动态推理技术p 多行为智能体的 交互 Battista, SMC011p 贝叶斯博弈、 Stackelberg博弈 Bruckner, KDD2011 垃圾邮件发送者 邮件过滤系统发送邮件修改邮件特征过滤未过滤继续发送 重新识别 9大规模博弈推理p 存在问题和研究思路大规模博弈结构的归纳推理大规模博弈的均衡计算博弈模型约简蒙特卡罗采样和博弈模型学习博弈均衡迁移先验知识利用结构均衡多智能体学习中的博弈和近似均衡延迟反馈下的强化学习2