?html> 王梦q:(x)探寻强化学习(fn)背后的简z规律,Ҏ(gu)普林斯顿最q轻ln教授-清华校友M(x)

麻花影视免费观看电视剧琅琊榜,天美麻花星空视频,麻花星空MV,麻花影视在线看电视剧软件,麻花传媒MD034苏蜜清歌,2023麻花产精国品免费入口,麻花传MD034苏蜜清歌,麻花视频V3.2.2纯净版

癑ֹ清华

王梦q:(x)探寻强化学习(fn)背后的简z规律,Ҏ(gu)普林斯顿最q轻ln教授

2019-05-07 | 李根 | 来源 公号“DeepTechq技? |


王梦q,清华大学自动化系2003U校友,Cؓ(f)普林斯顿大学q筹和金融工E系、计机pd理教?/span>

“强化学?fn)是人工的未来?Q王梦_表示Q“应当是同控制论、统计学?fn)思想l合hQ用大数据的Ҏ(gu)探烦一个复杂系l的动态过E。这斚w在强化学?fn)的框架下都是空白,我的工作是要把q个框架建立h。?/span>

王梦q的履历很传奇,?4岁从年班考入清华大学Q随后进入MIT?4岁取得博士学位,同年成ؓ(f)普林斯顿大学的助理教授和博士生导师,29岁时Q她成ؓ(f)普林斯顿大学最q轻的终w教授。谈?qing)自qҎ(gu)成长l历Q她表现的很谦虚Q“就dq班是一把双刃剑。我有幸遇到q很多极有天赋ƈ且非怼U的前辈和同龄人,当我有点qӞ我会(x)观察那些走在最前面的hQ他们的努力?x)成为我的动力。?/span>

王梦q在ȝ理工学院d士期间根据兴选择了偏数学、偏理论的系l和信息论方向,师从国工程院院士DimitriP BertsekasQ用数学理论来设计大规模法。博士期_(d)王梦q对强化学习(fn) QReinforcement LearningQ生兴,q决心解军_化学?fn)背后的法和理论问题?/span>

强化学习(fn)是机器学?fn)的未来Q强化学?fn)算法能够让体通过与环境实时交互、获取反馈信h产生后箋行ؓ(f)Qƈ逐步“习(fn)得”最优的决策Q从而获得最大的效用倹{强化学?fn)由控制论和认知U学发展而来Q糅合了大数据和机器学习(fn)技术,可以实现复杂动态系l中的实时自动决{。强化学?fn)强调基于环境而行动,从大量经验和数据中ȝ推理Z一步的{略Q是未来自动化系l的思考引擎?/span>

强化学习(fn)?016q被大众所熟知Q那一qGoogleDeepMind的AlphaGo击|了hcd顶选手李世矻I而AlphaGo的算法就是一U强化学?fn)算法。近两年强化学习(fn)又在游戏领域上取得突_(d)Z强化学习(fn)的AI在Dota2和星际等游戏上都击|了hc队伍?/span>

“我们ؓ(f)什么关心游戏?人类的幼儿在发展自己的智能的q程中,正是通过游戏来学?fn)如何决{的Qh工智能的发展也正处在q一阶段Q我们很快能看到人工不仅仅能打游戏Q而将解决更难的问题。”王梦_说。但其实强化学习(fn)的发展还处在比较低的阶D,“这些游戏上的成功更像是工程上的一U试错,100ơ试验只要取1ơ最佳的l果可以展CZ。它们背后模型的复杂度、耗费的计资源是思h难以惌的。?/span>

强化学习(fn)与近些年非常成功的深度学?fn)都q存在着很多问题Q一直以来,它们的不可解释性和难以复现性ؓ(f)病,x谓“黑”问题;而王梦_的目标就是解册一N?/span>

“很多h感觉强化学习(fn)或者深度学?fn)的模型来复杂,来难以训l。很多时候我们都在努力让训练速度加快Q去优化法Q让更复杂的模型能跑h。但M法的加速都是有极限的,q个极限是该类问题的计复杂度和信息复杂度Q我们只能一步步D它。很多异常复杂的模型和算法往往是极为极为简单的Q比如随机梯度算法的极限其实是一l简z的随机微分方程。我的工作就是去扑ֈ复杂强化学习(fn)背后的简z数学规律,利用它开发更强大的算法,去解决高l强化学?fn)所面(f)的scalability和generalizability的问题。?/span>

目前强化学习(fn)斚w的大部分q展都来自工E优先方式的探烦Q先有具体的工程问题Q再不惜资源地解决问题,再讲原理。而对王梦q来说正好相反,她希望从数学l计和控制原理出发,把强化学?fn)的框架摸清楚,从根本上提高强化学?fn)的计效率和Ҏ(gu)据的利用效率。她致力于推动强化学?fn)的理论和实늚同步发展Q推动其在金融风险控制、医疗决{等领域的应用,让强化学?fn)方法成为未来复杂系l的大脑?/span>

“这条道路上的每一件事情,我都有极强的热情d与去推动。”王梦_说?/span>


相关新闻