?html> 征服世界U研高峰的女性攀登者——访清华大学?sh)子工程pM晓青教授-清华校友M(x)

麻花影视免费观看电视剧琅琊榜,天美麻花星空视频,麻花星空MV,麻花影视在线看电视剧软件,麻花传媒MD034苏蜜清歌,2023麻花产精国品免费入口,麻花传MD034苏蜜清歌,麻花视频V3.2.2纯净版

癑ֹ清华

征服世界U研高峰的女性攀登者——访清华大学?sh)子工程pM晓青教授

2020-06-05 | 来源 公号“THU?sh)子pL友会(x)?020-06-05 |

丁晓青,清华大学教授、博士生导师?962q_(d)毕业于清华大学无U电(sh)?sh)子学系Q获优秀毕业生金质奖章ƈ留校L。长期从事智能图文信息处理、模式识别、图像处理、文字识别、生物特征识别、视频智能监控。先后荣获国家科技q步二等奖三ơ(2008?003?999q_(d)Q国家科技q步三等奖一ơ(1992q_(d)Q北京市U学技术一{奖一ơ(2006q_(d)Q教育部U技q步一{奖两次Q教委等部委U技q步二等奖五ơ、三{奖一ơ,95'全国?sh)子十大U技成果奖及(qing)863计划先进个h奖等。有27发明专利被授权。在FAT2004国际评测中获“全面最优h脔R证算法奖”。发表论文近600,合作专著5本(其中两本由WorldScientific Publishing Co.Pte. Ltd.出版Q。提出的“模式识别统一信息느论”对模式识别pȝ的设计有重要的指g用,受到国内外学者的重视。多q来在汉字识别领域,取得了一pd国际领先的研I成果,q于1992q创立北京清华文通信息技术有限公同,成功地进行了U研成果转化和业化推广。在最权威的h脸识别评FRVT2006中达国际领先水^Q推动了生物特征识别技术的发展和广泛应用。因研发国际领先的文字识别和生物特征识别技术和pȝ,被选ؓ(f)国际模式识别协会(x)?x)?IAPR Fellow)、国际电(sh)气和?sh)子工程师协会(x)终w会(x)士(IEEE Life FellowQ?/span>

访谈之前我们便获知,丁晓青教授带领清华大学智能图文信息处理研I室以图像识别ؓ(f)基础Q采用统计学?fn)方法一举攻克了文字识别领域识别性能无法满实际应用需求的重大瓉问题Q有效解决了已有文字无法输入计算机的时代N。这是一条充满艰辛的攀登道路,最l成果斐然。作Z位女性学术带头hQ她与其他数十位师生“持l卅余年Q齐心奋力,在文字识别的理论和方法研讨上、在大规模印列联机和脱机手写汉字识别、中日韩、蒙藏维哈柯阿民族文字文档识别的研究上取得了国际领先的研I成果,q将研究成果在世界范围推q应用”,q今为止Q已鉴定通过文字识别相关研究成果13V她本h以第一完参成与获国家科技q步二等奖三?分别为“THOCR-1997l合集成汉字识别pȝ”(1999q_(d)、“高性能东方文字文全信息数字化pȝ”(2003q_(d)、“TH-ID和笔q生物特征n份识别认证系l”(2008q_(d)Q以W二参与获国家科技q步三等奖一?即“多字体多字号印刷体汉字识别pȝ”(1992q_(d)Q还获得20省部奖励……荣膺的奖项、表C胜枚举?/span>

我们惊讶于丁晓青教授在文字识别和生物特征识别两大U研方向的多个领域均h荣,可谓是攻坚克难,百D百捷。如果将文字识别和生物特征识别两大科研方向比作o(h)ZԒ望浩叹的两山峰Q那么,她历l艰险,最l攻克难题,堪称征服世界U研高峰的一位杰出的x攀登者。我们不好奇:(x)她究竟走q了怎样的h生跋涉之旅,Ҏ(gu)如何攀L功的Q她的娓娓讲q解{了我们的疑问?/span>

早年l历Q书香门W蕴人才

丁晓青父母均为浙江大学教师,家庭属于典型的书香门W。抗战爆发后Q高校纷UU至大西南。除了西南联大之外,父母随浙大校长竺可桢带领的师生,辗{数千里,西迁贵州Q丁晓青卛_生在此。抗战胜利后Q父亲从贵州q回家乡江苏Q?949q解放之初又支援西北QQ西北工学院物理教授(后扩展ؓ(f)西北工业大学Q。刚满十岁的丁晓青跟随父亲来到陕西,初中p于西安女中,Ҏ(gu)常耳闻“女生不如男生”之偏见Q很不服气,高中毅然考入了西安高U中学?956q_(d)Ҏ(gu)弃了免试保送兰大物理系的资|以优异成l考入清华大学甉|c,q入无线甉|术专业。当q清华大学在陕西、宁夏、甘肃、新疆西北四省区d录取?4名高中生。西安高U中学虽是陕西名校,但多q来也无入清华Q那q却有两录取Q她是其中之一?/span>

1947q抗战胜利从贵州复原江浙后全家合影(时丁晓青8岁)

丁晓青兄弟姐妹八人,Ҏ(gu)行第六。其中,有五上清华大学Q但因经条件所限,仅有三h入读清华Q?6q大哥考入江大学Q毕业后入哈?dng)滨工业大学苏联专家研究班?8q二哥从大附中考上清华大学Q但攻读上v交通大学航I系Q?0q三姐从大附中考上清华大学Q可惜入dq工学院Q后转ؓ(f)军事通讯工程学院Q西安电(sh)子科技大学Q,q以全班唯一最高军衔上毕业,是我国出色的雯专家Q?5q五哥从镇江中学考进清华大学自动控制p;64q八妹也从西安考进清华无线늳?6q高考那q_(d)丁晓青从西安高中报考清华也深受五哥影响Q(f)考前Ҏ(gu)C哥的清华介绍和发来的五六张美丽的清华园照片,q成ZҎ(gu)考清华的强大动力。抗援朝时Q全家有兄姊三h参军Q有d事通讯学校的姐姐、在镇江中学的四哥参军去后勤部和在上交大航I系的二哥参军去了空军。一家年M辈,人才q出Q应归因于书香门W严谨治学的家庭熏陶?/span>

清华留校Q磨Zd勃发

?956q秋开始了在清华大学六q半的学?fn)生zR?960q无U电(sh)?sh)子学系Q?958q改Uͼ亦简U“无U电(sh)pZ)军_?956q入学的无线甉|术专业学生中抽调丁晓青、姚彦等十余人,l成新班Q无208班)Q筹建量子电(sh)子学专业Q瞄准当时世界科技前沿的铯原子钟、量子放大器{,学习(fn)量子q算、能U分裂、量子跃q等内容Q参加实验室Q研制相兛_件和讑֤。作为班里年龄最的一个,她完成了在液氮环境下制作三܇频量子放大器QL?.5cmQ旨在利用低噪声提高雯作用距离Q的毕业设计。后她因选择了无U电(sh)技术专业留校而重新再做了一个毕业设计,故而g长半q毕业。在雯教研l,她完成茅于v教授指定的研刉辑֏工器QDuplexQ系l毕业设计,茅老师从美国带回的双工器配成系l。她从翻阅美国雷达丛书开始,理解雯层次设计Q布|、加工DuplexU\Q结合雷达信h发工作,反复实验试Q独立完成整套系l。短短一学期的时_(d)Ҏ(gu)着从匈牙利q口?176微L发生器,通过地面q不qx的过街楼Q往q于在东L四楼?ji)区的实验室与A器室之间Q最l毕业设计获得难得的5分好成W。因qx仅一?分外全部评5分的优秀学习(fn)成WQ她理成章地获得了优秀毕业生金质奖章。在清华大学无线늳Q她d研微Q吸收知识理论,培养学业技能,提高l合能力。特别是l历两次毕业设计Q时间紧、难度大Q她更锻炼出了不畏艰隄意志品质Q养成了攻苦食E的良好习(fn)惯?/span>

毕业后,无线늳副系MQ陆大䋮教授安排她留校担Q3??三个q中的雯专业学生班主仅R?963q_(d)她负责管理多个年U的学生Q包括学生入党、因材施教、班q部培养、教学安排等J复工作?964q_(d)她被z־Z县衙门村参加“四清”。文革开始,在江襉K鱼洲农场力_q两q后Q因?sh)视教研l(囑փ教研l)归属留京单位Q未q往清华l阳分校Q,她也随教研组直接q回北京。在北京q个她熟(zhn)的W二故乡Q此时“青阳逼岁除”,她勤奋探索,砺以须Q耐心{待着学术春天的到来,期待着向科研高峰进发?/span>

囑փ处理Q基工作夯厚?/span>

1971q回京后Q恢复被文革剥夺的专业学?fn)权利而开始回归正业。电(sh)视教研组Q图像教研组Q以集成?sh)\彩色?sh)视机?qing)?sh)视中心讑֤的研制成为那时的主要工作Q着手研制国内首创高频头、彩色接收机{。当q_(d)全球计算机数字化风v云涌Q电(sh)视教研组Q图像教研组Q将专业发展方向锁定为图像数字化。针对当时国产计机TDJS 130?40Q首先需要独立解军_像输入计机?qing)其数字化处理问题,着手设计、研制图像处理器。待?978q底Q改革开攄春风Ҏ(gu)Q基工作已得到相当的厚积。当q因Ơ缺高速AD变换器,清华无线늳葛成辉教授从国分两ơ带回的64K?56×256存储器,q样Q丁晓青p得了l成存储器的四块?sh)\板,她又设法购买了慢速AD变换器,研发成功了我国最早的型计算机图像处理系lƈ转?/span>

时值微处理器(MicroProcessorQ问世,q意味着微机的处理能力已过当时国计算机的q算能力。丁晓青果断军_在微Z直接试Q于是和老师同学一起创建性地制作出国内最早的微处理器囑փ处理pȝQ实现将囑փ输入微机和微机图像处理,q利{产。在整个研制q程中,奚w头开展业务,从零hQv早贪黑,设计l制逻辑图、线路图Q焊接调试电(sh)路,与计机接口相连接等。基于此Q捕捉的信号便可q行计算机处理,qؓ(f)日后的文字识别夯下了厚实的研I基?/span>

研发的微机图像处理系l?/span>

在微机处理系l上开始汉字识别的研究

文字识别Q透出现象探奥H?/span>

文字是hcL明的基石Q汉字不仅是中华文化的重要蝲体,q是世界上唯一沿用至今的最古老文字系l。对于汉字书法艺术,东晋大书法家王o之曾l声l色地描q道Q“每作一波,怸q折Q每作一竖,帔R锋而ؓ(f)之,每作一横,如列阵之排云……”这在一斚w展示出汉字书法艺术的璀璨瑰丽、博大精深;从另一斚wQ也勑֋出汉字笔法字体丰富多变的实际特征?

在信息化时代Q文字信息数字化计算机处理对于hcL明发展更L(fng)D意义。具体地Q将无处不在、无时不有的印刷或手书的文字文介质信息Q自动{变成计算机可阅读的电(sh)子文档,q是文字信息化的核心关键。但是,׃介质上的汉字字体不同QŞ态各异,字符cd巨大Q字形结构复杂,众多汉字输入计算机成为汉字信息化的巨大障。不仅手工输入繁琐,计算别输入更是困N重,q一历史最(zhn)久的“活文字”,在信息化时代却正面(f)前所未有的“生存危机”。因此,国家863计划的一个重要课题是计算Z题,其中有文字识别QOCRQ?0q代初,留在北京的清华无U电(sh)pȝ(sh)视教研组Q清华电(sh)子系囑փ教研l)军_投入d汉字输入壁垒的工作,揭开文字识别研究的序q。虽然当时国际上已开展大量可应用于遥感技术、治疗癌症等领域的相关研IӞ丁晓青审时度势,做出判断Q文字识别这一U研方向站得住脚Q大有用武之圎ͼ具备独立研究的广阔空间。她军_Q依托已掌握的图像处理系l的实力,?qing)时转向q一极具战略前景、关pd民文化发展的重要方向?/span>

世界上汉字识别的研究虽然h较早Q但大多数研I针对其结构特征,提取汉字l构信息Q如特征炏V笔ȝQ采用笔d析综合法、笔d列识别法{等q行识别的。但׃千万汉字数量巨大、结构复杂、变化多端,汉字表述十分困难,岂谈准确辨识。这些方法是(zhn)驼qQ无法从Ҏ(gu)上解决问题?/span>

丁晓青认为汉字识别必d辟蹊径。她从h们在书写汉字和L识汉字两者的不同感受中得到启发:(x)Z写每一个汉字是依据汉字W画l构一W一划书写的Q而对汉字的L识却是比较汉字整体的视觉形象异同而加以L识的。因此,W画l构难以识别汉字Q而模仿h的感知,汉字视觉形象的比较才是识别的正确Ҏ(gu)。我们应该做的是Q如何准表q视觉Ş象、进而精比较其差异辑ֈ最佌别。显Ӟ采用l计分析和分cȝҎ(gu)是汉字识别的正确战略?/span>

丁晓青首先ؓ(f)l计识别展开l计特征的研I。她带领?sh)子工程pL字识别课题组Q智能图文信息处理研I室前nQ率先在W画l构的汉字图像上提取汉字的统计特征——笔d度特征,用笔ȝ透频ơ描q字W图像的形象特征Q用汉字全局的笔d度特征的差别辩识汉字的异同,l果识别率比l构Ҏ(gu)出现显著提升。何以如此?l过深入研究思考,她认为,实验验证了分析的正确性。汉字识别更适用l计Ҏ(gu)表述汉字形象特征Q而非适用西方文字的结构方法。显Ӟ“汉字具有复杂的W画l构和纹理,q具有巨大的字符集合Q汉字的l计形象表述可以提供大量的特征信息熵Qؓ(f)复杂量大困难的汉字识别创造条件。而西Ҏ(gu)字字W图像的W画单,所构成的字W图像特征相对也容易提取。加之西Ҏ(gu)字字W类别数有限Q因此,许多在西Ҏ(gu)字识别中成功的识别方法,在数量巨大、结构复杂的汉字识别中却完全无能为力了”?/span>

THOCR研究和识别的文字字符集合列表

Zd解决巨量复杂汉字的识别分c问题,q需要有更深入的理论分析Q徏立如何获得最x能的分cȝ理论基础。在实验研究的基上,从学?fn)香农信息论受到启发Q香农信息论为通讯技术和事业的辉煌发展奠定了坚实理论基础Q而模式识别和通讯一P本质上也是信息的转换和传递。丁晓青发展了统计模式识别的信息느论,香农信息论扩展到模式识别领域,希望为模式识别深入发展提供有益的指引?/span>

丁晓青提出的模式识别信息느论指出,要获得最佳的分类判决唯一依赖的是选择h观测特征与其cdl计量间的最大“互信息”,藉此可能地消除h内在cd的不定性,x大互信息分类准则可保证获得最错误概率的最优识别结果,q进而导Z最大互信息最优特征压~识别准则?/span>

在信息熵理论的指gQ她先后提出微结构统计识别算法、手写汉字高阶统计徏模的l计分类法等Ҏ(gu)Q将文字字符囑փ表示为高l空间中的特征向量,利用|格W画微结构特征抽取的Ҏ(gu)Q将大小规一化的字符囑փ|格化,以网格笔dl构特征取代逐点W画特征Q获得高信息늚特征提取Q以满高互信息汉字识别要求的特征提取,不仅提高了字W特征的E_性,而且合理降低了其l数Q再辅之以统计学?fn)和最优分cd设计Q又q一步创新提出鉴别子I间文字识别、异方差识别、广义置信度分类器集成等Q最l高效全面突破了印刷体、手写脱?联机汉字识别Q取得o(h)人惊叹的成功。从试效果看,“全字体印刷汉字识别率达99.5%以上,联机手写字符识别率ؓ(f)95%Q规范脱机手写字W识别率?9.2%,自由脱机手写字符识别率则?2%,均达最高识别性能。”从实际应用效果看,“THOCR产品在国内占?5Q以上的市场”,q授权于微Y、IBM、摩托罗拉、诺Z{许多国际知名公司,以及(qing)三星、阿里、华为、百度、腾讯等公司。丁晓青q提出Gabor变换文字识别法Q攻克强q扰囑փ文字识别NQƈ获得国专利。高性能汉字识别技术还d了最h战性的信函中文全地址识别N。此外研I室研发的金E工E增值税防伪E控识别pȝ、银行单据识别等行业应用解决Ҏ(gu)q泛应用,均在C会(x)l济发展中扮演重要角艌Ӏ?

成功d汉字识别N后,丁晓青一斚wq一步解军_括(图文表格{)复杂文版面自动分析、识别和理解的全信息文识别法和系l,开创了复杂文版面复原的全信息数字化崭新途径Qƈ与湖南青Ҏ(gu)数据中心合作Q实C?946-2016q《h民日报图文电(sh)子版~印本》等的电(sh)子出版巨大工E;另一斚w提出自适应l合字符基元分识别、基于基U的字符切分{方法,解决和成功研制出蒙、藏、维、哈、朝、柯{我国主要少数民族文字识别系l,辑ֈq_95%以上的文档识别率?002q研制成功国际领先的高性能东方文字文全信息数字化pȝQ实C印刷体中日韩文字的高性能识别和文全信息识别数字化,中日韩东Ҏ(gu)字识别系l授权于微Y公司Qƈ在世界范围销售。经国Scansoft公司评测Q整体性能辑ֈ国际领先水^。而全信息数字化系l在?sh)子出版产业中突昑և重要作用Q已出版原文重现?946?006q的《h民日报电(sh)子版》等大量重要报刊杂志以及(qing)中央文献{。自1990q推出汉字识别品十余年内,丁晓青率领的图文信息处理研究室攀d了文字识别科研领域的世界高峰?/span>

1946-2006q原文重Ch民日报电(sh)子版与羃印本

l一q_蒙藏l哈柯日韩汉英؜排文识别系l?/span>

生物特征识别Q同源流Z斛泉

在丁晓青gQ从文化传承视角Q攻克汉字识别难题(识字Q解民族信息化之责首当其Ԍ而从服务C会(x)视角Q突破生物特征识别难养I识hQ推动社?x)前q之M同样责无旁贷?000q_(d)她年逾花Ԍ却展开新的征程Q一如既往Q以同样异于d的视觉感知识别战略,研I方向{向生物特征识别。仅仅四q后?004q_(d)在英国ICPR2004Q她率领团队参加了国际模式识别会(x)议D办的FAT2004认证竞赛Q以各项指标最优团队,获得“h脔R证算法全面最优性能奖”,达世界领先,影响巨大?005q_(d)首次推出TH-ID和笔q生物特征n份识别认证系l,此系l在2007qD行的国际最权威FRVT2006评?脱颖而出Q成为具有最佌别性能的国际领先识别系l?005q开始至今,清华TH-ID 成功利用于深圳罗湖口岸等的出入境自助通关pȝQ是世界首创的h脸识别大规模实际应用范例?/span>

LZ(x)问,丁晓青怎么从文字识别忽然{向生物特征识别,又何以能q速在新领域取得如此佳l?她认为,模式识别是h工智能的重要的基Q文字识别和生物特征识别q无霄壤之别Q大多是囑փ信号的识别,是相互联pR异同源的万斛源泉Q同是应用信息熵理论解决的模式识别问题,其基本思\在于如何获取更有效的外部观测特征Q锁定最主要变化Q挖掘内涵变量。过E由信息c条件熵、后验熵加以U束Q熵的变化v军_作用。她举例_(d)(x)“眉毛、E梁、嘴巴等是h脸的基本l构Q每个h的h脸结构基本相同,而不同h的h脸具有的是h脸的l微差别Q生物特征识别系l就是通过q种l微差别定不同人的w䆾。”从表情变化、情lv伏、面部特征等l节观察Q挖掘、洞(zhn)其性格、气质等内涵信息、内在要素。这一q程是科学研I的Ҏ(gu)论,即由表及(qing)里,透过现象看本质,扑և内在本质必然联系。在生物特征识别中,她也依托与文字识别共有的基本概念和核心技术,故而能如此q速地研发Z高性能的生物特征识别算法和pȝ?/span>

左图QTH-ID获FAT2004“h脔R证算法全面最优性能奖”;叛_Q?5q始工作于深圛_岸出入境自助通关pȝ

2006q科技部专家组考察图文信息处理研究?/span>

从文字识别跨到生物特征识别Q看g可思议Q而在丁晓青看来,却是学科发展、教育培充R拓展应用的一整盘?gu)。从学科发展看,利用信息느论指|Z视觉感知l计分类识别法Q一脉相承的解决文字和图像识别问题;从教育培ȝQ在丁晓青带领下Q清华电(sh)子系图文信息处理研究室重视培d生,着重考虑学生未来的科研发展前途,必须让学生在更宽q的范围领域LH破。经q长期扎实的U研训练Q智能图文信息处理研I室的学生无论在文字识别方向Q还是在生物特征识别?qing)众多图像视频领域,都有坚实的图像L识基。他们在自n研究领域或许一时受限于某一斚wQ但因基厚、视野广Q不?x)得鱼忘{,即便跨领域、跨学科也游刃有余,因此他们在求职时往往颇受青睐。迄今,已有50余名博士?4名硕土在丁晓青的指导下完成学?在各自学术领城取得了优异成WQ而在清华囑փ识别领域扎实的学?fn)和研究Qؓ(f)他们毕业后的事业发展打下重要坚实的基。从拓展应用角度看,图文信息处理研究室的研究不可能仅局限于文字识别Q文字识别之外还有更qK的图像科研领域,生物特征Qh脸、笔qV虹膜、签字等Q识别、目标检、跟t等都需向更大的范围q行U|拓展。而在某种E度上,生物特征识别更受xQ社?x)应用也更?f)q泛Q如安保{方斚w面,几乎施无不达。在q军生物特征识别的征途上Q丁晓青带领团队专心致志Q一心一意从学科、国安要出发,瞄准最困难、最需要解决的U研瓉Q淬火成钢,杵作针Q在识别领域持箋付出艰辛Q成卓著?/span>

丁晓青认为,U研需要脚t实圎ͼ行稳致远Q还要远见卓识,兼容q蓄。她以三l图像领域的共Ş几何Z_(d)从图像几何角度进行三l成像的计算Z可别,在h脸变化中保持几何上的共ŞQ以另辟蹊径,完善生物特征识别Q同时解决一些三l成像中的“顽䏀,应用更ؓ(f)深入。学U交互,有利于综合研IӞ推进U研发展?

?sh)子pL能图文信息处理研I室师生合媄

作ؓ(f)一名科研工作者,在勇攀高峰的艰辛道路上Q一生能有一原创的贡献都十分不易,丁晓青教授却征服了文字识别和生物特征识别两山峰。今天,我们耳闻她的励志故事Q目睹她谦和慈祥的容颜,真可谓“俗虑尘怀Q爽焉释”。我们认为,她的成功之道在于Q着意于夯实基本功,潜心U淀(wn)专业pQ精心根植学术涵养,以发展的观点、全面的观点、普遍联pd看待U研方向的选择Q注重透过现象看本质,以“解q环”的U学_ȝU研N。我们还看到Q她以开阔的视野、宽q的胸怀春风化雨、教书育人,而实心Q事、不慕虚名Q利的情操境界更带l当代青q学子以莫大的思想启示?/span>

采访合媄

采访 | Ƨ智坚、李亚利、乔元春、万?/span>

摄媄 | 赵阳

撰稿 | 万军


相关新闻