北京治疗白癜风到哪家医院 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/bdf/<
在生理学上,视觉的产生始于视觉器官感受细胞的兴奋,完成于视觉神经系统对信息的加工。
著名心理学家赤瑞特拉(Treicher)的实验显示:在日常生活中,除盲人这类特殊群体外,大多数人都是依靠视觉来直观地了解事物的形体和状态,以及完成衣食住行等基本生存活动。
视觉在获取外界信息的过程中发挥作用占比可达83%,其余11%来自听觉,6%来自嗅觉、触觉及味觉。不仅人类如此,自然界中多数动物亦然,这足以说明视觉对生物的重要程度。
然而计算机作为20世纪最重要的发明之一,在其诞生之初,是不具备“看懂”图像的能力的,一张图片即便再色彩缤纷,在“毫无感情”的计算机面前也只是一串数据、一个文档而已。
▲左旺孟
因此,在长达半个多世纪的漫漫岁月中,数代学者为赋予计算机一双处理图像的“慧眼”而前赴后继地进取拼搏,也由此产生了“计算机视觉”这一学科。
经过十余年的研究,哈尔滨工业大学计算机学院教授左旺孟逐渐形成了自己的认识:“我们研究的最终目标是使计算机能像人那样通过视觉观察理解世界,具有自主适应环境的能力。或许有人会说,摄像头拍摄已经基本做到了‘所见即所得’,但‘看见’、‘看清’与‘看懂’,是彼此独立的3件事,要实现每个环节的进阶,都需要很多人付出极大努力才行。”
规矩严格,功夫到家以求变
截至目前,左旺孟已在国际计算机视觉与模式识别会议(CVPR)、国际计算机视觉大会(ICCV)及欧洲计算机视觉会议(ECCV)等顶级会议和《IEEE模式分析与机器智能汇刊》(IEEETransactionsonPatternAnalysisandMachineIntelligence)等学术期刊上发表论文余篇。
然而,他与科研却并非结缘于计算机,在走进母校——哈尔滨工业大学之初,他是材料科学专业的一名追梦人。“高中时期,我的物理和化学成绩还比较不错,在许多人的建议之下,再结合我自己对专业应用前景的考虑,最终选择了建立在物理和化学学科基础之上的材料科学。”
但令人意外的是,6年的材料学本科和硕士学习生涯虽然为左旺孟打下了坚实的理论基础,磨炼了基本的科研素养,但并未使他获得科研自信,“我总觉得我的实验技能与动手能力有欠缺,或许我并不适合这个专业”。
于是,在得知身边几位好友都下定决心转入计算机专业后,左旺孟瞬间获得了激励,转换人生的赛道,开始为攻读计算机专业的博士学位而做准备。虽然与同专业升学的同期生相比,他的基础相对薄弱,但他还是凭借夜以继日的苦读与努力,顺利升入了哈尔滨工业大学计算机应用技术专业继续开展研究。
在计算机领域之中,左旺孟不仅找回了科研的信心,还相继邂逅了对他而言极为重要的几位“引路之人”。
“我的博士生导师张大鹏教授、北京大学林宙辰教授和香港理工大学的张磊教授等人对我的成长都起到了非常重要的作用。张大鹏教授算是我在这一方向上的启蒙导师,是他带我从一无所知到逐渐能在模式识别领域获得一些微小的成绩。科研的过程中,难免有心性不稳、懈怠之时,每当这时,林宙辰老师严谨自律的科研态度和在矩阵计算和优化算法方面的积极指导总是激励着我重新振作。而自年我决定开始做底层视觉研究之后,张磊老师就一直为我提供着指导与鼓励,直至今日,他仍在全力支持着我。这3位业内前辈的指导与帮助是激励我迅速成长的助推剂,可以说,没有他们的帮助,我也许无法坚守到今日。”
对于每位哈尔滨工业大学的学子而言,“规矩严格,功夫到家”都是铭刻于心且奉为圭臬的八字方针,左旺孟也不例外。
得益于导师们的帮助与积年坚守,他开始在计算机视觉的底层视觉与图像增强等方面逐步深耕并崭露锋芒。
年,凭借一篇发表于《IEEE图像处理汇刊》(IEEETransactionsonImageProcessing)的有关图像去噪卷积神经网络(DnCNN)的学术论文,左旺孟斩获了此期刊近10年来引用数最高论文的好成绩,且其方法在之后不仅以denoisingNetwork(.)为函数名被正式收录于MATLABb(美国MathWorks公司出品的商业数学软件)及后续版本的图像处理工具箱(ImageProcessingToolbox)和深度学习工具箱(DeepLearningToolbox)之中,还被编入华盛顿大学硕士计算机视觉课程CSE中,甚至被美国工程院院士理查德·塞利斯基(RichardSzeliski)教授写入其编著的计算机视觉经典教材《计算机视觉:算法和应用(第2版)》(ComputerVision:AlgorithmsandApplications2ndEdition)中。
然而,左旺孟却感受到了更大的压力和动力:“我国的计算机视觉技术仍处于国际并跑位置,希望有朝一日,我能与众多同仁一起,精准识变、主动求变,使我国在此领域真正实现领跑式的突破与超越。”
博学深谋,修身端行以待时
出于对母校的眷恋,左旺孟在博士毕业之后便直接留校任教,完成了走出象牙塔,随即走上三尺讲台的“华丽转身”。
据他介绍,他的早期研究主要聚焦于传统方法中的图像去噪与图像去模糊问题,通常会倾向于结合传统模型改善网络的灵活性,比如用一个网络处理多个任务,但很快他就发现了其中瓶颈:传统的底层视觉方法从数学理论上看很完美,但实际应用中却不可能用一个模型刻画出图像的所有规律,反而基于数据驱动的深度学习方法可以对图像的特性或者规律刻画得更充分一些,他说:“刚开始不少学者觉得底层视觉可能不适合用深度学习来处理,但我们觉得像高斯去噪等问题实际上是仿真问题,很容易获得无穷多的训练数据,反而更适合数据驱动的深度学习方式。”
这一聚焦前沿、独辟蹊径的推论最终得到了验证。
年,左旺孟与合肥工业大学、中山大学等团队的研究人员一起,协同开展名为“多域视觉学习”的研究课题,旨在利用多域视觉信息的关联/互补特性及不同域间学习和标注的不一致性,实现多域视觉信息的协同增强和不同域数据的跨域转换,从源域到目标域的领域自适应与跨域跨任务迁移,形成一套多域视觉学习理论与方法体系。
此项研究主要针对引导人脸增强、智能图像填充、人脸属性编辑和人像姿态生成、多摄融合等应用领域,开展关键技术研究并建立原型系统,具有重要的研究意义和实用价值。
目前,这一项目仍在如火如荼地进行着,但在过去两年内,此前拟解决的科学问题与目标在某种程度上已具雏形。
据悉,左旺孟团队的主要研究对象——视觉信息的域间关联/互补特性建模是关乎项目成败的核心问题,因其不仅是多域视觉信息协同的基础,更是跨域转换生成中内容和结构一致性的重要保证。
为达成自主创新的学术目标,即避免囿于当前常用的串联和自适应归一化机制的思路,左旺孟独辟蹊径,决定从不同域间关联的空域自适应性出发,通过发展局部自适应空间变换网络实现空域关联性建模,进而提出多级渐进式的高阶域间关联模型方法,相关成果相继发表于年度国际计算机视觉与模式识别会议(CVPR)和年度欧洲计算机视觉会议(ECCV)。
在多域联合建模方面,由于多域视觉转换生成和多源域领域自适应涉及两个以上的域,且难以通过对双域模型的简单拓展来解决,因此左旺孟团队便提出了综合建模域间关联和域间差异的共享编码驱动多域联合学习和自适应融合决策。
如今,相关研究已取得初步成果。左旺孟及其团队实现跨域视觉转换生成与域迁移学习面临的下一道“关卡”则是隐变量分布的可解释性解耦问题。问题的挑战性反而激起了团队的研究兴趣,经过一段时间的探索,他们完成了正交雅克比正则的分布可解释性建模,并将其发表于国际计算机视觉大会(ICCV)之上。
随着信息化社会的快速发展和智能终端设备的普及,全球范围内的数据呈现爆炸式增长,大数据时代已经来临——数据呈现显著的多模态特性,几乎所有的互联网新闻报道都包含图像、文字描述以及视频等多种模态;此外,由于成像设备的多样性和拍摄视角的多样性,图像和视频数据均呈现出显著的多视角特性。
在这样的时代背景下,相关研究已经引起了广泛的