当前位置: 首页 > 学术动态 > 正文

群英荟萃:“2019年智能感知与认知计算国际前沿论坛”报告总结

【来源: | 发布日期:2019-12-19 】

12月14日到15日,2019年智能感知与认知计算国际前沿论坛在诸侯快讯官方网站北校区主楼II区221报告厅举行,17位国内外领域学者、专家做了主题报告并与我校师生开展学术对话、交流科研成果。

本文根据论坛期间的现场速记进行整理归纳,将专家、学者们提出的主要观点及报告内容再次呈现出来,以供大家参考。

王琦:面向真实场景的人群计数研究及其应用

西北工业大学王琦教授

随着人口增多和人群活动的增加,安全问题日益成为人们关注的热点问题,王琦教授指出“如何通过智能视频监控的手段解决安全问题,尤其是公共安全问题”值得研究,这能“推动智慧城市的发展,推动平安城市的建设”。

王琦教授首先介绍了人群计数研究的三个主要研究方向:检测、全局回归、密度图,然后介绍了他的研究工作:基于虚拟数据的人群计数、基于图像内容迁移的域适配计数、大尺度人群计数数据库及评测平台。在基于虚拟数据的人群计数的研究中,王琦教授针对现存数据集太小、多样性不够、高密度人群标注有误差等问题构建了大尺度、多样性、高精度人群分析数据集GCC;针对虚拟数据集训练的模型泛化能力较弱,无法直接用到实际场景的问题提出基于虚拟数据的预训练策略与域适配机制,大幅度提高了模型的泛化能力。在基于图像内容迁移的域适配计数的研究中,王琦教授针对原有的CycleGAN系列算法无法有效处理域间差异,整体迁移不够细致等问题提出了域间特征分离模型,分离域间图像的共有特征与独立特征,完成图像迁移;基于模型得到真实图像的粗糙人群密度图,使用高斯先验生成密度图伪标签,训练高精度模型。在基于大尺度人群计数数据库及评测平台的研究中,他的团队提出NWPU大尺度人群计数数据库,引入与高密度人群分布相似的干扰样本,提高模型泛化能力,从多个角度评测人群计数模型性能。

王琦教授提出,未来人群计数算法对人工标注的依赖会进一步降低,域适应算法将会得到更多关注,将继续研究域分离算法,开发数据库网站平台,提供更多科研人员使用,促进人群计数领域的快速发展。

夏勇:智能医学影像分析中的深度学习技术

西北工业大学夏勇教授

夏勇教授从人工智能的发展历程出发,介绍了深度学习技术的研究现状理及发展趋势以及应用深度学习技术进行基于医学影像的计算机辅助诊断研究的最新进展。

基于神经网络的深度学习方法往往需要大量标注样本,而在很多领域是缺乏充足样本数据的,比如在医疗领域,高质量的医疗影像大数据样本很难获取,人工标注成本高,缺乏病理标准,亟待研究基于小样本数据集或弱标签标注的深度学习方法,将小样本弱标签的医学影像数据应用于肿瘤鉴别诊断等实际医疗场景,对于提高医学诊断准确率,具有重要现实意义。针对肺结节的良恶性鉴别,夏勇教授提出基于知识的协同学习深度学习算法、基于知识的协同学习的多视角深度学习算法;针对肝癌诊断,他提出了轻量化的肝脏肿瘤分割模型,基于U-Net结构将2D与3D卷积结合;前列腺癌是一种发病率高的癌症,夏勇教授提出前列腺MR图像分割模型,在解码模块使用多尺度监督策略;针对皮肤癌,提出了分半/弱监督的分类和分割协同框架,用分割促进分类,先分割出病灶图再对病灶进行分类,用分类促进分割,用拥有类别标签的数据辅助分割训练。

最后,夏勇教授表示,人工智能技术在医学图像分割与分类任务取得突破性进展,深度学习技术也越来越多的应用在医学图像分析和计算机辅助诊断,特别是解决医学图像分割和分类问题。

陈渤:Deep Probabilistic Model and Its Applications

诸侯快讯官方网站陈渤教授

陈渤教授的报告首先指出传统的深度网络模型具有强特征表示、可以处理大规模数据,但是从语义或视觉上难以解释、模型无法预测不同层之间神经元的关系以及无分布的点估计,所以他提出将深度网络与概率模型相结合的深度概率模型,它是一种基于贝叶斯方程的框架理论、带不确定性和推理的分布非点估计、神经元之间可解释的内容、灵活地整合领域知识,而不需要很高的数据量的模型。深度概率模型包括:全连接概率模型、卷积深度概率模型、递归深度概率模型。

Poisson Gamma Belief Network(PGBN)模型,其优势在于非线性,用Gibbs可以进行有效的推理并具有分层可解释性。但是PGBN模型无法处理大规模数据,很难融入边缘信息,测试样本的迭代推理。自编码GBN所面临的挑战有:仅仅有效高斯重参化,Log-Normal缺乏稀疏性,编码器和解码器的架构较浅等。针对这些挑战,陈渤教授提出了深度概率自编码模型(DPGDS)。DPGDS模型具有分层结构,具有强非线性,可扩展到大的数据等优势。最后,陈渤教授总结到:深度网络在许多应用程序上运行良好,但它们需要大量的数据;用梯形架构开发一个基本的深层概率框架;为不同的任务开发深度概率模型的几个变体。

郝鹏威:Learning for Innovation: Image Stylization

伦敦玛丽女王大学助理教授(Queen Mary University of London)郝鹏威

郝鹏威博士首先介绍了新的矩阵分解框架PLUS分解,可用于彩色图像压缩、颜色空间变换、多成分变换、多成分图像压缩等等。应用PLUS分解的优势:变换针对每一行或者列或者层数据点计算其变换后的新位置(加速至少O(N)倍),不用插值就可以得到所有点,变换过程一般无需额外数据空间,变换后的数据可以完全无损回复。

之后,郝鹏威博士提出创新在“新”,但“新”不代表一定“好”,也不代表一定“有效”。他举了两个例子,一个是知识,知识是感知、学习和推理的心理结果,知识是不断扩大的,交叉学科研究之间更容易架起桥梁;另外一个例子是艺术,艺术是情感驱动,不是科学,艺术是主观的而科学是客观的,艺术的组成是:形式和内容。他强调“创新”一定要落实到“有效”上。郝鹏威博士介绍了现代艺术和古典艺术的图像艺术风格化,进一步用矩阵分解提出新的图像风格。使用风格特征的点或者向量提取或者获得的特征转换为图像,Wasserstein风格迁移用于给定内容图像的风格可视化。最后,郝鹏威博士用四个问题对图像风格化进行总结:1.如何用点表示?——特征提取和学习;2.我们能有多少空间?高清和减少互动;3.如何创建新的点?流形上的内/外推法;4.如何验证新风格?用Leave-one-交叉验证。

张向荣:高光谱遥感影像异常检测

诸侯快讯官方网站张向荣教授

高光谱信息能够充分反映地物的物理结构和化学成分的差异,使得高光谱在地物判别方面具有独特优势和广泛应用。张向荣教授首先针对高光谱图像地物分类问题介绍了一系列基于深度学习与稀疏表示的分类技术,比如为了充分利用高光谱图像的空间信息和少有标记的样本,提出了一种基于局部约束的多特征语义提取方法,该方法从原始光谱特征中提取出了多种低阶特征,并将多种特征映射到相同的语义空间,利用改进的马尔可夫随机场模型将多种特征融合,显著的增强了每个样本的判别性,并同时引入空间约束,从而使得整体分类精度和空间一致性有了较大的提升。针对高光谱图像解混问题,介绍了一系列基于稀疏表示与深度学习的解混技术,比如提出的基于空谱信息丰度约束的组稀疏高光谱解混技术,解决了端元提取困难、表征不足的难题,基于结构先验低秩表示的解混算法将低秩表示模型引入到解混问题。另外,张向荣教授根据高光谱图像的特点,介绍了全新的异常检测方法。该方法首先将高光谱图像分为背景、异常点和噪声三部分,在此基础上将异常检测问题转换成为矩阵分解问题,进一步利用低秩稀疏等手段完成异常检测。

袁进辉:深度学习框架的技术挑战和发展趋势

北京一流科技有限公司创始人袁进辉博士

袁进辉博士首先回顾了深度学习发展的历程,进而指出深度学习在业界的成功应用,引领了人工智能的爆炸式增长,深度学习是已有方法中最行之有效的人工智能解决方案,并逐渐演变成普适性工具,性能是深度学习框架的核心竞争力。接着,他围绕深度学习框架的内容、面临的挑战以及发展趋势展开本报告。袁进辉博士认为,深度学习框架决定了算法和应用的技术高度,只有深度学习框架才能建立人工智能生态。因此,他的团队以性能作为突破点,致力于打造全球领先的深度学习框架OneFlow。从算力入手,对现有技术在GPU横向扩展与纵向扩展上的一系列问题进行了着重探讨,并强调指出克服了内存墙问题就从根本上解决了人工智能算力的问题。从架构创新的角度,对深度学习框架OneFlow的自主研发进行了剖析,进而介绍了其核心优势、训练案例以及商业策略。他认为,一项新兴的技术要经历“争鸣、收敛与终局”三个阶段,而这项技术并非昙花一现。最后,他从多方面对深度学习框架的技术挑战与发展趋势进行了总结,指出当前框架间迁移更加便利,深度学习软硬件将迎来标准化时代。

梁雪峰:Learning Features for Image Patch Matching

诸侯快讯官方网站梁雪峰教授

梁雪峰教授提出在众多计算机视觉任务中,建立图像间的局部对应关系起着至关重要的作用。图像块匹配的性能明显优于传统的局部特征点匹配,但在单光谱和跨光谱领域面临许多挑战。梁雪峰教授从学习共享特性、学习聚合的特征差异、从困难样本中学习特征三个方面提出了此问题的解决方案。

1.学习共享特征:考虑到跨光谱图像块之所以能够被匹配是因为不同的光谱图像之间存在共享的语义特征空间,为了学习这个共享的语义特征空间,提出了一种基于特征鉴别约束的空间连通特征度量学习的渐进比较方法。

2.学习聚合的特征差异:我们发现CNN各个层次的特征差异提供了有用的学习信息。因此,将多层次的特征差异聚集在一起,增强了识别能力。在此基础上,提出了一种聚合特征差异学习网络。

3.从困难样本中学习特征:传统的Siamese和triplet损失对所有样本都是线性处理的,这使得网络训练非常耗时。因此,梁雪峰教授提出了指数的Siamese和triplet损失,它可以自然地聚焦于困难样本上,更少地关注容易的样本,同时加快了优化的速度。

最后,梁雪峰教授分享科研心得:创新点不在于大,好的想法是做出突破性工作的关键。

程适:头脑风暴优化算法研究进展

陕西师范大学程适博士

程适博士的报告从群体智能、头脑风暴优化算法、应用三方面展开,介绍了头脑风暴优化算法研究进展。

程适博士首先讲解了进化计算算法,从方法出发,寻找正确的适应度函数、编码方式或策略,从而解决不同的优化问题,然而这种基于生物染色体的进化是非常慢的,人们开始希望从其他方式,如生物的交互(即鸟类的飞行或者蚂蚁的觅食等)中寻找新的灵感,模拟并产生新的算法,提出了群体智能算法。早期的群体智能算法有粒子群算法、蚁群算法,现在有烟花算法、头脑风暴算法、鸽群算法等,现有算法只要把需要解决的问题建立成优化模型,就可以通过算法计算出结果,是一种基于模型驱动的方式,通过调整参数来得到好的模型,从而解决不同的问题。然而,这样的模型未考虑所需解决问题的信息,得到的结果通常并不理想,人们开始关注如何在进化过程中学习问题,将数据驱动与模型驱动相结合,提出了头脑风暴算法。

程适博士讲解了头脑风暴算法的基本流程和其中两个主要操作(解集合聚类和新解生成),以及头脑风暴算法的改进方法,用于对单目标、多目标和多模态等问题进行求解。程适博士介绍,目前头脑风暴优化算法已可以很好地应用于解决多种实际应用问题,包括电力系统问题、航空领域设计问题、无线传感器网络、金融优化问题和其他优化问题(如大规模和分布式资源中心的节能问题)。

韩睿:遥感卫星商业化背景下的认知计算诉求

长光卫星技术有限公司韩睿工程师

韩睿工程师围绕着“遥感卫星商业化背景下的认知计算诉求”的主题,介绍了商业遥感卫星的视角下对人工智能计算的诉求,并从市场角度提供一些新的研究思路。

韩睿工程师首先介绍了光学卫星遥感发展的背景。由于高光谱和SAR获取成本高、处理难度较大,现今应用较为成熟的是光学卫星遥感。在过去几十年中,光学卫星遥感应用比较多的是欧美的卫星,中国目前主要有高分系列、环境系列和风云系列,但是都属于政府管理(即工业卫星)。近几年来,商业遥感蓬勃发展,代表性的有吉林一号星座、北京二号和高景一号,从而对欧美卫星的依赖在逐渐减少,有了更多的灵活性和自主性。此外,韩睿工程师也介绍了遥感影像数据相关的产品,主要包括推扫影像产品、视频数据产品、夜光数据产品、DSM数据产品、惯性空间数据产品、数据应用产品。吉林一号星座现已拥有了多种卫星数据,未来10年中,全球每天获取的观测数据将超过10PB,遥感大数据时代已然来临。为高效处理海量数据的巨大挑战,韩睿工程师介绍了长光卫星技术有限公司针对海量遥感数据进行的探索,研发数据挖掘软件,挖掘卫星遥感的数据价值,实现多时相遥感影像变化监测等应用。最后,韩睿工程师给出了认知计算技术在商业遥感中的应用展望,认为高分辨率光学影像与视频数据面临的挑战是分析难、精度低、数据大,使用人工智能技术、超算GPU并行技术和类脑计算技术将超级计算与大数据结合将是未来的研究方向。

褚智威:身体表面三维重建与健康应用

蒜泥科技联合创始人、CTO褚智威

褚智威CTO的报告以“身体表面三维重建与健康应用”为主题,介绍了维塑科技的目前发展情况和下一代产品的核心技术。对于三维人体的重建和人体认知,从人体可以想到健美,同时也反映人们的身体健康状态,如体态问题(全球54%的人存在不同程度的脊柱问题)、肥胖问题等。

为了便捷、高效以及智能化的获取与分析如此之多的人体数据,如生命体征检测、身体成分检测、动态身体机能评估、身体维度测量、身体关节机能评估、静态体态评估,维塑科技推出了维塑三维体型追踪仪,除了基本功能,还加入电阻抗可以分析人体成分,并在此基础上融入三维人体扫描建模,进行一个全维度的三维体态分析。为了拓宽AI在健康方面的应用,褚智威CTO介绍了目前正在开发和研究的基于视觉的身体成分测量(VBDA技术)、血光谱测量心跳血压(TOI技术)、三维人体体型测量(BPA技术)、基于深度学习的体型预测(SMP技术)、动态姿态与肌肉评估(DPF技术)。同时,褚智威CTO也介绍他们下一代产品的核心技术将是多融合非刚性人体重构技术(MUF),引用自适应的人体关节模板模型来辅助动态人体追踪,并通过将模板模型和深度图像进行匹配,实现人体和外表面衣物的双层建模,解决了传统卷积神经网络识别骨骼模型方法带来的遮挡歧义、识别结果不准等问题,从而完成在动态条件下重建出完整的三维人体模型,可用于人体体态评估。最后,褚智威CTO给出了维塑科技的愿景,希望把电影《超能陆战队》中的“大白”带到每个人身边。

吴金建:脑启发式图像客观质量评价技术研究

诸侯快讯官方网站吴金建教授

吴金建教授的报告以“图像客观质量评价”为主题展开。他首先指出人的信息获取主要来自视觉,但是海量大数据中存在大量冗余,绝大部分数据白白浪费。因此对场景所提供的视觉信息的质量进行智能评价具有重要意义。

图像质量评价是图像处理的基本技术之一,有着广泛的应用,可以分为两类:主观质量评价和客观质量评价,主观质量评价的评价主体是人,由人根据观看感受打分,这种评价方法最符合人类观感是最准确的,缺点是评价麻烦效率低。客观质量评价是根据图像统计信息来评价,应用最多,分为全参考(Full Reference,FR),半参考(Reduced Reference,RR)和无参考(No Reference,NR)。紧接着吴金建教授从“全参考”,“部分参考”和“无参考”三个方面讲解了图像质量评价的技术分类。随后他讲解了图像质量衰减的成因,并在此基础上提出了“基于自由能量理论的内在推导机制模型”,针对视觉内容提取的内在特性提出了“基于视觉方位选择的图像结构描述子”,在无参考质量评价方面提出了“基于多流特征融合的BIQA”。

刘光灿:基于卷积核范数的数据预测

南京信息工程大学刘光灿教授

刘光灿教授的报告针对张量序列预测问题,提出一种基于卷积核范数的方法,并给出未来数据的可确定性条件。他举例从损坏的观测值中恢复位于多个子空间的并集上的真实样本的问题介绍卷积核范数的方法。为了克服混合数据带来的挑战,刘光灿教授提出在方法中考虑低秩表征LRR(Low-Rank Representation),并从数学上证明,只要字典条件良好且等级不太高,LRR可以减弱对行相干性的依赖,如果字典本身的级别足够低,则可以完全消除对行一致性的依赖。这为词典学习提供了一些基本原理,促使了一种用于恢复混合数据的实用算法的产生,此方法在随机生成的矩阵和真实运动序列上的实验显示出满意的结果。最后,他以降水量预测为例,算法通过对过去七天的降水量数据进行分析计算,预测下一天的降水量,取得了极佳的实验结果。

兰旭光:人机协作场景中视觉推理

西安交通大学兰旭光教授

兰旭光教授的报告分析了国内外研究现状,简要介绍机器人在智能方面的进展和面临的挑战,特别是机器人自主理解和作业存在难点:现在的人工智能是没有理解,推理和决策能力的。

“抓取是机器人领域的一个重要问题。”针对这个难点问题,兰旭光教授提出了一种基于物理稳定性的适用于多目标堆叠物体的抓取方法,从而提高机器抓取的准确性。通过结合正确的抓取顺序和抓取部位,以对物体和操作关系进行实时推理,再加上基于有向锚点框的全卷积视觉抓取部位检测网络,实现了对物体抓取部位的实时检测。在抓取规划中,通过结合场景深度信息和抓取部位检测结果,获取当前被抓取物体的抓取点和对应的抓取向量,并通过坐标系变换将Kinect坐标系的抓取向量映射为机器人坐标系的抓取向量,完成当前抓取,能够使机器人以正确的顺序和功能准确地对多个目标堆叠物体抓取和作业。这种算法的精度和准确性甚至超过了一些著名的国际算法。他还介绍了人机共融协作中的姿态估计、行为识别和意图理解等方面的研究进展。最后,兰旭光教授还介绍了基于深度强化学习的机器人仿真作业,并展示了实验的具体视频。

聂飞平 :K-Multiple-Means for Fast Clustering

西北工业大学聂飞平教授

大数据聚类的主要挑战之一在于如何以极低的成本处理海量高维数据,同时提高聚类效果。聂飞平教授的报告从“如何以极低的成本处理海量高维数据,同时提高聚类效果”展开。

聂教授指出很多大规模聚类方法基于代表点采样的思想,代表点的质量直接决定了聚类结果的上限。流行的K均值聚类算法仅使用一个类中心对每一类数据建模,即假设一个类只有一个类中心,然而这个假设无法捕获到非凸信息,而且许多类别是由多个子类组成的,一个类中心没有办法表示这一情况。如何选择更好的代表点是一个关键却少有人研究的问题。通过放宽K-means中每类只有一个中心的约束,聂飞平教授提出了一种新颖的K-Multiple-Meansfor Fast Clustering的方法。聂飞平教授提出的K多均值(K-Multiple-Means)聚类方法,将具有多个子簇均值的数据点分组到指定的k个簇中。传统的多均值聚类算法一般采用合并或者启发式的方法,与传统的聚类方法不同,该方法将多均值聚类问题形式化为优化问题,并通过交替优化策略更新m个子簇均值和k个簇的划分。在优化过程中,该工作将具有多均值表示的原始数据划分问题建模为具有约束拉普拉斯秩的二部图划分问题,同时,给出了与K均值聚类方法之间联系的理论分析。这个方法具备了K均值聚类算法的优点,收敛速度快,需要优化参数少。最后,在多个合成和真实数据集上的实验结果验证了该方法的有效性。

该方法复杂度很低,显著提高了大数据聚类的质量,学到的代表点可以广泛用于矢量量化,聚类分析,特征学习等。

刘康:链接符号与向量:基于神经符号学习的知识图谱研究新进展

中科院自动化所刘康研究员

刘康研究员从知识工程的背景知识、符号系统(知识图谱)与数值系统(深度学习)组合研究的挑战、进展和应用几个方面向我们介绍了知识工程与数据驱动的深度学习模型相结合的研究和应用。

他首先指出知识工程在人工智能中占据重要地位,利用传统的检索和符号匹配手段很难让机器理解符号背后的语义含义,而加入知识能帮助我们在这些智能应用上理解得更加精准。同时,他也指出仅有知识是不够的,还需要常识性的规则,并进一步指出问题的本质在于符号和数值计算之间的链接问题。深度学习的优势在于能够利用向量表示数据,能够利用大量的数据训练型,但计算过程不可解释,而符号系统中的运算是可解释的,但其所利用的数据规模偏小,且符号和符号间存在语义鸿沟的问题。因此尝试将两者结合,而两者的结合需要解决三方面的问题:(1)如何利用神经网络刻画知识内在逻辑与语义结构;(2)如何实现文本语义的数值向量到符号化知识的自动抽象;(3)如何利用神经网络实现符号计算的模拟,进而实现可解释的大规模知识问答与知识推理。基于此,刘康研究员进一步介绍了其团队在知识抽取方面和数值计算对于符号运算模拟方面的具体工作。最后,他展示了其研究成果在实际中的应用:如医疗知识图谱在智能电子病历系统中辅助病历录入、病历质检,知识问答用于家居服务、教育和金融等多个领域。

常玲:Eyes in The Sky: Satellite Radar Inter Ferometry Progress and Challenges

特温特大学(Universityof Twente)助理教授常玲

常玲博士从合成孔径雷达干涉测量技术(InSAR)的原理、研究案例和所面临的挑战三个方面向我们作了主题为“Eyes in The Sky: Satellite Radar Inter Ferometry Progress and Challenges”的精彩报告。

常玲博士首先介绍了一些遥感技术基础知识:遥感卫星包括光学遥感、红外遥感和微波遥感等。遥感SAR数据不仅记录地物反射雷达波振幅(强度),同时也记录反射雷达波的相位。SAR数据不仅具有反映地物特征的能力,同时也包含距离信息。但单幅SAR影像中的相位记录的地物雷达反射波在一个正弦波内所处的位置,无法直接反映位置信息,因此需要进一步使用InSAR等测量技术将地物的位置信息提取出来。干涉测量则是指在通过对干涉相位图进行去除平地效应、高程模糊度计算、相位解缠等操作后,将干涉相位换算为地物高度的测量技术。干涉相位可以理解为同一地物对在两次不同位置发射的相同波段雷达波的反射波形差,由两次回波信号的相位复共轭相乘得到。计算的干涉相位包含的是两次雷达波发射位置不同导致的雷达与地物之间的距离差异以及散射相位的变化信息,因此需要结合雷达位置、姿态及基线长度等数据将距离信息换算为地形及形变信息。其中常提及到的一项关键步骤就是干涉相位解缠也就是将在-π~π之间周期变化的缠绕相位恢复至真实相位的过程。在监测由地面沉降、崩塌等现象导致的地表形变时,需要将干涉相位中的形变信息提取出来。常博士进一步介绍了其基于InSAR数据在建筑物崩塌和地面沉降检测及全国铁路监控方面的研究,并提出探索如何有效利用海量遥感数据是未来研究的一个难点,具体体现在对海量遥感数据的解译和数据整合方面。

整理人:张若浛,王丹,贾楠,董惠惠,黄欣研,张俊,李鹏芳

关闭