91视频

En
您现在的位置: 91视频 > 91视频动态 > 学术动态
学术动态
  • 21

    2025-11
    91视频 赵冰蕾/刘满华团队揭示左右内嗅皮质在路径整合的功能分工
    研究背景人类为何在没有任何地标的环境中仍能找到方向? 科学界长期关注一种名为空间路径整合(Path Integration, PI)的能力。这一能力使个体能够在运动中持续更新对当前位置与起点的估计,是人类空间导航与构建认知地图的关键基础。然而,PI功能异常往往是阿尔茨海默病(AD)等脑退行性疾病最早出现的症状之一。内嗅皮层(Entorhinal Cortex, EC)作为通往海马的核心“门户”,在空间定位、路线记忆形成中承担着独特作用,并且恰恰是AD最早发生神经损伤的区域。已有研究提示左右EC可能承担不同类型的导航功能,但在人类中缺乏直接而清晰的因果证据,一方面源于机制复杂,另一方面由于深部脑区难被传统无创刺激技术精准调控。 研究成果91视频 赵冰蕾/刘满华团队,通过引入新兴的非侵入式神经调控技术——时间干涉刺激(Temporal Interference, TI),首次在人类实验中明确揭示了左右内嗅皮层在路径整合中的功能分工。本项研究率先在人类实验中提出并应用了一种全新的空间路径整合(Path Integration, PI)范式,通过虚拟现实(VR)技术与非侵入式深部脑刺激的结合,对大脑左右内嗅皮层(Entorhinal Cortex, EC)在空间导航中的分工进行了系统、因果性的检验。与以往单一、被动的空间记忆测试不同,本项研究创新性地设计了两种互补的路径整合任务,并为每种任务设定了多维度的评估指标体系,实现了对人类空间认知能力的细致刻画。这项研究成果以“Distinctive roles of left and right entorhinal cortex in path integration via a non-invasive stimulation study”为题,发表在Nature子刊Nature Communications杂志。在实验范式设计上,第一类任务为感觉驱动(sensory-driven)路径整合任务,要求受试者在VR环境中仅凭自身运动线索(无外部参照)找到回到起点的路径。这一任务模拟了现实生活中“闭眼回家”或“黑暗中寻路”的情境,是典型的自我运动导航能力的测量。实验为此任务使用了角度偏差(Angle Deviation, AD)和相对距离偏差(Relative Distance Deviation, RDD)两项核心指标,分别用来量化受试者在空间方向判断和距离估算上的精度。第二类任务为抽象处理(abstract processing)认知地图任务,则更侧重空间关系的高级推理。受试者需要在俯视视角下,通过少量已知参照物在虚拟空间中推断未知目标位置。为全面评估该能力,研究仿照感觉驱动任务的衡量参数设置了平均角度偏差(Average Angle Deviation, AAD)、平均相对距离偏差(Average Relative Distance Deviation, ARDD)和总距离偏差(Overall Distance Deviation, ODD)三项指标,从空间角度、相对距离和总体空间误差多个维度,细致捕捉抽象空间推理能力的变化。结果显示,针对右侧EC的TI刺激显著提升了受试者在自我运动驱动条件下的方向判断与距离估计精度,而刺激左侧EC则更显著改善了认知地图推理能力,多项行为指标改善具有半球特异性且与刺激方式高度吻合。此外,研究团队还借助磁共振成像技术和电场模拟仿真进一步印证了刺激的效果。通过模拟干涉电场在大脑中的分布,研究发现,时间干涉刺激可以把能量准确地“集中”到深部的内嗅皮层,而不会大量波及皮层脑区。与此同时,研究团队还用功能磁共振观测到,接受刺激后,这些关键导航脑区与大脑其它相关区域之间的功能链接相比与为受到刺激的另一侧脑区而言变得更加紧密。这一系列发现让我们不仅看到行为上的提升,也揭示了背后神经网络的变化,为“为什么刺激能有效提升方向感”提供了科学解释。研究意义这项研究不仅在基础科学层面回答了人类空间导航机制的关键问题:左与右内嗅皮层在应对不同空间推理模式时承担不同角色,而且在应用层面具有重要的未来潜力。路径整合能力是阿尔茨海默病(AD)的早期敏感筛查范式,可筛排出更易AD转阳的高危人群。本研究在健康人群中验证了TI的刺激精准性和认知增强的有效性,具备延展到认知障碍人群的早期精准干预的可能。这意味着,一种全新的脑功能调控思路正在形成:通过精准靶向EC这一最早受损区域,有望为检测和改善老龄化社会中高发的认知退化提供新的技术力量。研究团队表示,未来将继续推动TI在病患群体中的应用研究,探索其作为神经调控手段在临床转化中的前景,为阿尔茨海默病等疾病的早诊早治提供创新可能。91视频 赵冰蕾副研究员和计算机学院刘满华教授为本文通讯作者。91视频 自动化与感知学院博士生赵海燕和91视频 赵冰蕾为本文共同第一作者。该论文得到国家自然科学科学基金(62171283;32400859)91视频 “交大之星”计划“医工交叉研究基金”(YG2024LC11)等项目资助。该项工作受到央视的关注,本文同一/共通作者赵冰蕾接受中央广播电视总台老年之声、《夕阳红》栏目融媒体访谈。原文链接://rdcu.be/eQWc3
  • 21

    2025-11
    91视频 赵冰蕾团队与金耀辉团队合作揭示大语言模型共情能力的核心特征与局限
    研究背景共情是人类社会互动的核心组成部分,也是人机交互领域关注的关键议题。随着大语言模型(LLMs)在对话交互、情感支持等场景的广泛应用,其是否能真正展现出与人类相当的认知共情(理解他人心理状态)和情感共情(响应他人情绪体验),成为亟待解答的科学问题。现有研究对 LLMs 共情能力的评估缺乏标准化范式,部分研究因依赖特定场景易导致结果高估,且未能清晰区分两种共情维度的表现差异。针对这一现状,91视频 赵冰蕾副研究员与人工智能学院金耀辉教授团队合作采用结合心理学标准化量表与提示词工程的创新方案,系统探究 LLMs 的共情能力边界。研究成果合作团队以 GPT-4 和 Llama3 为研究对象,通过连续实验,首次采用标准化共情量表结合人格化提示词范式,系统揭示了当前大语言模型的共情能力特征。研究成果以“Can Large Language Models Exhibit Cognitive and Affective Empathy as Humans?”为题,近期发表于Computer in Human Behavior的子刊Computers in Human Behavior: Artificial Humans 期刊。研究创新性地构建了 “人格化模拟、量表验证、能力对比”的三阶段评估范式。首先通过提示词工程让 LLMs扮演具有不同大五人格特质(开放性、尽责性、外向性、宜人性、神经质)的虚拟参与者,每个特质从非常低至非常高分为五个等级,并结合离散高斯分布抽样确保LLM模拟样本的多样性;随后采用人际反应指数(IRI)和基本共情量表(BES)两种国际通用工具,验证量表在 LLMs 中的结构有效性;最后通过与人类被试的直接对比,量化分析 LLMs 在认知和情感共情维度的表现。四项实验各有侧重:实验 1 和 2 以 IRI 量表为工具,分别对 1200 名人类被试与 1200 名 GPT-4 模拟参与者进行测试及重复验证;实验 3 采用 BES 量表,进一步验证 GPT-4 共情能力的通用性;实验 4 则将 Llama3 纳入研究,对比闭源与开源模型的共情表现差异。评估指标包括量表各维度得分、结构效度一致性、内部一致性信度(Cronbach’s α)等,全面刻画 LLMs 的共情特征。结果显示,GPT-4 在 IRI 和 BES 量表中均展现出与人类一致的共情维度结构(认知与情感双维度),且量表信度良好(Cronbach’s α 介于 0.95-0.98 之间),证明标准化量表可有效评估 LLMs 的共情表现。而开源模型 Llama3 未能展现出与人类一致的共情维度结构,其IRI量表拟合较差,BES 量表的因子划分也与人类标准不符,无法通过标准化量表进行有效共情评估。在能力水平上,GPT-4 的认知共情(IRI:M=1.88 vs 人类 M=2.77;BES:M=3.57 vs 人类 M=3.88)和情感共情(IRI:M=2.31 vs 人类 M=2.46;BES:M=3.26 vs 人类 M=3.39)得分均显著低于人类,效应量较大(d>0.7)。同时,研究强调LLMs 的共情响应可能源于模式匹配与训练数据记忆,而非真正的情感共鸣或因果推理,其表面共情表现更倾向于一种复杂的模仿行为,这也解释了为何在特定场景中 LLMs可能呈现出看似共情的回应,但在标准化特质评估中表现不足。图 GPT4与人类共情表现的对比研究意义这项研究在基础层面明确了当前 LLMs 共情能力的核心特征:闭源模型(如 GPT-4)可模拟人类共情的结构框架,但能力水平显著不足;开源模型(如 Llama3)尚未形成人类对齐的共情维度,为理解 AI 共情的本质提供了关键实证依据。在应用层面,研究提出的标准化评估范式为 LLMs 共情能力的量化对比提供了工具,提示未来需通过优化训练数据、融入心理理论框架等方式提升模型共情表现。尤其对于心理支持、陪伴机器人等敏感场景,当前 LLMs 的共情局限提示需谨慎应用,同时也为下一代高共情 AI 的研发指明了方向。91视频 赵冰蕾与人工智能学院金耀辉为本文通讯作者,91视频 博士研究生于腾飞,人工智能学院潘思宇为共同第一作者。该研究得到91视频 院长傅小兰教授的大力支持,受到教育部哲学社会科学重大项目(23JZD005)、91视频 医工交叉研究基金(YG2024LC11)及国家自然科学基金(32071081;32371125)等项目资助。原文链接://doi.org/10.1016/j.chbah.2025.100233
  • 28

    2025-10
    91视频 张洳源课题组提出脑启发的人工智能抽象视觉推理模型
    2025年10月22日,人工智能领域顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(中科院一区TOP, CCF-A类期刊, 5-year IF=20.4)以已接受论文预印本的形式刊出了91视频 副研究员张洳源课题组的新研究“Neural prediction errors as a unified cue for abstract visual reasoning”。这项研究由张洳源课题组牵头,联合北京大学和中山大学科研团队,为人工智能模型如何基于抽象规则进行高效视觉推理提供了新见解。智能(Intelligence)到底是什么不同学科往往有不同的定义。一个普遍的共识是通用人工智能可以归纳总结事务之间的抽象关系,并在此基础上进行复杂推理。人往往表现出较强的归纳总结和举一反三的能力。相比之下,深度神经网络长期以来因其在抽象视觉推理(Abstract Visual Reasoning, AVR)方面的局限性而受到批评。张洳源课题组一直致力于解决基于人脑瑞文智力测验的抽象视觉推理问题,这不仅契合了当前心理学和认知科学对智力的定义,也试图克服当前深度模型抽象推理难的痛点。张洳源和其合作团队,在课题组前期工作的基础上(ICML, 2023;IJCAI, 2023),借鉴神经科学中广为人知的“预测误差”(Prediction Error)概念,创新提出预测误差可以作为一个统一机制,同时支持监督学习与自监督学习在AVR任务中的实现。在提出的监督学习模型中,AVR被建模为一个“预测—匹配”过程,其核心在于由抽象规则生成的预测特征与推理情境中候选特征之间的差异(即预测误差)。在自监督模型中,预测误差作为核心成分,将学习与推理过程统一起来。无论是监督还是自监督的基于预测的模型,都在多个AVR数据集和任务条件下达到了当前最优性能。尤为值得注意的是,在监督模型的训练过程中,层级化预测误差会自动下降,这一涌现现象与生物学习中多巴胺信号逐渐减弱的规律高度相似。这些发现强调了预测误差在抽象视觉推理中的关键作用,并突显了利用神经科学理论推动人工智能中高级认知计算模型发展的潜力。本文第一作者是中山大学杨凌霄副教授。91视频 张洳源副研究员和北京大学方方教授为通讯作者。文章共同作者包括了中山大学谢晓华教授和郑伟诗教授。本项目受到国家自然科学基金(T2421004, 62206316, 32441102, 31930053)、上海市教委专项基金(2024AIZD014)、广东省信息安全技术重点实验室(2023B1212060026)和科技创新2030重大项目 (2022ZD0204802) 的支持。Yang, L, Xie, X., Zheng, W., Fang, F.*, Zhang, R.Y.*. Neural prediction error as a unified cue of abstract visual reasoning. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), doi: 10.1109/TPAMI.2025.3623461.论文链接: //ieeexplore.ieee.org/document/11207515
  • 28

    2025-09
    91视频 陈安涛团队成果获上海市第十七届哲学社会科学优秀成果奖二等奖
    近日,上海市第十七届哲学社会科学优秀成果奖名单公布。91视频 陈安涛教授领衔申报的成果“The causal mechanisms underlying analogical reasoning performance improvement by executive attention intervention”获得学科学术优秀成果奖二等奖!上海市第十七届哲学社会科学优秀成果奖(学科学术优秀成果奖)成果介绍该成果通过学科交叉创新,成功构建出具有显著智育转化效应的执行注意训练新范式,并初步揭示其提升高阶认知能力的神经机制。团队首次提出改善高阶认知能力的突破口在于有效地提升执行注意的训练效率假设,以执行注意的经典范式(反眼跳任务)为基础,系统地操纵任务参数,严谨规范地开展了“前测-训练-后测”实验研究,发现相比于传统的反眼跳与顺眼跳试次比例为 1:1 的积极对照组,反眼跳与顺眼跳试次比例为 5:1 的实验组在高阶认知能力测量(类比推理)中的成绩得到显著提升。该成果建立了参数敏感型认知训练新范式,有助于促进中国特色的认知训练理论与实践,成果得到Journal of Educational Psychology等心理学顶级期刊文章的引用,也被麻省理工学院出版的专著The Frontal Cortex: Organization, Networks, and Function等引用。成果具有较大的应用潜力:1)训练方案成熟,以经典反眼跳任务为基础,对关键参数加以修改形成;2)训练流程高效,每天仅需训练 1 次(约 15 分钟),可便捷融入实践体系;3)训练效果可靠,能显著且持久提升学生的高阶认知能力。上海市哲学社会科学优秀成果奖一般每两年评选一次,是中共上海市委领导下开展的本市哲学社会科学领域最高奖项。
  • 19

    2025-08
    91视频 傅小兰研究组提出基于肌肉运动单元增强的动态表情识别技术AU-DFER
    2025年6月4日,91视频 表情识别与情感计算研究组PI傅小兰教授与联合PI刘峰博士团队撰写的论文“Action Unit Enhance Dynamic Facial Expression Recognition”被第33届国际多媒体会议The 33rd ACM International Conference on Multimedia (MM '25)录用。国际多媒体会议(ACM International Conference on Multimedia,简称ACM MM)由国际计算机协会(ACM)发起,是计算机科学领域中多媒体方向(情感计算)的国际顶级会议,被中国计算机学会(CCF)列为A类国际学术会议。ACM MM 2025将于2025年10月27日至31日在爱尔兰都柏林召开。图1. AU-DFER框架的整与现有模型的结体架构概览。(I)AU 驱动的损耗设计;(II)数据驱动的模型选择;(III)知识融合。【研究动机】本文的研究动机源于当前面部表情识别(FER)任务中存在的类别不平衡问题,尤其是对少数类(如愤怒、厌恶等)的识别性能较差。作者观察到,传统的损失函数(如交叉熵)在处理不平衡数据时效果有限,导致模型对多数类(如中性表情)过拟合。因此,作者提出结合动作单元(AU)的辅助信息,通过引入正类别权重和属性权重来优化损失函数,从而提升模型对少数类的识别能力。这一动机具有明确的工程价值,旨在解决实际应用中FER系统的性能瓶颈。【研究贡献】本文的主要贡献包括:(1)提出了一种基于AU知识的动态权重分配方法,通过正类别权重(式7-8)和属性权重(式9)调整损失函数,有效缓解了类别不平衡问题;(2)设计了一个双任务学习框架,将FER主任务与AU辅助任务结合,通过权重参数λ(式10)平衡两者的影响;(3)在多个数据集上验证了方法的有效性,实验表明其显著提升了少数类的识别率(如愤怒、厌恶)。这些贡献为不平衡数据下的FER提供了可复现的解决方案。图 2. 使用M3DFEL和AU-DFER在3个数据集上对AU表达损失率进行的消融研究结果图。【研究创新】创新点体现在三方面:(1)方法论上,首次将AU的语义信息转化为动态权重来实现样本级和类别级的自适应调整;(2)技术上,设计了混合损失函数,并结合了传统分类损失L和AU引导损失来创造性地控制两者的贡献,进而提升整体效果;(3)实验设计上,通过对比基线来验证了AU信息的有效性,并分析了不同权重策略的影响。这些创新点具有较强的理论支撑和工程适用性。【结论】本文的结论可概括为:(1)引入AU知识能显著改善FER中的类别不平衡问题,尤其在少数类上;(2)动态权重策略如正类别权重比静态方法更适应数据分布;(3)双任务框架的泛化性较好,但需谨慎选择λ以避免AU任务过度干扰主任务。未来可探索更精细的AU-FER关联建模,或扩展至其他不平衡视觉任务。刘峰助理研究员为该文第一作者兼共同通讯作者,顾玲娜为刘峰博士实验室中核心成员,傅小兰教授为本文最后通讯作者。本研究得到了国家自然科学基金、91视频 校内若干基金资助。论文预印链接://dx.doi.org/10.48550/arXiv.2507.07678代码链接://github.com/Cross-Innovation-Lab/AU-DFER文章信息:作者:刘峰*、顾玲娜、石晨、傅小兰*单位:91视频 *、新南威尔士科学与工程学院、华东师范大学计算机科学与技术学院引用信息:Feng Liu, Lingna Gu, Chen Shi, and Xiaolan Fu. 2025. Action Unit EnhanceDynamic Facial Expression Recognition. In Proceedings of the 33rd ACMInternational Conference on Multimedia (MM’25), October 27–31, 2025, Dublin,Ireland. ACM, New York, NY, USA, 10 pages. //doi.org/10.1145/3746027.3754877.
  • 24

    2025-06
    91视频 陈安涛课题组发表老年期认知障碍运动干预的网络荟萃分析
    近日,临床心理学领域国际权威学术期刊Clinical Psychology Review(影响因子13.7)发表了91视频 /医学院附属精神卫生中心陈安涛课题组有关身体锻炼改善认知障碍老年人认知功能的荟萃分析研究。陈安涛课题组通过网络荟萃分析,首次系统比较了不同身体锻炼方式在认知改善效果与锻炼坚持率方面的相对表现,明确了最适合认知障碍老年人群的运动干预类型。积极应对人口老龄化已成为全社会高度关注的议题。老化过程中认知功能的下降不仅损害老年人的记忆、注意与执行功能,还影响其日常生活能力和心理健康,导致医疗资源需求上升、照护负担加重,降低老年人的生活与生命质量。如何安全、有效且可持续地提升老年人群的认知功能,具有重要的理论意义和迫切的现实需求。作为一种低成本、相对安全的非药物干预手段,身体锻炼在积极应用老龄化中的作用日益受到重视。尽管大量研究已证实其对认知的积极影响,但不同锻炼方式(如有氧、抗阻、身心锻炼等)在认知改善效应与干预依从方面的差异,长期以来缺乏系统比较。本研究纳入了128项随机对照试验(RCT),涵盖12403名60岁及以上的认知障碍老年人,系统评估了四种锻炼类型(有氧、抗阻、身心和多组分)在认知功能改善效果及其坚持率方面的表现(图1)。分析结果表明,所有锻炼方式均能有效改善认知功能,其中身心锻炼在认知改善(SMD = 0.91)和坚持率(OR = 1.31)两方面均表现最优(图2)。相比之下,有氧、抗阻及多组分锻炼虽有一定认知改善效应,但在锻炼坚持率方面相对较弱。图1:主要结局的网络荟萃比较图图2:干预措施在认知功能与坚持率上的二维聚类排序图研究进一步评估了不同锻炼方式在具体认知子域(复杂注意、执行功能、学习与记忆、语言能力和感知-运动功能)、随访期认知功能、以及功能性结局(日常生活能力、身体功能、神经精神症状)等方面的干预效应(图3)。结果显示,身心锻炼在所有次要结局指标中均表现出显著改善,并在各项指标上排名最高。从上述主要和次要结果来看,身心锻炼在认知改善广度、功能性结局效应以及参与者的实际可持续性方面均具有突出优势。这一发现不仅为身体锻炼干预的临床应用提供了循证基础,也提示我们应更深入理解其背后的作用机制与推广条件。图3:次要结局的热力排名图注:图中每行代表一个结局指标,每列对应一种锻炼干预方式。颜色越绿表示干预效果越好,排名越高;颜色越红则表示效果较弱。从整体趋势看,绿色格子越多的干预方式,其在多维度上表现越优越。注释缩写:FGC = 随访期认知功能,CA = 复杂注意,EF = 执行功能,LA = 语言能力,PMF = 感知-运动功能,ADL = 日常生活能力,NS = 神经精神症状,PF = 身体功能。身心锻炼为何在认知效益与干预坚持性方面均表现最优?理论上,这一结果契合“交互决定理论”:行为、认知和环境因素之间存在动态反馈机制。一方面在于其融合了注意调控、动作记忆与身体协调,能够同时激活多种高级认知功能。另一方面,其运动形式温和、安全性高,通常以团体方式开展,提供情绪支持和社交激励,更适合老年人坚持。此外,身心锻炼所包含的复杂序列动作,有助于激活和强化脑内与运动控制、程序性记忆及空间导航相关的神经回路,促进脑结构的可塑性重构,进而实现长期的认知维持与提升。同时,这类锻炼节奏适宜、易于掌握,可帮助老年人逐步形成自主锻炼习惯,从“外部督促”向“自主坚持”转变,确保认知效益在干预结束后仍可持续保持。本研究首次在认知障碍老年人群中系统强调并验证了一个关键视角:干预效果的评估不能仅聚焦于认知改善本身,还必须同时考虑干预方式的坚持性。认知改善是干预的直接目标,而锻炼能否长期持续,才是维持干预成效、实现长效转化的核心保障。只有那些既有效又可持续的干预形式,才能真正实现从短期改善走向中长期认知健康维护,推动干预成果在更广泛人群中落地转化,为认知障碍人群的生活质量提升与公共健康目标实现提供现实路径。综上所述,本研究为身心锻炼在认知障碍老年人群中的推广提供了坚实的循证依据。其认知提升、功能改善、坚持率高与多域干预优势,为临床干预实践和健康政策制定提供了有力支持。未来干预策略应在此基础上,结合数字技术、远程干预与个体化方案设计,提升锻炼的可及性与适配性,推动认知健康干预从“有效”迈向“精准”与“可持续”。本研究得到国家自然科学基金项目(32371105)资助支持。文章信息:Li, G., Teng, G., Zhang, W., Song, T., Li, Y., Wang, Z., & Chen, A. (2025). Comparative effects of different physical exercises on cognitive function and intervention adherence in older adults with cognitive impairment: A systematic review and network meta-analysis. Clinical psychology review, 120, 102604. //doi.org/10.1016/j.cpr.2025.102604.
  • 24

    2025-06
    91视频 傅小兰研究组刘峰助理研究员提出基于奖励梯度调制的多模态情感识别技术
    2025年6月4日,91视频 联合北京美图实验室与中国科学院声学研究所的最新研究成果“Reward-based Gradient Modulation for Multi-modal Emotion Recognition with LoRA”在IEEE Transactions on Computational Social Systems期刊在线预出版(Early Access)。近年来,随着现实世界中音频、视觉和文本数据等多模态信息量的不断增加,研究如何处理这些不同模态的信息变得至关重要。多模态情感分析在多模态学习领域得到了广泛探索,其主要目的是通过整合音频、视觉和文本模态,提高计算机对人类情感的理解能力。然而,最近的研究表明,在很多情况下具有统一学习目标、优化所有联合训练策略的多模态模型仍然无法充分利用来自所有模态的信息,甚至可能被单模态模型超越,这种现象与通过多模态协同提高模型性能的目标背道而驰,在多模态情感分析领域也存在类似的挑战。图1. RGM-LoRA 框架的整体架构。(a) 是 RGM-LoRA 的整体架构。(b) 是整体架构(a)中基于奖励的梯度调制设计部分。(c) 是 RGM 架构(b)的 Lora-BERT 部分。该框架接受三种模式的数据:音频、文本和视频。音频和视频模式由转换器处理,文本模式由 LoRA-BERT 处理。随后,计算文本音频损失和文本视频损失。最后,在融合三种嵌入后计算 MAE 损失。研究动机多模态情感分析面临两大核心挑战。一方面,音频、视觉、文本模态在联合训练中出现严重收敛失衡;另一方面,由于文本模态采用BERT等预训练模型时,其收敛速度较单模态训练降低,从而导致了语义优势被抑制。另外,传统方法(如惩罚式梯度控制)虽尝试平衡模态性能,但易引发负迁移问题,而全参数微调LLM又面临高计算成本与优化困境。因此,本研究旨在通过动态梯度调控与参数高效微调协同优化,实现多模态训练的平衡性与高效性。研究贡献本研究提出RGM-LoRA框架。首先,设计奖励式梯度调制(RGM),基于验证集准确率差异动态放大滞后模态梯度,在CMU-MOSI和CMU-MOSEI双数据集数据集上使多模态的F1指标得到提升;其次,研究首次验证LoRA在优化层面的有效性,仅微调BERT 少量参数的前提下实现效果的显著提升;最后,引入跨模态对比学习,使文本与音频/视觉特征相似度得以提升,最终为多模态训练提供理论方法、技术工具与工业落地三重价值。图 2. Lora-BERT 设计的细节。它由多个密集层组成,执行矩阵乘法运算。这些层中的权重矩阵都是全秩矩阵。本研究更新查询(Q)和值(V)矩阵,用低秩分解来表示后者。研究创新本研究实现三大理论突破:1)首次提出奖励式梯度调制机制,通过动态放大(而非惩罚)滞后模态梯度,解决传统方法导致的负迁移问题,相比OGM-GE方法在MOSI和MOSEI数据集上的七分类指标达到了最优(SOTA);2)首次从优化视角验证LoRA的有效性,证明其低秩适配特性可缓解预训练模型在多模态联合训练中的优化抑制;3)构建模态间对比学习范式,通过文本-音频/视觉对比损失函数增强文本模态的主导作用,突破现有方法中文本性能退化瓶颈。结论本文提出了 RGM-LoRA 框架,以解决多模态情感分析中模态不平衡和任务优化困难的难题。所提出的基于奖励的梯度控制方法有效地管理了不同模态的收敛速度,从而实现了平衡。此外,还将 LoRA 纳入了文本编码器 BERT,成功缓解了文本抑制问题。最后,引入了模态对比学习,进一步提高了文本模态的性能,在 CMU-MOSI 和 CMU-MOSEI 数据集上取得了最先进的结果。未来的工作将侧重于纳入其他有用的外部知识,以解决视频和音频模态之间可能存在的不平衡问题,从而进一步提高多模态情感分类的准确性。刘峰助理研究员为该文第一作者兼通讯作者,付子旺与王云龙为刘峰博士实验室中早期成员,本研究得到了行为与心理健康北京市重点实验室的支持。论文链接://www.researchgate.net/publication/392421781代码链接://github.com/Cross-Innovation-Lab/RGM-LoRA发表日期:2025年6月9日作者:刘峰*、付子旺、王云龙单位:91视频 *、北京美图实验室、中国科学院声学所引用信息:F. Liu, Z. Fu and Y. Wang, \\\"Reward-Based Gradient Modulation for Multimodal Emotion Recognition With LoRA,\\\" in IEEE Transactions on Computational Social Systems, 2025, doi: 10.1109/TCSS.2025.3566373.
  • 07

    2025-05
    91视频 陈安涛课题组发文揭示言语工作记忆负荷消除Stroop效应的动态神经机制
    近日,91视频 /医学院附属精神卫生中心陈安涛课题组的最新研究成果“Temporal dynamics analysis reveals that concurrent working memory load eliminates the Stroop effect through disrupting stimulus-response mapping”在elife杂志在线发表。该研究从时间动态分析角度发现,言语工作记忆负荷占用分心物加工晚期的刺激-反应映射资源,是导致Stroop效应消失的主要原因,这些发现为理解大脑如何解决冲突加工提供了新视角。有效处理干扰刺激与目标刺激之间的冲突对于顺利执行目标导向的行为至关重要。Stroop颜色-词任务是评估这类认知冲突的典型范式,其操作表现(反应时和/或正确率)在干扰刺激与目标刺激不一致时,较之二者一致时显著下降,这一现象即著名的Stroop干扰效应或Stroop冲突。已有研究发现言语工作记忆负荷可显著减少甚至消除Stroop冲突。根据多重资源负荷理论,认知系统存在有限且领域特异的资源分配机制,当个体需要维持先前呈现的言语工作记忆表征时,用于处理同类型干扰刺激的认知资源将被占用,从而减少干扰刺激造成的冲突。然而,Stroop冲突涉及多个加工过程,如刺激处理、刺激-反应映射和反应输出,已有研究尚未阐明言语工作记忆负荷影响Stroop冲突的具体机制。现有的关于工作记忆与Stroop冲突加工的研究表明,语义工作记忆负荷下Stroop效应消失的现象可能通过两种机制加以解释。一是早期调节,即工作记忆内容的维持与干扰刺激的低级视觉编码之间存在神经资源的竞争,从而阻碍冲突的早期形成。二是晚期调节,即相关和无关刺激的早期处理不受影响,工作记忆负荷主要影响更高级的语义编码与反应映射,以及随后的反应输出阶段。因此,本研究运用高时间分辨率的脑电技术,结合双任务范式(Sternberg工作记忆任务与Stroop任务),对该现象背后的神经机制进行探究。本研究同时收集了被试的行为和脑电数据,综合运用能够反映特定功能意义的事件相关电位 (event-related potential) 分析和时频 (time-frequency) 分析、探究在时间进程上如何对不同的大脑认知加工活动进行动态解码的多元模式分析 (multivariate pattern analysis) 以及能够表征神经响应水平相似程度的表征相似性分析 (representational similarity analyses) 等技术,深入探讨了言语工作记忆负荷消除Stroop效应的动态神经机制。图 时频分析结果研究结果表明,言语工作记忆负荷通过占用分心刺激加工晚期的刺激-反应映射资源,削弱了错误反应的映射,从而抑制反应输出,导致了Stroop冲突的消失。总的来说,本研究从时间动态的视角扩展了现有的工作记忆负荷理论。研究结果为理解冲突加工提供了新的视角,表明个体在早期阶段无法抑制对无关刺激的感知加工,但在加工晚期能够进行调节。重要的是,本研究发现工作记忆是实现这一调节的平台,在冲突加工晚期的刺激-反应映射阶段中存在关键作用,揭示了认知控制两个核心成分之间的密切关系。该论文的第一作者是上海体育大学91视频 硕士研究生李亚芬,陈安涛教授为通讯作者。本研究得到国家自然科学基金项目(32371105)的资助。原文链接://elifesciences.org/articles/100918
  • 15

    2025-04
    91视频 傅小兰研究组刘峰助理研究员提出说话者未知情况下高效情感识别方法
    2025年4月4日,91视频 联合百度、美的与华东师范大学的最新研究成果“Towards Speaker-Unknown Emotion Recognition in Conversation Via Progressive Contrastive Deep Supervision”在IEEE Transactions on Affective Computing期刊在线发表(Early Access)。近年来,对话中的情感识别(ERC)因其在实际对话应用中感知用户情感的能力而受到越来越多的关注。大多数研究利用基于黄金标准说话者标签的说话者信息,以处理交替发言的不同说话者。本工作挑战了现有范式,即利用可用的说话者标签,提出了一种更现实的场景,即在推理过程中未知每个话语的说话者身份。本研究提出了渐进对比深度监督(PCDS),将说话者日志和情感识别整合到一个统一的框架中。为了促进联合任务学习,通过对比深度监督逐步注入说话者和情感偏差,任务无关的对比作为中间过渡。为了获得显式的说话者依赖关系,提出了说话者对比和聚类模块(SCC),即使在没有说话者标签或说话者数量未知的情况下,也能赋予网络将说话者分组的能力。图1:PCDS架构示意图研究动机对话中的情感识别(ERC)在实际对话应用中具有重要价值,但现有的研究大多依赖于已知的说话者标签,这在实际应用中难以满足。为了解决这一问题,本研究提出了一种在说话者身份未知的情况下进行情感识别的新方法。这一研究动机源于实际应用场景的需求,即在无法事先知道说话者身份的情况下,如何有效地进行情感识别,从而提升对话系统的性能和用户体验。研究贡献本研究提出了渐进对比深度监督(PCDS)框架,将说话者日志和情感识别任务整合到一个统一的框架中。通过在不同层次上逐步应用深度监督,PCDS不仅能够有效地建模说话者和情感的表示,还能调和两者之间的内在冲突。此外,引入了一个多模态说话者日志模块(SCC),能够在没有说话者标签的情况下进行说话者聚类,显式地建模说话者依赖关系。实验结果表明,PCDS在IEMOCAP和MELD两个多模态对话数据集上均取得了最先进的性能。图 2:四种监督框架示意图(LCE 表示交叉熵损失,LC 表示对比损失,PCDS 对中间层应用了相应的基于任务的对比损失。)研究创新本研究的创新点在于提出了一种渐进对比深度监督的方法,通过在不同层次上逐步注入任务偏向和任务无关的对比损失,有效地增强了网络的特征表示能力。此外,本研究设计了一个多模态说话者日志模块(SCC),结合音频查询融合和交叉注意力机制,实现了未知说话者的聚类。这一创新不仅解决了说话者未知带来的挑战,还为多模态情感识别提供了新的思路和技术手段。图3:用于说话人聚类的说话人对比和聚类模块(SCC),以及用于说话人信息建模的说话人感知编码器结    论本文提出了一种渐进对比深度监督(PCDS)框架,成功地解决了在说话者身份未知情况下进行情感识别的挑战。通过逐步在不同层次上应用深度监督,PCDS有效地调和了说话者和情感识别之间的内在冲突,并通过多模态说话者日志模块(SCC)实现了未知说话者的聚类。实验结果表明,PCDS在两个多模态对话数据集上均取得了最先进的性能。希望这一研究能够为未来的对话情感识别技术发展提供新的思路和方法。本研究也是系列工作的集大成,从最初的LGCCT门控语音情感识别技术(//doi.org/10.3390/e24071010)开始,逐步探索了时空转移下的情感语音技术(//doi.org/10.34133/icomputing.0073),再到细粒度语音情感识别(//doi.org/10.1109/ICASSP48485.2024.10446974),最终演进到本研究。通过本系列的研究,逐步完善了在不同情境下的情感识别方法,为解决说话者未知情况下的多模态情感识别问题提供了坚实的基础,便于未来在行为实验中使用本技术展开进一步心理学与AI的交叉研究工作。刘峰助理研究员与周爱民教授为本文共同通讯作者,第一作者沈思源是刘峰助理研究员情感计算团队的早期成员,百度和91视频 为共同第一单位。本项目得到了上海市科学技术委员会(批准号:22511105901)、国家自然科学基金委员会(批准号:32471151)、国家重点研发计划“主动健康和人口老龄化科技应对”重点专项(批准号:2024YFC3606802)以及北京大学行为与心理健康北京市重点实验室的支持。论文链接://ieeexplore.ieee.org/document/10949847/引用信息:S. Shen, F. Liu, H. Wang and A. Zhou, \\\"Towards Speaker-Unknown Emotion Recognition in Conversation Via Progressive Contrastive Deep Supervision,\\\" in IEEE Transactions on Affective Computing, doi: 10.1109/TAFFC.2025.3558222.
  • 01

    2025-04
    91视频 张洳源课题组发现人脑、猕猴、深度卷积神经网络统一的知觉学习机制
    2025年3月31日,91视频 和91视频 医学院附属精神卫生中心张洳源课题组的最新研究成果“A neural geometry approach comprehensively explains apparently conflicting models of visual perceptual learning”在Nature Human Behaviour杂志在线发表。近些年来,人工智能的热点问题是如何训练一个机器视觉系统帮助医生检测医学影像图片的病灶,而训练这样一个机器视觉系统一般需要大量的数据和标签,其效果会随着训练量的增大逐渐提高。这个机器视觉学习的过程也对应了人脑的知觉训练的过程。例如,一个年轻的影像科医生刚参加工作,会因为缺乏经验而不能检测出影像图片的异常。然而,随着长年累月工作经验的积累,该医生的视觉敏感度显著提高,能快速检查出哪怕很微小的病灶特征。大量的研究表明,人的知觉敏感度可以通过训练逐渐提高,这一过程在认知科学领域被称为知觉学习。可是训练如何提高人脑的信息加工,其背后的神经机制目前并不清楚。当医生的大脑看到一张影像图片时,大脑中多个脑区的许多神经元会发生复杂的活动,而医生判断一张图片是否有病灶依赖于神经元群体对图片的编码。前人研究发现知觉学习能显著提高人脑神经元对视觉刺激的编码,但是知觉学习如何改变单个神经元的活动特性,从而促进群体神经元的编码一直存在争议。前人研究提出了两种看似对立的假说,“调谐改变”假说认为学习直接改变了单个神经元的调谐曲线从而导致群体编码提高,而“相关改变”假说则认为学习改变神经元之间的反应相关从而促进了群体编码。但是目前到底哪种假说成立,以及是否还存在其他可能机制尚不清楚。在前期的研究中,张洳源课题组首先通过计算神经科学理论推导,证明了单个神经元的调谐偏好和神经元之间的相关都影响了群体编码,同时也提出神经元整体的反应方差是前人忽视的第三个影响因素(PLoS Compt Biol, 2021; J Neurosci, 2023)。基于这些发现构建了量化整合各个因素作用的计算框架。为了解决生理实验昂贵费时的难点,创新地引入了深度卷积神经网络来模拟灵长类视觉系统的知觉学习过程,通过对神经网络模型行为和神经表征的分析,解释了一系列经典的实验现象。对于神经网络中人工神经元的量化分析也表明,知觉学习提高神经元编码依靠的既不是调谐曲线也不是反应相关,而是系统地减少了神经元的反应方差(流形收缩理论)。这一结论挑战了前人的经典理论,为知觉学习的神经机制提供了新的理论解释。基于神经网络建模的结果,张洳源课题组和北京大学方方教授、李晟教授和浙江大学贾珂研究员合作利用磁共振技术在人脑的知觉学习数据上验证了这一猜想。同时,张洳源课题组还和纽卡斯尔大学的Alex Thiele教授、匹茨堡大学的Xing Chen教授和伊朗科学研究院Mehdi Sanayei教授共同开展了猕猴知觉学习的电生理实验。这些实验结果表明群体神经元表征流形收缩是深度卷积神经网络、人脑和猕猴三者一致的知觉学习机制。这项研究充分体现了AI for Neuroscience的思想,表明人工神经网络和灵长类生物视觉系统的学习机制存在紧密的内在联系。该论文的第一作者是张洳源课题组的访问本科生程宇昂(现为布朗大学脑与认知科学系博士生),张洳源副研究员为通讯作者,91视频 和91视频 医学院附属精神卫生中心国家精神健康研究中心脑健康研究院为共同第一单位。其中磁共振研究得到了北京大学方方教授、李晟教授和浙江大学贾珂研究员的支持,猕猴电生理的研究得到纽卡斯尔大学Alex Thiele教授、匹茨堡大学Xing Chen教授和伊朗科学研究院Mehdi Sanayei教授的支持。布朗大学Takeo Watanabe教授也做出了重要贡献。本项目得到了科技创新2030脑科学与类脑研究重大项目(2022ZD0204802)和国家自然科学基金(32441102、32100901、T2421004 、31930053和3230085) 等项目的支持。