当期目录

    2025年 第61卷 第23期 刊出日期:2025-12-01
    全选:
    目次
    2025年第23期目次
    2025, 61(23):  0-0. 
    摘要 ( )   PDF (702KB) ( )  
    相关文章 | 计量指标
    热点与综述
    面向知识图谱的问答技术研究综述
    钱慎一, 付博文, 李代祎, 梁瑶瑶
    2025, 61(23):  1-23.  DOI: 10.3778/j.issn.1002-8331.2501-0066
    摘要 ( )   PDF (1714KB) ( )  
    参考文献 | 相关文章 | 计量指标
    智能问答是从海量数据中精确、快速获取需求信息的一种关键技术。近年来,智能问答技术发展成果显著,例如,基于问题的信息提取技术、语义理解技术以及向量建模的方法等。然而,随着智能问答技术的迅速发展,人们迫切希望能够对智能问答模型有一个合理的划分方式,以方便不同领域的用户使用。为了合理划分智能问答模型,方便智能问答领域研究者的深度研究,通过对知识图谱问答领域相关文献进行调查,实现了对当前知识图谱问答关键技术的概括,包括实体链接、知识嵌入,并详细介绍了知识图谱问答的相关概念和处理流程。此外,根据方法的不同,将面向知识图谱的问答技术主要分为三大类:基于语义解析方法、基于信息检索方法和基于大语言模型的方法,介绍了其优缺点并分别针对知识图谱问答模型的评价指标进行总结。最后,针对知识图谱问答技术现存的一些问题以及未来发展的方向,提出了一些建议和思考。
    视觉Transformer在细粒度图像分类中的应用综述
    温世雄, 智敏
    2025, 61(23):  24-37.  DOI: 10.3778/j.issn.1002-8331.2503-0014
    摘要 ( )   PDF (2320KB) ( )  
    参考文献 | 相关文章 | 计量指标
    细粒度图像分类(fine-grained image classification,FGIC)旨在识别视觉上高度相似但存在细微差异的子类别。随着深度学习的快速发展,FGIC算法已由传统强监督学习逐步发展至弱监督学习。视觉Transformer(ViT)凭借其多头自注意力机制,无须依赖手工标注,同时克服了基于卷积神经网络(CNN)算法在感受野和全局建模能力上的局限性,成为该任务的主流方法之一。对FGIC的特点与难点进行概述,简要介绍ViT的基本架构及其优势。根据不同的特征融合策略将基于ViT的改进算法分成层次、多局部及多粒度三种特征融合方法,对每类方法的改进方式进行详细的图示说明,并对各类技术方法的机制进行详细阐述和总结分析。梳理了常用的公开数据集,并根据当前研究的局限性提出未来的研究方向,以进一步挖掘ViT在细粒度图像分类任务中的应用潜力。
    工业图像表面异常定位的无监督学习方法综述
    赵俊, 赵涓涓
    2025, 61(23):  38-58.  DOI: 10.3778/j.issn.1002-8331.2503-0133
    摘要 ( )   PDF (5242KB) ( )  
    参考文献 | 相关文章 | 计量指标
    深度学习的快速发展为工业图像的异常检测和定位奠定了里程碑,现有研究对全面深入探索该领域具体方法和新兴趋势的需求不断增长,超越了传统的监督训练范式。探讨了基于自监督和无监督学习的异常定位方法的背景动机、发展现状和核心挑战,从神经网络架构设计、特殊应用场景分析、损失函数改进、评价指标和公开数据集的使用情况等角度全面回顾了工业领域现有重要研究。重点研究了少样本学习下,大型视觉语言模型对多类别统一异常定位任务的认知和推理作用,总结了现有研究成果并指出了未来的研究方向,旨在促进利用大模型的能力来增强复杂真实场景中异常定位算法的稳健性和系统开发的高效性。这项全面的分析旨在弥合现有的知识差距,为研究人员提供宝贵的见解,并为塑造工业异常定位研究的未来作出贡献。
    心律失常和心肌梗死诊断中心电图智能分析方法研究综述
    韩闯, 范宝骐, 余梦瑶, 阙文戈
    2025, 61(23):  59-71.  DOI: 10.3778/j.issn.1002-8331.2503-0022
    摘要 ( )   PDF (2002KB) ( )  
    参考文献 | 相关文章 | 计量指标
    心电图是诊断心律失常的金标准,且能诊断心肌梗死,其具有无创、实时和便捷等优点,已被广泛应用于临床中。开展心律失常和心肌梗死诊断中心电图智能分析研究具有重要意义。介绍了常用的心律失常和心肌梗死心电数据库;综述了近三年心电图智能分析中的最新技术,包括人工特征提取、卷积神经网络及其变体、图神经网络、自监督学习、联邦学习、主动学习、确定学习和生成式模型;从心电数据规模、分类模式、模型对比和模型复杂度等方面进行对比分析,并重点分析了不同方法的心电数据需求、优缺点、可解释性和应用场景;总结了现有方法在数据质量与类别不均衡、模型泛化性与可解释性的矛盾、隐私保护与协作效率的权衡、计算资源与临床部署的适配性等方面的不足,并给出了可行的解决方案。
    嵌入式设备固件模糊测试技术综述
    陈菁菁, 王正武, 兰文尉, 张瑞宸, 张亚东, 崔展齐
    2025, 61(23):  72-89.  DOI: 10.3778/j.issn.1002-8331.2503-0296
    摘要 ( )   PDF (908KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为确保嵌入式设备的安全可靠,需要对嵌入式设备固件进行充分测试,以及时发现并修复其中的漏洞。近年来,有研究人员将模糊测试技术应用到嵌入式设备固件的测试中,有效提高了测试效率。总结了2014年至2024年关于嵌入式设备固件模糊测试的相关研究成果,将嵌入式设备固件模糊测试过程分为三个阶段:预处理、测试环境建立、模糊测试执行,并分别介绍了各阶段的研究成果。讨论了现有嵌入式设备固件模糊测试的数据集和评估指标,并对嵌入式设备固件模糊测试未来的研究方向进行展望,为研究人员提供参考。
    理论与研发
    自组织映射更新的双种群约束多目标狼群算法
    康水平, 唐光清, 樊棠怀, 王晖, 吕莉
    2025, 61(23):  90-109.  DOI: 10.3778/j.issn.1002-8331.2504-0270
    摘要 ( )   PDF (7938KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为克服多目标狼群算法无法处理约束条件、种群聚集导致其过早陷入局部最优以及更新机制落后致使种群优质信息丢失的缺陷,提出自组织映射更新的双种群约束多目标狼群算法(CMOWPA-S)。该算法构建一种双种群结构,主种群采用约束支配原则确保种群始终在可行域内,辅助种群则不考虑约束条件以增加算法发现优质解的可能性,保证算法在约束条件下的有效性;提出二元优化狩猎策略,奔袭过程加入精英狼辅助头狼召唤狼群,围攻过程引入莱维飞行策略,提升算法逃脱局部最优的能力;设计基于自组织映射的种群更新机制,通过自组织映射提取种群邻域信息以产生优质后代,确保种群优质信息的传递,最后采用环境选择策略淘汰冗余种群。为验证算法性能,在14个模拟约束多目标问题上与4种经典、5种新型约束多目标优化算法比较,在10个真实约束多目标问题上与5种新型约束多目标优化算法比较。实验结果表明,CMOWPA-S能有效解决约束目标优化问题,避免陷入局部最优且获得种群多样性较好的解。
    基于多模态情感数据的网络视频满意度分析方法
    王安启, 李明轩, 程泊宣
    2025, 61(23):  110-125.  DOI: 10.3778/j.issn.1002-8331.2510-0100
    摘要 ( )   PDF (2527KB) ( )  
    参考文献 | 相关文章 | 计量指标
    随着互联网和视频平台的快速发展,网络视频内容日益多样,如何有效评估用户对不同类型网络视频的满意度成为视频内容推广和人机交互研究领域的关键问题。尽管融合文本、语音和视觉信息的多模态情感分析方法已被广泛应用于用户情绪识别,但情绪状态并不能完全反映用户对内容的综合体验。现有研究往往仅停留在情感极性的建模,缺乏对情绪与满意度之间关联机制的探讨,导致满意度这一高阶心理结构长期被忽视。为了更加准确地评估用户对于网络视频的综合情感,提出了基于多模态融合的视频满意度分析框架——MVSA(multimodal video satisfaction analysis),同时,构建了一个针对网络视频用户满意度研究的多模态数据集MVS-Eval(multimodal video satisfaction evaluation),涵盖了吸引力、专注度、参与度等多维度满意度标签,旨在全面建模用户对视频内容的主观反馈,进一步提出了基于模态一致性训练和满意度引导融合机制的多模态满意度估计算法MUSE(multimodal understanding for satisfaction estimation),有效建立情绪-满意度链路,并提升了模型的满意度指标预测性能与跨场景泛化能力。此外,MVSA框架集成了一个智能反馈处理平台,能够自动解析用户反馈视频并生成结构化的满意度评估结果。实验结果表明,MUSE在多个基准任务中显著优于现有主流模型,验证了其在多类型网络视频满意度建模中的有效性与可解释性。
    模式识别与人工智能
    融合双序列姿态的驾驶员行为识别方法
    谭大艺, 田炜, 熊璐
    2025, 61(23):  126-134.  DOI: 10.3778/j.issn.1002-8331.2408-0410
    摘要 ( )   PDF (6144KB) ( )  
    参考文献 | 相关文章 | 计量指标
    识别危险驾驶行为模式可以提高驾驶安全,是自动驾驶技术重要研究内容。目前,基于图像的驾驶员行为识别方法存在计算量大、信息冗余等问题,由此提出融合双序列姿态的驾驶员行为识别方法SimPoseConv3D。基于人体姿态序列估计模块SimCC从视频中提取驾驶员姿态热图序列,在时间维度上进行堆叠、裁剪和采样,将热图体积按时间维度进行正向、逆向融合,输入至3D CNN中提取动作时空特征进行驾驶行为识别。在Drive&Act数据集中对提出方法进行训练测试并开展消融实验,结果表明在Task-level(整体行为)和Mid-level(细粒度行为)测试集上的识别精度分别达到70.25%和79.04%,相比当前公开最佳方法分别提升6.07和4.13个百分点,且采用SimCC作为姿态估计器比传统姿态估计器的计算效率提升18.51%。
    融合一致性和多样性的自适应加权多视图聚类
    姚怡莹, 陈梅, 王洁, 郭爱霞
    2025, 61(23):  135-148.  DOI: 10.3778/j.issn.1002-8331.2408-0004
    摘要 ( )   PDF (2486KB) ( )  
    参考文献 | 相关文章 | 计量指标
    多视图聚类能够充分融合多个视图的信息,从而表现出优秀的聚类性能。然而,现有方法大多只关注视图间的一致性信息,忽略了视图间的多样性信息,并且在秩的近似估计准确性方面存在不足,从而影响了算法的效果。为了解决这一问题,提出了融合一致性和多样性的自适应加权多视图聚类。该算法为每个视图构建初始相似图,引入张量对数行列式项最大化逼近秩的真实值。该算法通过多样性项探索视图内和视图间的多样性信息,并采用自适应加权图融合项提取每个视图的一致性信息;通过不断地迭代优化,最终得到一个高质量融合图。在八个真实数据集上的实验结果表明,所提方法明显优于基线方法。
    负例伪标签分析用于视频Transformer的半监督动作识别研究
    罗德艳, 徐杨, 左锋云, 王明刚
    2025, 61(23):  149-160.  DOI: 10.3778/j.issn.1002-8331.2409-0007
    摘要 ( )   PDF (4713KB) ( )  
    参考文献 | 相关文章 | 计量指标
    动作识别作为一种模式识别技术,旨在通过分析视频或图像序列来识别和分类人体动作或行为。由于当前视频数量的激增,半监督学习被引入到动作识别的相关模型中,但分类效果仍然存在较大的提升空间。视觉Transformer在图像处理中相较于CNN有更好的效果。因此,改进视频Transformer在半监督学习中的训练范式。使用预训练权重对网络进行初始化,解决Transformer架构训练成本高的问题。引入logit标准化预处理技术,解除学生与教师之间logit的强制匹配限制。结合负学习技术对模型性能动态评估并分配负伪标签,解决模糊预测示例利用不充分的问题。实验结果表明,相对于传统卷积网络,改进的半监督视频Transformer网络在两个广泛的视频动作识别数据集UCF-101和HMDB-51上,能够取得更好的识别效果,且改进网络模型在UCF-101数据集1%和10%标签率上比基础模型分别提高6.4和1.5个百分点,在HMDB-51数据集40%、50%和60%标签率上分别提高5.2、3.6和3.1个百分点。
    基于细分多尺度和并行注意力的密集人群检测算法
    张欣, 亢世宁, 杨寓淇, 王珺, 马致远
    2025, 61(23):  161-172.  DOI: 10.3778/j.issn.1002-8331.2409-0077
    摘要 ( )   PDF (5585KB) ( )  
    参考文献 | 相关文章 | 计量指标
    人群检测在自动驾驶、交通管理和智能安防等领域有着广泛的应用。其具有检测人群密度大、行人遮挡多、尺度变化大和人群分布不规则的特点,是计算机视觉中具有挑战性的问题之一。为了进一步挖掘密集场景下人群丰富的多尺度信息,以及应对人群分布和形状不规则的挑战,在Sparse R-CNN的基础上提出了一种基于细分多尺度和并行注意力的人群检测算法,命名为RMF R-CNN(refined multiscale feature R-CNN),其通过并行多个不同尺度的膨胀卷积构建感受野融合模块以提取细化的尺度信息。基于膨胀卷积注意力和可变形卷积注意力构建并行注意力模块,以从不同的尺度感知人群的分布与形状信息。为了缓解因数据误标注和行人尺度所导致的损失敏感,在原有损失函数的基础上加入了动态损失权重,使损失因行人尺度和预测准度而动态变化,提升模型的泛化能力。实验结果表明,所提算法在CrowdHuman、CityPersons等数据集中的AP为91.1%,MR?2为44.5%,Recall为96.7%。该算法能够在一定程度上提升密集场景中人群检测的性能。
    广视角特征融合记忆网络的多目标跟踪算法
    张贝宁, 汤敏, 李洪均, 谢正光
    2025, 61(23):  173-180.  DOI: 10.3778/j.issn.1002-8331.2410-0484
    摘要 ( )   PDF (11014KB) ( )  
    参考文献 | 相关文章 | 计量指标
    基于无人机视频的多目标跟踪是一项重要的视觉任务,具有广泛的应用前景。然而,由于无人机视角范围广、远距离小尺寸目标难以追踪且目标运动迅速,传统方法面临诸多挑战。为此,提出了一种基于Transformer技术的多目标跟踪方法,称为WideTrack。该方法设计了广视角特征融合记忆网络,以增强对远距离小尺寸目标的捕捉能力。同时,为更好地适应无人机运动特征,在滤波中引入了轨迹置信度建模。通过结合运动特征提取模型和基于空间信息的WIoU匹配算法,设计了一种数据关联方法,综合目标的外观和运动信息以跟踪快速移动的目标。实验结果表明,WideTrack在VisDrone-MOT数据集上的MOTA分数较现有最优模型提高了5.3个百分点;该模型在VisDrone-MOT数据集和UAVDT数据集上的处理速度分别达到16?FPS和29?FPS,验证了其在无人机视频多目标跟踪任务中的有效性。
    结合图片目标锚点引导的图文多模态摘要模型研究
    赵博文, 马廷淮
    2025, 61(23):  181-194.  DOI: 10.3778/j.issn.1002-8331.2409-0110
    摘要 ( )   PDF (3492KB) ( )  
    参考文献 | 相关文章 | 计量指标
    研究聚焦于多模态输入数据的核心语义分析,旨在生成融合多模态信息的文本摘要,并挑选出与文本摘要最为契合的图片作为图片摘要。当前多模态摘要领域面临两大挑战:一是文本与图片间语义相关性的量化难题,阻碍了跨模态共有关键语义的挖掘;二是源模态数据冗余度高,导致摘要内容难以精准聚焦关键信息。为应对这些挑战,创新性地提出了一种基于图片目标锚点引导的多模态图文摘要模型(multi-modal summarization model with image anchor guidance,MSM-AG)。该模型构建图片锚点选择机制,确定图片中的关键目标锚点,并据此将文本与图片模态样本划分为积极与消极两类;利用对比学习方法深化这两类样本的区分度,精选出与文本摘要高度匹配的图片摘要。在HCSCL多模态新闻数据集上的广泛实验证明,MSM-AG模型在多项文本摘要评估指标上均展现出优于现有多模态摘要模型的性能,有效解决了多模态摘要中的关键问题。
    融合外部知识增强多模态命名实体识别
    马裕鹏, 张明, 李志强, 高梓灵
    2025, 61(23):  195-204.  DOI: 10.3778/j.issn.1002-8331.2409-0116
    摘要 ( )   PDF (2437KB) ( )  
    参考文献 | 相关文章 | 计量指标
    多模态命名实体识别(multi-modal named entity recognition,MNER)旨在利用文本和图像等多种模态信息识别文本中预定义类型的实体。尽管现有方法取得了一定的进展,但仍然面临一些挑战:(1)难以建立统一的表示来弥合不同模态之间的鸿沟。(2)难以实现不同模态之间的高效语义交互。因此,提出了一种融合外部知识增强多模态命名实体识别模型。在模态表示阶段,该模型引入CLIP(contrastive language-image pre-training)模型,利用模型中蕴含的文本和图像先验跨模态知识信息,增强文本和图像的语义表示,弥补模态鸿沟。在模态融合阶段,设计了跨模态交叉注意力机制和跨模态门控机制实现模态信息融合,有效排除图像中的噪声信息,进一步增强语义交互;采用条件随机场(CRF)实现命名实体的识别。所提出的方法在公开数据集Twitter2015和Twitter2017上的F1值分别达到了75.35%和86.18%,证明了该方法的有效性。
    融合扩散模型与知识蒸馏的无监督工业缺陷检测
    刘明明, 史伟峰, 范学慧, 张海燕
    2025, 61(23):  205-211.  DOI: 10.3778/j.issn.1002-8331.2506-0028
    摘要 ( )   PDF (1142KB) ( )  
    参考文献 | 相关文章 | 计量指标
    近年来,基于无监督学习的工业缺陷检测模型取得了显著的性能提升。然而,现有的缺陷合成策略依赖外部数据源,导致合成缺陷与真实缺陷存在较大差异,严重制约了模型的泛化性能。此外,现有的方法存在特征细节信息丢失问题,导致模型出现误检现象。为此,引入一种多源缺陷合成策略,协同利用扩散模型生成的图像和DTD数据集的图像合成更符合真实缺陷分布的缺陷样本。利用合成的缺陷样本微调教师网络对缺陷的表征能力,并引入异常屏蔽模块解决教师学生网络同构导致的过度泛化问题。构建细节修补模块,通过跨层级特征融合增强学生网络对教师特征的细节重建能力。在MVTec AD标准数据集上进行了定量和定性实验,与基准模型相比,取得了更优的图像级和像素级指标得分。
    图形图像处理
    语义增强和自适应多尺度特征融合的人体姿态估计
    张家波, 何阿娟, 唐上松
    2025, 61(23):  212-223.  DOI: 10.3778/j.issn.1002-8331.2407-0177
    摘要 ( )   PDF (1752KB) ( )  
    参考文献 | 相关文章 | 计量指标
    由于关键点尺度较小且位置敏感,如何有效提取空间和语义信息一直是姿态估计任务的主要挑战。为此,提出了一种语义增强和自适应多尺度特征融合的人体姿态估计模型(SAMFFNet)。SAMFFNet以轻量级的MobileNetV2作为骨干网络构建特征金字塔,利用EfficientViT生成尺度感知的全局语义,在设计的深层语义注入模块中,利用上下文引导的注意力将全局语义与局部特征融合,增强关键点的语义表示。提出了自适应多尺度特征融合模块,该模块通过集成大型选择卷积核模块(LSK)和跨层交互机制,能根据输入特征动态地调节较大的空间感受野,并增强不同尺度特征之间的信息交互。实验结果表明,在COCO验证集上,SAMFFNet与使用的骨干网络相比,精度指标提升了6.1个百分点,达到70.7%,虽然比大模型SimpleBaseline的精度略低,但参数量减少了85.0%,计算量降低了78.3%。同样在MPII数据集上,与骨干网络相比也实现了2.3个百分点的精度提升。综合COCO与MPII数据集上的表现,充分证实了SAMFFNet在强化人体结构特征与特征融合策略上的有效性。
    基于步进式自适应特征融合模块的小目标检测网络
    陈鹏, 林斌, 白勇, 黄伟伦
    2025, 61(23):  224-232.  DOI: 10.3778/j.issn.1002-8331.2409-0081
    摘要 ( )   PDF (2530KB) ( )  
    参考文献 | 相关文章 | 计量指标
    小目标检测在驾驶辅助、智慧医疗、无人机巡检等任务中具有重要的理论和实践意义。多尺度特征学习是设计小目标检测网络经常采用的策略之一。其中,经典的特征金字塔结构通过融合不同层级的特征图,实现多尺度信息的传递,从而在不同分辨率的特征图上都能捕捉到小目标的关键信息。然而,在进行不同尺度特征图融合时,语义信息冲突往往不可避免,进而造成梯度计算不一致,导致小目标信息被淹没。为此,提出了一种步进式自适应特征融合网络模块(step-by-step adaptively feature fusion module,SAFF),将特征融合过程划分为三个阶段依次进行,通过步进式地融合相邻尺度特征图,解决特征图融合过程中的语义信息冲突问题。同时,在每个阶段中,通过自适应计算融合权重,缓解梯度计算不一致问题。在此基础上,将SAFF模块与通用目标检测网络结合,形成用于小目标检测的SAFF-RCNN和Cascade-SAFF-RCNN网络。实验结果表明,所提出的网络模型的小目标检测性能均有显著提升,达到或超越了其他主流的小目标检测模型,证明了SAFF模块用于小目标检测时的有效性。
    面向交通标志检测的YOLOv8n轻量化协同改进模型
    方天睿, 程光, 柳海林, 唐少虎
    2025, 61(23):  233-247.  DOI: 10.3778/j.issn.1002-8331.2507-0109
    摘要 ( )   PDF (3104KB) ( )  
    参考文献 | 相关文章 | 计量指标
    为应对交通标志检测中小目标易漏检、背景干扰强烈以及模型结构臃肿带来的部署障碍,提出一种基于YOLOv8n的轻量化改进检测模型RACP-YOLO。该模型引入轻量型主干C2f-RVB模块,以优化低层语义表达;采用ADown模块进行多尺度下采样,有效平衡分辨率与感受野,提升目标感知能力;结合CAA注意力机制增强通道间依赖性与目标显著性响应。在此基础上,模型在检测头部分引入SCConv结构作为核心改进,其中包含SRU(空间重建单元)与CRU(通道重建单元)双分支结构,配合新增P2分支设计成SCHead,用于增强小目标与局部空间建模能力。实验结果显示,RACP-YOLO在TT100K数据集上mAP0.5达到0.685,较YOLOv8n提升了2.1%;参数量由3.01×106降至1.12×106,压缩幅度达62.8%,计算量由8.1×109降至4.3×109,减少46.9%。在CCSTB数据集的泛化实验进一步验证了该模型在夜晚、强光及雨天等复杂场景下的适应性与检测稳定性;在检测精度提升的同时,有效降低了参数规模与计算开销,适用于车载与边缘场景的高效部署需求。
    LGM-YOLOv11:融合多尺度注意力机制的水下目标检测模型
    陈辉, 虞永杰
    2025, 61(23):  248-263.  DOI: 10.3778/j.issn.1002-8331.2506-0362
    摘要 ( )   PDF (2682KB) ( )  
    参考文献 | 相关文章 | 计量指标
    水下图像在海洋生态环境监测、水下资源开发等应用中发挥着重要作用。然而,水下图像通常受到光散射、悬浮颗粒和颜色衰减等因素影响,导致图像呈现低对比度、边缘模糊和噪声干扰等特征,进而降低了水下目标检测的准确性和效率。针对这些挑战,提出了一种融合多尺度注意力机制的水下目标检测模型以提升水下环境物体的检测性能。引入拉普拉斯-高斯主干模块(LoGStem),代替YOLOv11主干网络的前两层卷积,增强了对水下图像的边缘和纹理细节的提取能力。提出门控激活卷积模块(GSConv)嵌入特征金字塔网络中,利用门控机制为每个空间位置和通道启用动态特征,增强了模型捕捉细节能力;提出了多尺度增强并行注意力模块(MSEPA),并将其集成到C3k2中,再通过多尺度特征融合和多重注意力机制的协同作用,从而增大感受野并增强特征表示;为了提高小目标定位的精度和稳定性,使用了Shape-NWD损失函数。在UTDAC、DUO、RUOD和水下垃圾数据集上的实验表明,所提出的方法相较于对比模型达到了最佳检测精度。
    结合聚合特征和注意力的铁路周界入侵检测方法
    王辉, 李泽龙, 叶剑刚, 唐孝坤, 徐峰
    2025, 61(23):  264-273.  DOI: 10.3778/j.issn.1002-8331.2411-0288
    摘要 ( )   PDF (9595KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对铁路运行环境中周界入侵而影响列车安全运行的情况,为解决现有方法精度差和效率低问题,在YOLOv9模型基础上,提出一种周界入侵异物检测方法。提出聚合特征模块,通过设计一种紧凑的架构来降低网络的计算复杂性,以提高检测效率;提出转置残差多通道注意力,将转置残差结构与设计的多通道注意力相结合,可以减少卷积参数量并使各个通道信息进行充分交互,捕获检测目标的关键信息以提高异物检测精度,避免对异物目标漏检和误检;修改模型的辅助检测分支,在减少模型参数量的情况下,依然可以有效提取图像的特征信息。实验结果显示,所设计模型在铁路周界异物数据集上的mAP@0.5和召回率分别为93.5%和89.2%,较YOLOv9模型分别提升6.1和4.6个百分点,并且在模型参数量上减小54.5%。对比其他主流模型,该模型在mAP@0.5、召回率、误检率和漏检率等评价指标上均达到最优。综上所述,该模型相较于其他主流模型具有一定优越性,在周界入侵检测任务中具有良好的性能。
    网络、通信与安全
    雾计算中可追踪的多权威动态可搜索加密方案
    刘雪艳, 李文静, 贾博龙, 徐文豪
    2025, 61(23):  274-285.  DOI: 10.3778/j.issn.1002-8331.2409-0356
    摘要 ( )   PDF (1309KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对传统基于属性的关键字搜索方案中搜索算法的局限性、单点性能瓶颈以及恶意用户非法泄露密钥等问题,提出一种雾计算环境下支持动态关键字搜索和用户追踪的多权威加密方案。通过引入动态搜索机制,当两个关键字集中任一个关键字匹配时就停止搜索,从而提高方案的灵活性和可用性。通过引入多个属性权威管理互不相交的属性集,避免单点性能瓶颈问题,显著提升方案的扩展性和稳定性。为了防止恶意用户泄露密钥,在密钥中嵌入用户的身份信息,实现对恶意用户的追踪,追踪到恶意用户后,将该用户加入撤销列表,从而取消该用户访问权限。利用外包技术,将大量的计算任务转移至雾节点,以缓解资源受限终端用户的计算负担。安全性分析和性能比较表明了该方案的安全性和有效性。
    失败停止属性基群签名方案
    廖东旭, 程小刚
    2025, 61(23):  286-296.  DOI: 10.3778/j.issn.1002-8331.2409-0162
    摘要 ( )   PDF (776KB) ( )  
    参考文献 | 相关文章 | 计量指标
    属性基群签名在隐私保护和细粒度签名中发挥着重要作用,然而现有方案未能充分考虑计算能力无限敌手和撤销属性的场景,安全性和实用性存在不足。为解决上述问题,通过与失败停止签名结合,提出了失败停止属性基群签名方案(FSABGS),使计算能力有限的签名者能够检测计算能力更强敌手的攻击,这种机制安全性基于信息论,不依赖于任何困难性问题。为了提高方案的灵活性,采用动态聚合器通过对证书动态聚合的形式实现了身份和属性的撤销,这种机制在计算开销上具有优势。此外,方案最终生成的签名大小保持恒定,计算开销独立于撤销列表,满足成员匿名性和属性匿名性,在随机预言机模型下可证明安全。通过与同类方案进行分析和实验比较,结果表明该方案开销较小且更为实用。
    工程与应用
    基于2D卷积神经网络的3D点云物体检测
    李晓丽, 王乐, 杜振龙, 陈东
    2025, 61(23):  297-304.  DOI: 10.3778/j.issn.1002-8331.2409-0082
    摘要 ( )   PDF (3009KB) ( )  
    参考文献 | 相关文章 | 计量指标
    激光雷达在自动驾驶和工业自动化领域已得到初步应用,获取了大量的场景、物体等点云数据,这些点云数据具有维度高、不规则的特性,已有的深度学习网络模型在处理这些数据时需用到计算代价高昂的三维卷积,其时空复杂度高且不能在线应用。针对传统网络模型处理点云数据的缺陷,提出一种基于2D卷积神经网络的3D点云物体识别方法,所提方法把不规则的点云数据统计规整为点云柱,用卷积、池化提取点云柱簇的特征,将三维的点云数据编码转化为二维的类图像特征数据;使用包含注意力机制的二维卷积神经网络在多个感受野提取充分表示点云的多尺度隐特征,解码网络根据位置、方向及物体种类识别点云物体。实验基于Ascend Atlas 200DK边端设备,单次推理耗时291?ms,实验结果与传统点云目标检测网络进行比较,分别以14.7、13.2、3.4倍的性能提升优于VoxelNet、F-PoitnNet以及Second网络模型;在KITTI数据集与ContFuse等14种点云目标检测算法进行精度对比,与次优算法相比,平均精度提升在2.3%以上;设计针对二维卷积以及注意力机制的消融实验,两个模块在模型大小与推理精度上分别提升50.9%和5.37%。实验结果表明,所提方法可高效、鲁棒、准确地检测3D点云数据的目标物体。
    联合单目深度估计的输电导线异物检测方法
    胡广怡, 韩军, 倪源松, 王文帅, 陈炣燏
    2025, 61(23):  305-315.  DOI: 10.3778/j.issn.1002-8331.2407-0097
    摘要 ( )   PDF (3188KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对输电导线异物检测中常见的背景误检与异物漏检问题,提出一种联合单目深度估计的输电导线异物检测方法。设计一种多层次特征融合的单目深度估计网络(multi-level feature fusion depth estimation,MFFDepth),在编码器使用多层次特征融合模块整合多级特征中的语义信息,并在编码器与解码器之间的跳跃连接处引入坐标注意力模块,提高网络在复杂场景下的全局深度感知能力;利用深度估计网络预测出的深度图,通过深度值聚类得到前景图像和前景深度阈值;随后联合目标检测网络YOLOX和前景深度阈值,以排除背景误检框,同时联合语义分割网络DeepLabv3+和深度前景图像,以解决异物漏检测问题;融合两个联合检测模块的检测结果,提升整体检测性能。实验结果表明,所提出的异物检测方法准确率达到92.9%,召回率达到95.8%,相比于原始YOLOX算法准确率和召回率分别提升了1.4%和8.3%,能够更加有效地完成输电导线异物检测任务。
    机巢充电情形下无人机电力巡检路径规划的强化遗传算法
    梁晨蕾, 罗贺, 蒋儒浩, 阴酉龙, 林世忠, 王国强
    2025, 61(23):  316-328.  DOI: 10.3778/j.issn.1002-8331.2407-0323
    摘要 ( )   PDF (1362KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对以机巢为充电站的无人机电力巡检路径规划问题,以最小化无人机执行任务总时间为目标构建数学模型,设计了一种强化遗传算法来求解该问题。在该算法中,提出了基于贪婪的种群初始化算子和基于split的可行解生成算子,并将遗传算法参数调优过程建模为马尔科夫决策过程,基于强化学习double Q-learning设计了交叉概率和变异概率的动态调优策略。在数值实验中,与Gurobi求解器、经典遗传算法、基于精英保留的遗传算法、差分进化算法的对比结果表明,该算法在求解质量和求解速度方面均具有显著优势;在案例分析中与现有巡检策略进行对比进一步验证了该算法在实际场景中的应用效果。
    融合高斯混合滤波的实时动态视觉惯性SLAM算法
    王昱东, 武和雷, 徐雪松
    2025, 61(23):  329-339.  DOI: 10.3778/j.issn.1002-8331.2408-0379
    摘要 ( )   PDF (12747KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对动态环境中同时定位与建图(SLAM)鲁棒性差、精度低及实时性弱的问题,提出一种融合高斯混合滤波的视觉惯性SLAM算法。通过对惯性测量单元(IMU)使用误差状态卡尔曼滤波(ESKF),估计出相机的先验旋转状态,利用设计的空间筛分器算法,由相机先验旋转状态与图像特征点坐标,计算出特征点位移,并对其进行高斯分布筛分,获得初始期望及其方差,再引入高斯混合模型,优化各高斯分布,生成对应的特征点簇,通过提出的最优静态簇滤波策略,获得稳定的静态特征点簇,从而估计出准确的相机位姿。在动态场景数据集TUM-RGBD与VCU-RVI上的实验结果表明,与VINS-Mono及其动态环境改进型相比,该算法在大部分数据集上表现良好,绝对轨迹误差中的均方根误差精度较VINS-Mono平均提高了92%,且满足实时性要求,对SLAM研究与机器人自主导航具有借鉴作用和潜在的应用价值。
    时变路网下多中心多车型电动卡车联合配送优化研究
    郭嘉炜, 黄志鹏, 贾锦秀, 马晓天, 李建国, 叶彬彬
    2025, 61(23):  340-350.  DOI: 10.3778/j.issn.1002-8331.2408-0441
    摘要 ( )   PDF (1603KB) ( )  
    参考文献 | 相关文章 | 计量指标
    在物流行业由高碳排放向绿色低碳的转型中,电动卡车在物流配送领域备受青睐。但考虑到城市路网交通阻抗的时空分布不均衡特性,以及电池充电过程的非线性特性,传统的静态车辆路径优化难以满足现实需求。为提高电动卡车在时变路网下的配送效率,综合考虑多中心多车型联合配送策略、基于非线性充电函数的部分充电策略、时间窗、载重及服务时间窗等因素,构建一个以综合配送成本最小为目标的混合整数规划模型;设计了一个融合改进K-means聚类法且具有记忆功能的模拟退火算法,对所建模型进行求解。以上海市部分物流园为例验证模型及算法的有效性,结果表明:高峰与非高峰时段的配送成本相差约5.7%;多车型联合配送方案相较于单车型配送方案成本降低约5.4%;部分充电策略相较于完全充电策略成本降低约5.4%。研究结果为物流企业进一步优化城市时变路网下电动卡车的配送方案提供了参考依据。
    改进离散蝙蝠算法求解柔性作业车间调度问题
    李志军, 陈秋莲
    2025, 61(23):  351-359.  DOI: 10.3778/j.issn.1002-8331.2408-0453
    摘要 ( )   PDF (1403KB) ( )  
    参考文献 | 相关文章 | 计量指标
    针对启发式智能算法蝙蝠算法求解柔性作业车间调度问题时易陷入局部最优、寻优能力不足等缺点,以最小化最大完工时间为目标提出一种改进离散蝙蝠算法。采用选择局部最小用时机器和随机选择机器相结合初始化种群,提高初始种群的质量和多样性;从工序排列和机器选择的角度,设计了选择、叠加、交叉算子和正反向学习操作改进位置更新机制,采用基于工序排列和机器选择的六种邻域结构操作来优化变邻域搜索策略,增强算法全局搜索和局部搜索的能力。通过基准算例和实例的实验仿真结果验证了改进离散蝙蝠算法的寻优性能。
    结合注意力机制与元学习的固定翼无人机故障诊断方法
    董虔利, 张安思, 武杰, 赵凯君
    2025, 61(23):  360-367.  DOI: 10.3778/j.issn.1002-8331.2409-0051
    摘要 ( )   PDF (1600KB) ( )  
    参考文献 | 相关文章 | 计量指标
    随着无人机在各领域应用的日益广泛,故障诊断成为保障其安全运行的关键。然而,传统基于深度学习的故障诊断方法往往依赖大量标记数据,在样本量较小和复杂飞行环境下易出现泛化性能差、对关键特征的提取不够显著、过拟合等问题。针对这些挑战,提出了一种元学习和有效通道注意力(meta-learning and effective channel attention,MLECA)的故障诊断方法,旨在利用元学习提高固定翼无人机故障诊断的准确性和鲁棒性。对原始传感器数据预处理并构建元任务;为了有效捕捉和突出重要特征,建立卷积神经网络和有效通道注意力(efficient channel attention,ECA)结合的特征编码器;将其作为基模型,通过模型无关的元学习方法训练优化初始化参数来获取先验表征知识,并利用所学知识实现未知环境下固定翼无人机故障诊断。实验结果表明,MLECA整体展现出较好的诊断性能,且拥有更强的泛化能力。
    非对称网络下考虑容量约束的即时配送路径优化
    吴腾宇, 薛欢欢, 付德强, 余海燕
    2025, 61(23):  368-376.  DOI: 10.3778/j.issn.1002-8331.2410-0277
    摘要 ( )   PDF (939KB) ( )  
    参考文献 | 相关文章 | 计量指标
    即时配送外延不断拓展,配送规模和范围增加,使得骑手在配送过程中安全事故频发。城市交通网络复杂且订单容量与平台预测存在偏差,高峰时段订单激增迫使骑手采取挂置车把等非标准装载方式,显著增加了交通事故风险。因此,提出了考虑城市交通网络特性下带容量约束的即时配送路径优化问题。证明了该问题的下界,针对特殊网络、一般网络设计了double judgment condition(DJC)、judge path and load weighted(JPL)和wait and serve(W&S)策略,并采用最坏情形分析法证明策略的竞争比。通过算例验证算法的有效性,分析JPL和W&S策略分别在不同订单密度、最大非对称系数、订单容量比重等情形下的表现。研究结果表明:JPL策略的适用性较高,在订单密度较高、大容量订单较多、非对称系数较小的城市交通网络性能最好;W&S策略更适用于订单密度较低、大容量订单较多、非对称系数较大城市交通网络。研究结论提供了不同情形下考虑容量约束的配送策略,通过实时优化路径减少非标准装载需求,保障了骑手安全配送。