栏目文章

Select

1. 深层次标签辅助分类任务的层次标签文本分类方法

曹渝昆, 魏子越, 唐艺嘉, 金成坤, 李云峰

计算机工程与应用 2024, 60 (10): 105-112. DOI: 10.3778/j.issn.1002-8331.2302-0237

摘要（17）

PDF（pc）（3457KB）（21）

层次标签文本分类是自然语言处理领域中一项具有挑战性的任务，每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中，由于标签包含的语义信息不充分，同时被归类到深层次标签的文档数量过少，深层次标签训练不充分，导致显著的标签训练不平衡问题。基于此，提出了深层次标签辅助分类任务的层次标签文本分类方法（DLAC）。该方法提出了一种深层次标签辅助分类器，在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点（即浅层次标签的丰富特征）来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明，模型能够有效提升深层次标签的分类性能，并取得良好效果。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于条件独立性检验的非稳态因果发现方法

郝志峰, 张维杰, 蔡瑞初, 陈薇

计算机工程与应用 2024, 60 (10): 113-120. DOI: 10.3778/j.issn.1002-8331.2301-0083

摘要（12）

PDF（pc）（7492KB）（16）

非稳态时间序列数据之间的因果关系发现是非常重要但极具挑战的问题。现有的工作主要假设观察数据随着时间或领域发生变化。上述假设使得相关方法需要引入时间或领域作为先验知识，无法应用于分段稳态的非稳态场景。因此，提出了一种基于条件独立性检验的非稳态因果关系发现算法。首先使用变化点检测方法来识别非稳态变化的时间点，然后将上一步的时间点进行区间划分，用基于条件独立性检验的时序因果关系发现算法推断局部稳态因果结构。在仿真和真实世界数据上的实验证明了该方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

3. 两阶段问答范式的生物医学事件触发词检测

行帅, 熊玉洁, 苏前敏, 黄继汉

计算机工程与应用 2024, 60 (10): 121-131. DOI: 10.3778/j.issn.1002-8331.2301-0152

摘要（8）

PDF（pc）（4982KB）（6）

现有的生物医学事件触发词检测存在以下缺陷：保留了与触发词无关的冗余信息；忽略了实体与事件之间的潜在关联性；传统方法容易受到数据稀缺性的影响。针对上述问题，提出了一种两阶段问答范式的生物医学事件触发词检测方法。在事件类型识别阶段，采用基于句法距离的注意力捕获更有意义的上下文特征，排除无关信息的干扰；为了有效利用实体中的潜在特征，采用全局统计的单词-实体-事件共现特征，指导事件类型感知注意力挖掘词与事件之间的强关联性。在触发词定位阶段，根据识别出的事件类型，制定问题回答该事件对应的触发词索引，从而利用丰富的问答数据库实现数据增强。在MLEE语料库上的结果表明，两阶段问答范式、句法距离和事件类型感知注意力都有效地提升了模型性能，所提出的模型取得了81.39%的F1分数，并在多个事件类型上的详细结果均优于其他基线模型。

参考文献 | 相关文章 | 多维度评价

Select

4. 使用中心预测-聚类的3D箱体实例分割方法

杨雨桐, 和红杰

计算机工程与应用 2024, 60 (10): 132-139. DOI: 10.3778/j.issn.1002-8331.2301-0129

摘要（5）

PDF（pc）（6542KB）（11）

随着深度学习技术在工业领域的大量部署，应用于运输、装卸、包装、分拣等环节的自动化系统成为仓储物流行业的研究热点。针对机器人箱体拆垛场景提出一个点云中心预测-聚类网络（center prediction-clustering network，CPCN），对箱体垛进行实例分割，并计算每个箱体的上表面中心坐标。CPCN在传统的语义-实例联合分割结构的基础上，为实例分割分支设计了中心预测模块和中心强化模块。中心预测模块帮助定位实例中心以避免中心点分割错误，中心强化模块令属于同一实例的点在特征空间中向中心聚集，二者有效增强了实例特征的辨识能力。在实例特征处理部分设计的中心-实例聚类方法直接对实例特征进行距离度量来计算实例标签，大幅减少了计算时间。在箱体数据集上进行的实验表明，与现有方法相比CPCN在实例分割任务中的平均精确率最低提高了0.7个百分点，最高提高了17.2个百分点，预测实例中心的准确率达到94.4%，中心偏移量低至13.70?mm，且推理速度快于同类型的联合分割网络，对于箱体拆垛任务更有针对性，具有良好的应用价值。

参考文献 | 相关文章 | 多维度评价

Select

5. 知识增强的自监督表格数据异常检测方法研究

高小玉, 赵晓永, 王磊

计算机工程与应用 2024, 60 (10): 140-147. DOI: 10.3778/j.issn.1002-8331.2301-0087

摘要（14）

PDF（pc）（3197KB）（14）

传统的监督异常检测方法快速发展，为了减少对标签的依赖，自监督预训练方法得到了广泛的研究，同时研究表明额外的内在语义知识嵌入对于表格学习至关重要。为了挖掘表格数据当中存在的丰富知识信息，提出了一种基于知识增强的自监督表格数据异常检测方法（self-supervised tabular data anomaly detection method based on knowledge enhancement，STKE）并进行了改进。提出的数据处理模块将领域知识（语义）、统计数学知识融入到特征构建中，同时自监督预训练（参数学习）提供上下文知识先验，实现表格数据的丰富信息迁移。在原始数据上采用mask机制，通过学习相关的非遮掩特征来学习遮掩特征，同时预测在数据隐层空间加性高斯噪声的原始值。该策略促使模型即使在有噪声输入的情况下也能恢复原始的特征信息。使用混合注意机制有效提取数据特征之间的关联信息。在6个数据集上的实验结果展现了提出的方法优越的性能。

参考文献 | 相关文章 | 多维度评价

Select

6. 保留模体信息的属性二分图神经网络表示学习

吕少卿, 王驰驰, 李婷婷, 包志强

计算机工程与应用 2024, 60 (10): 148-155. DOI: 10.3778/j.issn.1002-8331.2301-0141

摘要（10）

PDF（pc）（3097KB）（7）

目前网络表示学习方法大多针对通过网络，忽略了属性二分网络的特殊性以及网络的模体信息等。为了解决以上问题，提出一种保留模体信息的属性二分图神经网络表示学习方法MABG。该方法首先通过网络中两节点共同参与形成的蝶形模体数量来调整边的权重，从而构建模体权重矩阵，获得包含模体信息的属性二分网络邻接矩阵。接着采取不同的策略捕捉网络中的显式和属性隐式消息，对于不同类型节点集合间的显式关系采用消息传递机制，对于同类型节点中的隐式关系采用消息对齐机制，同时使用对抗模型最小化输入特征和显式关系表示之间的差异，之后通过级联框架来捕捉高阶信息并得到最终的节点表示。将该模型在四个真实公开的数据集上执行推荐任务并与其他方法进行对比，验证了该模型的有效性。

参考文献 | 相关文章 | 多维度评价

Select

7. 面向多视图融合的用户一致性社交推荐

赵文涛, 刘甜甜, 薛赛丽, 王德望

计算机工程与应用 2024, 60 (10): 156-163. DOI: 10.3778/j.issn.1002-8331.2301-0099

摘要（11）

PDF（pc）（3192KB）（6）

针对传统社交推荐准确率不高的问题，提出一种基于多视图融合的用户一致性社交推荐模型。该社交推荐模型考虑到社交网络中用户的不一致性和单一视图信息对推荐结果的影响，使用注意力机制动态过滤出不一致的社交邻居，并结合用户-项目交互信息来学习用户特征表达；同时从知识图谱（knowledge graph，KG）、用户-项目历史交互信息等多个视图学习项目在低维空间的特征表示；最后将用户和项目的特征表示进行内积操作，从而完成最终的推荐任务。为了验证推荐算法的有效性，在Douban和Yelp两个公开的数据集上与六个基线模型进行对比实验，并采用召回率、归一化折损累计增益（normalized discounted cumulative gain，NDCG）和精确率作为评估指标，实验结果表明，所提出的社交推荐模型的性能优于其他模型。

参考文献 | 相关文章 | 多维度评价

Select

8. 多模型融合的VoxSRC22说话人日志系统

杜雨轩, 周若华

计算机工程与应用 2024, 60 (10): 164-172. DOI: 10.3778/j.issn.1002-8331.2301-0080

摘要（11）

PDF（pc）（3364KB）（8）

为有效解决“谁在什么时候说话”的问题，提出一种说话人日志方法。该方法由六个模块组成，包括语音活动检测（voice activity detection，VAD）、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测（overlapping speech detection，OSD）和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明，最佳系统的性能相对基线提升了72%，并在VoxCeleb说话人识别挑战赛（VoxCeleb speaker recognition challenge，VoxSRC）2022评估集上分别实现了5.48%的说话人日志错误率（diarization error rate，DER）和32.10%的杰卡德错误率（Jaccard error rate，JER），排名第四。

参考文献 | 相关文章 | 多维度评价

Select

9. 融合知识图谱与注意力机制的项目推荐算法

邢峻也, 邢星, 贾志淳, 王鸿达, 刘嘉雯

计算机工程与应用 2024, 60 (10): 173-179. DOI: 10.3778/j.issn.1002-8331.2305-0252

摘要（17）

PDF（pc）（3116KB）（17）

知识图谱蕴含丰富的语义信息，广泛应用在不同的推荐场景中。现有的基于知识图谱的推荐方法在图神经网络的建模过程中，粗粒度地考虑用户和项目交互的关系，构建用户特征模型时，忽略不同历史项目的重要性。针对此类问题，提出一种融合知识图谱与注意力机制的项目推荐算法。该算法聚合用户特征，使用注意力机制学习知识图谱高阶潜在关系，构建项目特征时传播其邻域之间的项目嵌入表示，用图卷积网络进行特征聚合，最后使用多层神经网络进行预测。该算法在两组公开数据集上，与基线算法进行对比实验，召回率最高提升6.9%。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于二阶图卷积自编码器的图表示学习

袁立宁, 蒋萍, 莫嘉颖, 刘钊

计算机工程与应用 2024, 60 (10): 180-187. DOI: 10.3778/j.issn.1002-8331.2302-0097

摘要（13）

PDF（pc）（3461KB）（8）

图卷积自编码器是一类高效的图表示学习模型，在链路预测等任务中具有出色性能。然而现有模型大多依赖图卷积网络对邻接矩阵和属性矩阵进行编码，未充分利用二阶信息等高阶结构特征。针对上述问题，提出了基于二阶信息的图卷积自编码器模型SeVGAE。首先使用图卷积和二阶图卷积生成变分自编码器的均值和方差，然后学习嵌入向量表示原始图的混合概率分布，最后使用内积解码器恢复拓扑结构。在链接预测任务中，SeGVAE表现优于基线模型，Citeseer数据集上的AUC和AP相较原始的VGAE分别提升了3.26%和2.56%。实验结果表明，二阶信息的引入能够在低维嵌入中保留更丰富的图信息，提升模型性能。模型在处理属性信息不足、拓扑信息不准确的图数据时具有较为明显的优势，在边缘和属性均缺失40%的极端情况下，SeVGAE的AUC和AP相较VGAE提升4.79%和3.47%。

参考文献 | 相关文章 | 多维度评价

Select

11. 融合图谱重构的时序知识图谱推理

许智宏, 张天润, 王利琴, 董永峰

计算机工程与应用 2024, 60 (9): 181-187. DOI: 10.3778/j.issn.1002-8331.2212-0197

摘要（26）

PDF（pc）（2822KB）（31）

针对现有时序知识图谱模型多数基于静态知识图谱快照序列进行推理，无法充分捕获细粒度时序特征的问题，设计了基于图谱重构的时序知识图谱推理模型（graph reconstruction for temporal knowledge reasoning，GRTKR）。该模型通过对实体的时间邻域进行采样完成时序知识图谱重构，结合时间编码器提供的显式时序特征与邻域特征聚合器提供的隐式时序特征来提升对时序数据建模的能力。在时序知识图谱数据集ICEWS14、ICEWS05-15、YAGO11K上的实验验证了方法的有效性，并且相比于主流基线模型，MRR、Hits@1、Hits@3、Hits@10评价指标均有明显提升。

参考文献 | 相关文章 | 多维度评价

Select

12. 结合双曲图注意力网络与标签信息的短文本分类方法

宋建平, 王毅, 孙开伟, 刘期烈

计算机工程与应用 2024, 60 (9): 188-195. DOI: 10.3778/j.issn.1002-8331.2212-0335

摘要（21）

PDF（pc）（3422KB）（35）

针对现有方法在文本分类任务中没有综合考虑文本的层级结构和标签对于文本特征学习的重要性而导致的鲁棒性不足、表达能力不足等问题，提出了一种基于双曲图注意力网络的短文本分类算法L-HGAT。利用文本的复杂层级结构与双曲空间的树相似性特征的契合性，将文本嵌入到具有负常数曲率的双曲空间中，充分利用双曲流行表征的强大表达能力。设计双曲图注意力网络，融合节点特征与边特征，增强对文本中关键局部信息的聚合能力。使用基于双曲空间中的测地线距离的标签文本交互函数进一步引导文本特征学习，以此提升文本分类精度。实验结果表明，与基准模型相比，所提方法在基准数据集上显著优于现有研究方法，能够有效地提升模型性能，更好地完成文本分类任务。

参考文献 | 相关文章 | 多维度评价

Select

13. 融合汉字输入法的BERT与BLCG的长文本分类研究

杨文涛, 雷雨琦, 李星月, 郑天成

计算机工程与应用 2024, 60 (9): 196-202. DOI: 10.3778/j.issn.1002-8331.2212-0357

摘要（14）

PDF（pc）（2785KB）（22）

现有的中文长文本分类模型中，没有考虑汉字读音、笔画等特征信息，因此不能充分表示中文语义；同时，长文本中常常包含大量与目标主题无关的信息，甚至部分文本与其他主题相关，导致模型误判。为此，提出了一种融合汉字输入法的BERT（BERT fused Chinese input methods，CIMBERT）、带有门控机制的长短期记忆卷积网络（BiLSTM fused CNN with gating mechanism，BLCG）相结合的文本分类方法。该方法使用BERT模型进行文本的向量表示，在BERT模型的输入向量中，采用了拼音和五笔两种常用的汉字输入法，增强了汉字的语义信息。建立了BLCG模型进行文本特征提取，该模型使用双向长短期记忆网络（BiLSTM）进行全局特征提取、卷积神经网络（CNN）进行局部特征提取，并通过门控机制（gating mechanism）动态融合全局特征和局部特征，解决了部分文本与目标主题无关导致模型误判的问题。在THUCNews数据集与Sogou语料库上对该方法进行了验证，其准确率为97.63%、95.43%，F1-score为97.68%、95.49%，优于其他文本分类模型。

参考文献 | 相关文章 | 多维度评价

Select

14. 多层级信息增强异构图的篇章级话题分割模型

张洋宁, 朱静, 董瑞, 尤泽顺, 王震

计算机工程与应用 2024, 60 (9): 203-211. DOI: 10.3778/j.issn.1002-8331.2212-0363

摘要（18）

PDF（pc）（3414KB）（24）

话题分割是自然语言处理领域的基础任务之一，按照话题相关性原则将文本分割为多个话题相关的文本块。针对现有话题分割模型提取句子深层语义信息方面明显不足，并且忽略了篇章中的层次信息和上下文交互等问题，提出了一种多层级信息增强异构图的篇章级话题分割模型MHG-TS。该方法利用篇章中的句子和关键词构建异构图网络，引入BERT预训练语言模型捕获图中节点的深层语义特征，在句子节点一阶邻域层级，利用图注意力机制为语义关联的节点分配更大的边权重，增强了一阶邻域中语义关联节点的信息交互；在关键词节点层级，引入关键词信息加强句子语义特征表示；在句子高阶邻域层级，利用关键词节点作为中介，构建了句子节点高阶邻域中的跨句信息交互，丰富了句子节点之间的非序列关系，最终通过融合多层级信息实现包含全局语义信息的句子表示。相较于当下流行的模型，在多个数据集上，三个评价指标性能平均值分别提高了3.08%、2.56%、5.92%，取得了最佳的实验结果。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于位置增强词向量和GRU-CNN的方面级情感分析模型研究

陶林娟, 华庚兴, 李波

计算机工程与应用 2024, 60 (9): 212-218. DOI: 10.3778/j.issn.1002-8331.2212-0375

摘要（25）

PDF（pc）（2790KB）（34）

方面级情感分析旨在判断一段文本中特定方面词的情感倾向，其核心问题是方面词的上下文如何准确表征。与现有研究主要关注注意力机制的改进不同，该文从词语表征和上下文编码模型两个方面进行改进。在词语表征方面，通过BERT模型和位置度量公式获得增强的词向量表示；在上下文编码模型方面，使用GRU-CNN网络提取文本语义特征。在SemEval2014 Task4数据集上的实验表明，提出的模型在Restaurant和Laptop领域中的准确率分别达到了85.54%和80.35%，证实了所提出模型的有效性。

参考文献 | 相关文章 | 多维度评价

Select

16. 属性蒸馏的零样本识别方法

李厚君, 韦柏全

计算机工程与应用 2024, 60 (9): 219-227. DOI: 10.3778/j.issn.1002-8331.2212-0382

摘要（14）

PDF（pc）（8175KB）（17）

零样本识别是计算机视觉领域最具挑战性的任务之一，其关键在于如何从已见类中学到稳定和可迁移的知识。为提高零样本识别的准确率，对零样本识别问题进行了系统研究，并利用知识蒸馏的思想，精心设计了一个简单有效的属性蒸馏分类器。它符合人类认识事物的过程，首先从Vision Transformer大模型中获得全面细致的视觉特征，再运用属性概念蒸馏出物体的属性知识，最后迁移到未见类识别任务中。公开数据集上的实验表明，该方法取得了具有竞争力的结果，其识别准确率虽略低于最新的属性引导算法，但优于其他传统方法，而且识别架构简单具有更快的处理速度。同时，研究也指出了减少属性描述的稀疏性，以及增加多视角高清图像，将有利于提高零样本识别方法的准确率。

参考文献 | 相关文章 | 多维度评价

Select

17. 文本核重建与扩展实现任意形状文本检测

邓胜军, 陈念年

计算机工程与应用 2024, 60 (9): 228-236. DOI: 10.3778/j.issn.1002-8331.2301-0074

摘要（10）

PDF（pc）（6663KB）（13）

基于分割的方法对自然场景中的文本进行像素级预测，大幅度提升了对任意形状文本的检测效果，但是如何有效分离相邻文本仍然是检测中的难题。目前广泛采用的方法是通过缩小文本注释边界得到文本核来分离相邻文本。然而，网络预测文本核时舍弃了文本核外大部分信息，降低了基于分割的文本检测方法的性能。为了解决这个问题，提出了一种文本核重建算法，将文本核的生成放在后处理阶段，通过网络预测的方向场将文本实例向内收缩形成文本核。同时，提出了一种文本核扩展算法用于将文本核恢复为完整的文本实例。实验表明，所提方法在Total-Text（88.66%）、CTW-1500（87.28%）和MSRA-TD500（90.65%）三个数据集上取得了相似或最好的检测性能。

参考文献 | 相关文章 | 多维度评价

Select

18. 混合特征及多头注意力的中文短文本分类

江结林, 朱永伟, 许小龙, 崔燕, 赵英男

计算机工程与应用 2024, 60 (9): 237-243. DOI: 10.3778/j.issn.1002-8331.2302-0396

摘要（31）

PDF（pc）（2833KB）（29）

传统的短文本分类研究方法存在两方面不足，一是不能全面地表示文本的语义信息，二是无法充分地提取和融合文本全局和局部信息。基于此，提出一种混合特征及多头注意力（HF-MHA）的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示，以得到更全面的文本特征向量表示；采用多头注意力机制捕捉文本序列中的依赖关系，以提高文本的语义理解；通过卷积神经网络分别提取两种向量表示的特征，并将其融合为一个特征向量，以整合文本的全局和局部信息；通过输出层得到分类结果。在三个公开数据集上的实验表明，HF-MHA能够有效地提升中文短文本分类的性能。

参考文献 | 相关文章 | 多维度评价

Select

19. 基元库构建思想的机器人动作与策略演示学习方法

李铁军, 刘家奇, 刘今越, 贾晓辉

计算机工程与应用 2024, 60 (8): 90-98. DOI: 10.3778/j.issn.1002-8331.2211-0261

摘要（43）

PDF（pc）（1099KB）（57）

为解决机器人演示学习过程中演示数据优化、动作与任务策略的存储调用问题，提出一种利用基元库思想的演示学习方法。动作学习采用专家拖动机械臂执行动作获取演示数据，利用高斯混合模型与高斯混合回归提升数据质量，由动态运动基元算法转换为基函数的权重值。策略学习将任务步骤创建为动作基元，向基元内添加得到的权重值并构建包含任务执行策略的基元名片，由基元组成基元库完成存储。执行任务时从基元库中有序调用基元，利用YOLOv5目标检测网络和AlexNet图像分类网络检测目标信息，匹配动作并泛化出具有原动作特征的新动作。该方法实现了从演示中学习动作与策略存储，根据实际目标组合合适动作完成任务。钢筋绑扎实验创建5个动作基元，通过专家演示学习10个动作，机器人利用动作基元库成功完成水平面与竖直面钢筋交叉点绑扎任务说明其有效性。

参考文献 | 相关文章 | 多维度评价

Select

20. E-TUP：融合E-CP与TUP的联合知识图谱学习推荐方法

赵博, 王宇嘉, 倪骥

计算机工程与应用 2024, 60 (8): 99-109. DOI: 10.3778/j.issn.1002-8331.2211-0464

摘要（41）

PDF（pc）（635KB）（72）

目前，大部分将知识图谱引入推荐系统的方法只是将已知的表层知识图谱实体进行引入，没有对图谱的内在关系进行预测和挖掘，因此无法利用知识图谱中的隐藏关系。针对上述问题，提出联合学习推荐模型E-TUP（enhance towards understanding of user preference），使用E-CP（enhance canonical polyadic）进行知识图谱补全并将完整信息进行传递。利用储存空间负采样方法，将优质负例三元组进行存储，并随训练过程进行更新，以提高知识图谱补全中负例三元组的质量。链接预测实验结果显示，储存空间方法使E-TUP模型链接预测准确率对比现有模型最高提升10.3%。在MovieLens-1m和DBbook2014数据集上进行推荐实验，在多个评价指标上取得最佳结果，对比现有模型实现最高5.5%的提升，表明E-TUP可以有效利用知识图谱中的隐藏关系提高模型推荐准确率。基于汽车维修数据进行推荐实验，结果表明E-TUP可以有效推荐相关知识。

参考文献 | 相关文章 | 多维度评价

Select

21. 改进Deeplabv3+的双注意力融合作物分类方法

郭金, 宋廷强, 孙媛媛, 巩传江, 刘亚林, 马兴录, 范海生

计算机工程与应用 2024, 60 (8): 110-120. DOI: 10.3778/j.issn.1002-8331.2211-0468

摘要（53）

PDF（pc）（850KB）（67）

近年来，卷积神经网络（convolutional neural networks，CNN）在农作物分类研究中不断取得新进展，但在建模长期依赖关系方面表现出一定的局限性，对农作物全局特征的捕获存在不足。针对以上问题，将Transformer引入Deeplab v3+模型，提出了一种用于无人机影像农作物分类的并行分支结构——DeepTrans（Deeplab v3+with Transformer）模型。DeepTrans以一种并行的方式将Transformer和CNN结合在一起，利于全局特征与局部特征的有效捕获。通过引入Transformer来增强图像中信息的远距离依赖关系，提高了作物全局信息的提取能力；加入通道注意力机制和空间注意力机制加强Transformer对通道信息的敏感度及ASPP（atrous spatial pyramid pooling）对作物空间信息捕获能力。实验结果表明，DeepTrans模型在MIoU指标上可达0.812，相较于Deeplab v3+模型提高了3.9%，该模型在五类作物的分类中精度均有提升，对于容易错分的甘蔗、玉米和香蕉三种作物，其IoU分别提高了2.9%、4.7%、13%。由此可见，DeepTrans模型在农作物分类图像的内部填充和全局预测方面有着更好的分割效果，有助于更准确地监测农田作物的种植结构及规模。

参考文献 | 相关文章 | 多维度评价

Select

22. 融合Lasso的近似马尔科夫毯特征选择方法

刘明, 杜建强, 李郅琴, 罗计根, 聂斌, 张梦婷

计算机工程与应用 2024, 60 (8): 121-130. DOI: 10.3778/j.issn.1002-8331.2212-0094

摘要（28）

PDF（pc）（597KB）（26）

在特征选择问题中，近似马尔科夫毯常用于判断冗余特征，但所得到的冗余特征并不完全相同，因此，在直接使用近似马尔科夫毯删除冗余特征时，存在可能导致信息丢失的情况，影响模型精度。为此，提出一种用于中药代谢组学高维小样本数据的融合Lasso的近似马尔科夫毯特征选择方法。方法分为两个阶段，第一阶段，通过最大信息系数对特征的相关度分析过滤无关特征；第二阶段，采用近似马尔科夫毯构建相似特征组，使用Lasso评估相似特征组中特征影响力，迭代去除冗余特征。通过实验对比表明，该算法可以在一定程度上减少有用信息丢失，去除无关特征和冗余特征，提高模型精度和稳定性。

参考文献 | 相关文章 | 多维度评价

Select

23. 结合数据增强的跨模态行人重识别轻量网络

曹钢钢, 王帮海, 宋雨

计算机工程与应用 2024, 60 (8): 131-139. DOI: 10.3778/j.issn.1002-8331.2212-0100

摘要（46）

PDF（pc）（714KB）（80）

现有的跨模态行人重识别方法中，轻量化网络的相关研究较少。考虑到硬件部署对轻量化网络的需求，提出新的跨模态行人重识别轻量网络。以Osnet为基础，进行特征提取器和特征嵌入器的拆分。同时使用数据增强操作，利用有限的数据集，最大程度提高了网络的鲁棒性。改进难样本三元组损失函数，在减少计算量的同时缩小模态间差异，提升网络识别准确率。提出的轻量化网络结构简单且效果显著，在SYSU-MM01数据集的全搜索模式下rank-1/mAP分别达到65.56%、61.36%，参数量仅为1.92×106。

参考文献 | 相关文章 | 多维度评价

Select

24. 尺度不变的条件数约束的模型鲁棒性增强算法

徐杨宇, 高宝元, 郭杰龙, 邵东恒, 魏宪

计算机工程与应用 2024, 60 (8): 140-147. DOI: 10.3778/j.issn.1002-8331.2212-0114

摘要（25）

PDF（pc）（605KB）（23）

深度神经网络容易受到对抗样本的攻击，这一直威胁着其在安全关键的场景中的应用。基于对抗样本是由神经网络的高度线性行为产生的这一解释，提出了一种基于尺度不变的条件数约束的模型鲁棒性增强算法。在对抗训练过程中利用权重矩阵计算其范数，并通过对数函数获得尺度不变的约束项。将尺度不变的条件数约束项纳入到对抗训练优化的外层框架中，经过反向传播迭代降低权重矩阵的条件数值，从而在良态的高维权重空间中进行神经网络的线性变换，以提高防御对抗扰动的鲁棒性。该算法适用于卷积和Transformer两种架构的视觉模型，不仅在防御PGD、AutoAttack等白盒攻击时可以显著提高鲁棒精度，在防御黑盒攻击square attack等算法时也能有效增强对抗鲁棒性。在基于Transformer架构的图像分类模型上进行对抗训练时结合所提出的约束，权重矩阵的条件数值平均下降了20.7%，防御PGD攻击时可提高1.16个百分点的鲁棒精度。与Lipschitz约束等同类方法相比，提出的算法还能提高干净样本的精度，缓解对抗训练造成的模型泛化性低的问题。

参考文献 | 相关文章 | 多维度评价

Select

25. 脑电信号多特征融合与卷积神经网络算法研究

宋世林, 张学军

计算机工程与应用 2024, 60 (8): 148-155. DOI: 10.3778/j.issn.1002-8331.2212-0301

摘要（42）

PDF（pc）（707KB）（58）

针对脑电信号（electroencephalogram，EEG）运动想象中单一特征无法多维表征信号中的信息导致的分类准确率不高的问题，提出一种基于样本熵和共空间模式特征融合的特征提取算法。算法先对原始脑电信号进行小波包分解，从中选择包含μ和β节律的分量进行重构，然后分别提取重构信号的样本熵和CSP（common spatial pattern，CSP）特征，将两者融合组成新的特征向量，使用所设计的一维卷积神经网络对其进行识别获得分类结果。所提方法在2003年BCI Dataset III中获得了91.66%的分类准确率，在2008年BCI Dataset A中获得了85.29%的平均分类准确率。与近年来文献中提出的多特征融合算法相比，准确率提高了7.96个百分点。

参考文献 | 相关文章 | 多维度评价

Select

26. 融合交互注意力网络的实体和关系联合抽取模型

郝小芳, 张超群, 李晓翔, 王大睿

计算机工程与应用 2024, 60 (8): 156-164. DOI: 10.3778/j.issn.1002-8331.2301-0154

摘要（42）

PDF（pc）（609KB）（48）

实体关系三元组的抽取效果直接影响后期知识图谱构建的质量，而传统流水线式和联合式抽取的模型，并没有对句子级别和关系级别的语义特征进行有效建模，从而导致模型性能的缺失。为此，提出一种融合句子级别和关系级别的交互注意力网络的实体和关系联合抽取模型RSIAN，该模型通过交互注意力网络来学习句子级别和关系级别的高阶语义关联，增强句子和关系之间的交互，辅助模型进行抽取决策。在构建的中文旅游数据集（TDDS）的Precision、Recall和F1值分别为0.872、0.760和0.812，其性能均优于其他对比模型；为了进一步验证该模型在英文联合抽取上的性能，在公开英文数据集NYT和Webnlg上进行实验，该模型的F1值相比基线模型RSAN模型分别提高了0.014和0.013，并且该模型在重叠三元组的分析实验也均取得了优于基线模型的性能且更稳定。

参考文献 | 相关文章 | 多维度评价

Select

27. 双元双模态下二次门控融合的多模态情感分析

刘青文, 买日旦·吾守尔, 古兰拜尔·吐尔洪

计算机工程与应用 2024, 60 (8): 165-172. DOI: 10.3778/j.issn.1002-8331.2302-0088

摘要（38）

PDF（pc）（567KB）（56）

为了平衡情感信息在不同模态中分布的不均匀性，获得更深层次的多模态情感表征，提出了一种基于双元双模态二次门控融合的多模态情感分析方法。对文本、视觉模态，文本、语音模态分别融合，充分考虑文本模态在三个模态中的优势地位。同时为了获得更深层次的多模态交互信息，使用二次融合。在第一次融合中，使用融合门决定向主模态添加多少补充模态的知识，得到两个双模态混合知识矩阵。在第二次融合中，考虑到两个双模态混合知识矩阵中存在冗余、重复的信息，使用选择门从中选择有效、精简的情感信息作为双模态融合后的知识。在公开数据集CMU-MOSEI上，情感二分类的准确率和F1值分别达到了86.2%、86.1%，表现出良好的健壮性和先进性。

参考文献 | 相关文章 | 多维度评价

Select

28. 多模态方面级情感分析的多视图交互学习网络

王旭阳, 庞文倩, 赵丽婕

计算机工程与应用 2024, 60 (7): 92-100. DOI: 10.3778/j.issn.1002-8331.2210-0288

摘要（89）

PDF（pc）（591KB）（152）

以往的多模态方面级情感分析方法只利用预训练模型的一般文本和图片表示，对方面和观点词相关性的识别不敏感，且不能动态获取图片信息对单词表示的贡献，因而不能充分识别多模态与方面之间的相关性。针对上述问题，提出一种多视图交互学习网络模型。将句子从上下文和句法两个视图上分别提取特征，以便在多模态交互时充分利用到文本的全局特征；对文本、图片和方面之间的关系进行建模，使模型实现多模态交互；同时融合不同模态的交互表示，动态获取视觉信息对文本中每个单词的贡献程度，充分提取模态与方面之间的相关性。最后通过全连接层和Softmax层获取情感分类结果。在两个数据集上进行实验，实验结果表明该模型能够有效增强多模态方面级情感分类的效果。

参考文献 | 相关文章 | 多维度评价

Select

29. 结合项目属性协作信号减少无关邻域的推荐

赵文涛, 薛赛丽, 刘甜甜

计算机工程与应用 2024, 60 (7): 101-107. DOI: 10.3778/j.issn.1002-8331.2211-0042

摘要（38）

PDF（pc）（568KB）（38）

在推荐系统中，知识图谱（knowledge graph，KG）作为辅助信息，提高了算法的性能以及可解释性。但在聚合多跳邻居时，它通常把所有的实体信息加以聚合并传播。KG中不是所有的信息都有助于改善推荐结果，当聚合邻域信息不加以区分时，实体的嵌入就会受到不相关实体的干扰。针对上述问题，提出一个项目属性协作信号和筛选高相关的邻域策略的模型（RUNCS），用以提高推荐的效果。具体来说，把点击过相同项目的用户称为相似邻居，通过相似邻居点击的项目和KG中的项目属性相结合，从而得到项目属性协作集；通过计算项目属性的相似性，得到相关性分数，用以筛选高相关的邻居；利用注意力机制对其分配权重进行信息聚合。在音乐和电影两个基准数据集中的实验结果表明，与现有最优主流方法相比，该模型在CTR预测上AUC提升0.6~2.7个百分点。

参考文献 | 相关文章 | 多维度评价

Select

30. 融合改进YOLOv5及Mediapipe的手势识别研究

倪广兴, 徐华, 王超

计算机工程与应用 2024, 60 (7): 108-118. DOI: 10.3778/j.issn.1002-8331.2308-0097

摘要（152）

PDF（pc）（686KB）（149）

针对现有手势识别算法计算量大、鲁棒性差等问题，提出一种基于IYOLOv5-Med（improved YOLOv5 Mediapipe）算法的手势识别方法。该算法将改进的YOLOv5算法和Mediapipe方法结合，包括手势检测和手势分析两部分，算法有效降低了训练的时间成本，增加了识别的鲁棒性。手势检测部分，改进了传统YOLOv5算法，利用FastNet重构C3模块，将CBS模块替换为GhostNet中GhostConv模块，在Backbone网络末端加入SE注意力机制模块，改进后的算法，模型体积更小，更适用于资源有限的边缘设备。手势分析部分，提出了一种基于Mediapipe的方法，对手势检测部分定位到的手势区域进行手部关键点检测，并提取相关特征，然后通过朴素贝叶斯分类器进行识别。实验结果证实了提出的IYOLOv5-Med算法的有效性，与传统YOLOv5算法相比，参数量下降34.5%，计算量减少34.9%，模型权重降低33.2%，最终平均识别率达到0.997，且实现方法相对简单，有较好的应用前景。

参考文献 | 相关文章 | 多维度评价

Select

31. 基于多序列隐关系的时序事件预测

郝志峰, 刘俊, 温雯, 蔡瑞初

计算机工程与应用 2024, 60 (7): 119-127. DOI: 10.3778/j.issn.1002-8331.2211-0137

摘要（48）

PDF（pc）（533KB）（54）

时序事件预测是指基于历史事件预测下一个事件，事件包括时间和类型两个属性。当前主要工作集中在单方面（事件时间或事件类型）的预测，但这无法回答“何时发生何事”这类更精细的问题。此类问题的挑战主要是事件类型非常多样，而行为往往高度稀疏，给预测带来极大困难；需要预测的事件时间和事件类型分属两个域，如何把这两个域的信息加以融合并形成互补也是一个挑战。针对上述挑战，从融合多序列隐信息的角度探索了一种解决方法。基于某些事件序列之间具有模式相似性这一观察，提出建模事件序列的隐关系图，利用邻居序列的信息解决行为稀疏性的问题；通过合理设计神经网络模块，将事件的时间域和类型域的信息映射到共同的抽象空间，解决事件时间和事件类型信息的融合建模问题。通过在多个真实数据集上进行了大量实验，实验结果印证了多序列深度时序模型优于现有的一系列基准模型。

参考文献 | 相关文章 | 多维度评价

Select

32. 面向会话的需求感知注意图神经网络推荐模型

郑小丽, 王巍, 杜雨晅, 张闯

计算机工程与应用 2024, 60 (7): 128-140. DOI: 10.3778/j.issn.1002-8331.2211-0248

摘要（35）

PDF（pc）（1008KB）（53）

针对现有基于图的会话推荐方法忽略了反馈数据中由于用户行为不确定性引起的噪声影响，存在无法准确和有效地捕捉用户偏好的问题，提出一种面向会话的需求感知注意图神经网络推荐模型（DAAGNNSR）。将具有时序性的会话数据构建为图，通过引入图神经网络学习图上节点嵌入表示；将提取的项目特征使用需求感知聚合器线性聚合为用户潜在需求矩阵，以自动削弱噪声干扰，同时用低秩多头注意力网络将该矩阵与全部项目特征进行逐项兴趣交互生成需求增强的项目表征；联合独立位置编码进一步分析项目间顺序关联，并且将生成的独立位置嵌入与项目表征进行线性融合；经过预测层生成推荐列表。将所提模型在Diginetica、Tmall和Nowplaying三个公共数据集上进行训练和测试，实验结果表明，该模型的推荐精度在各指标上均优于其他基线模型，与基于图上下文自注意力机制模型（GCSAN）相比，Diginetica上NDCG@10提高了5.6%，Tmall上Recall@10提高了6.4%；与基于图神经网络的SRGNN相比，Tmall上Precision@10提高了5.0%，推荐性能显著提升。

参考文献 | 相关文章 | 多维度评价

Select

33. 特征注意力Transformer模块在3D唇语序列身份识别中的应用

骈鑫洋, 王瑜, 张洁

计算机工程与应用 2024, 60 (7): 141-146. DOI: 10.3778/j.issn.1002-8331.2211-0295

摘要（41）

PDF（pc）（598KB）（65）

唇语行为是一种新兴起的生物特征识别技术，三维（three-dimensional，3D）唇语点云序列因包含真实嘴唇空间结构和运动信息，已成为个体身份识别的重要生物特征。但是，3D点云的无序与非结构化的特点导致时空特征的提取非常困难。为此，提出一种深度学习网络模型，用于3D唇语序列身份识别。该网络采用四层改进的PointNet++作为网络骨干，以分层方式抽取特征，为了学习到更多包含身份信息的时空特征，设计一种动态唇特征注意力Transformer模块，连接于PointNet++网络每一层之后，可以学习到不同特征图之间的相关信息，有效捕捉视频序列不同帧的上下文信息。与其他注意力机制构建的Transformer相比，提出的Transformer模块具有较少的参数，在S3DFM-FP和S3DFM-VP数据集上进行的实验表明，提出网络模型在3D唇语点云序列的身份识别任务中效果显著，即使在不受姿态约束的S3DFM-VP数据集中也表现出良好的性能。

参考文献 | 相关文章 | 多维度评价

Select

34. 基于Conformer的实时多场景说话人识别模型

宣茜, 韩润萍, 高静欣

计算机工程与应用 2024, 60 (7): 147-156. DOI: 10.3778/j.issn.1002-8331.2210-0145

摘要（38）

PDF（pc）（792KB）（40）

为解决在多场景（跨域、长时以及噪声干扰语音场景）下说话人确认系统性能较差的问题，提出了一种基于Conformer构建的、实时多场景鲁棒的说话人识别模型——PMS-Conformer。PMS-Conformer的设计灵感来自于先进的模型MFA-Conformer。PMS-Conformer对MFA-Conformer的声学特征提取器、网络组件和损失函数计算模块进行了改进，其具有新颖有效的声学特征提取器，以及鲁棒的、具有较强泛化能力的声纹嵌入码提取器。基于VoxCeleb1&2数据集实现了PMS-Conformer的训练；开展了PMS-Conformer与基线MFA-Conformer以及ECAPA-TDNN在说话人确认任务上的性能对比评估实验。实验结果表明在长语音SITW、跨域VoxMovies以及加噪处理的VoxCeleb-O测试集上，以PMS-Conformer构建的说话人确认系统的性能比用这两个基线构建的说话人确认系统更有竞争力；并且在声纹嵌入码提取器的可训练参数（Params）和推理速度（RTF）方面，PMS-Conformer明显优于ECAPA-TDNN。实验结果说明了PMS-Conformer在实时多场景下具有良好的性能。

参考文献 | 相关文章 | 多维度评价

Select

35. 结合对比学习的图像指导增强视觉问答模型

杨有, 姚露

计算机工程与应用 2024, 60 (7): 157-166. DOI: 10.3778/j.issn.1002-8331.2211-0447

摘要（44）

PDF（pc）（911KB）（50）

针对现有的注意力编解码视觉问答模型存在两个问题：单一形态图像特征包含视觉信息不完整，以及对问题指导过度依赖，提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器，它基于Transformer语言编码器实现，将单一的图像特征扩展为区域和网格两种形态，根据不同形态特征的相对位置构建互补的空间关系，以解决第一问题。所提模型包含一种视觉引导的语言解码器，将视觉解码的两种图像特征与问题特征二次匹配，通过平行门控引导注意力，自适应地修正不同视觉信息对问题的引导比例，以解决第二问题。所提模型，在训练过程中，引入对比学习损失函数，通过对比模型推理时不同模态特征在隐空间内的相似度，获取更相近的互信息。所提模型，在VQA 2.0、COCO-QA和GQA数据集上分别取得73.82%、72.49%和57.44%的总体准确率，较MCAN模型分别提高2.92个百分点、4.41个百分点和0.8个百分点。大量消融实验和可视化分析证明了模型的有效性。实验结果表明，所提模型能够获取更相关的语言-视觉信息，并且对不同类型的问题样本具有更强的泛化能力。

参考文献 | 相关文章 | 多维度评价

Select

36. 融入BioCopy机制的医疗报告抽取生成模型

刘岚, 谭红叶

计算机工程与应用 2024, 60 (6): 155-162. DOI: 10.3778/j.issn.1002-8331.2210-0071

摘要（36）

PDF（pc）（600KB）（41）

智慧医疗是融合了人工智能技术的新型健康医疗服务模式，其中医疗报告自动生成是智慧医疗领域的一项重要任务，该任务依据病人自述和医患对话，生成半结构化的医疗报告。医疗报告不仅包含主诉等多个子部分，而且包含大量来自原文的医疗术语。针对这些特点，采用了融入BioCopy机制的抽取与生成结合的摘要模型，模型首先对每个子部分进行关键句抽取，排除无关信息的干扰；然后在生成医疗报告时加入BioCopy机制以复制关键句中的医疗术语，保证结果的准确性。在CCL 2021相关数据集上的实验结果表明：该模型优于主要baseline，取得了较好的效果。

参考文献 | 相关文章 | 多维度评价

Select

37. 滤波器弹性的深度神经网络通道剪枝压缩方法

李瑞权, 朱路, 刘媛媛

计算机工程与应用 2024, 60 (6): 163-171. DOI: 10.3778/j.issn.1002-8331.2210-0420

摘要（25）

PDF（pc）（713KB）（28）

深度神经网络（deep neural network，DNN）在各个领域获得了巨大成功，由于其需要高额的计算和储存成本，难以直接将它们部署到资源受限的移动设备端。针对这个问题，对网络中的全局滤波器重要性评估进行了研究，提出滤波器弹性的通道剪枝压缩方法以轻量化神经网络的规模。该方法先设置层间局部动态阈值改进L1正则化（L1 lasso）稀疏训练中剪枝过度的不足；然后将其输出乘以通道缩放因子替换普通的卷积层模块，利用滤波器的弹性大小定义全局滤波器的重要性，其数值由泰勒公式估计得出并排序，同时设计新的滤波器迭代剪枝框架，以平衡剪枝性能和剪枝速度的矛盾；最后利用改进的L1正则化训练和全局滤波器重要性程度进行复合通道剪枝。在CIFAR-10上使用所提方法对VGG-16进行实验，减少了80.2%的浮点运算次数（FLOPs）和97.0%的参数量，而没有明显的准确性损失，表明了方法的有效性，能大规模地压缩神经网络，可部署于资源受限的终端设备。

参考文献 | 相关文章 | 多维度评价

Select

38. 基于YOLOv5的角度优化抓取检测算法研究

陈春朝, 孙东红

计算机工程与应用 2024, 60 (6): 172-179. DOI: 10.3778/j.issn.1002-8331.2210-0499

摘要（45）

PDF（pc）（649KB）（56）

针对目前机器人抓取检测方法抓取角度预测过于离散,抓取过程可能产生较大偏角，降低抓取检测精度，甚至导致抓取失败的问题，提出了一种基于YOLOv5神经网络模型改进的机器人实时抓取检测方法。以单阶段目标检测模型YOLOv5为基础,提取抓取框坐标及抓取角度。对抓取角度进行更细致的划分，同时引入环形平滑标签以适应角度的周期性，建立相邻角度之间的联系，将YOLOv5检测头进行解耦，并对损失函数进行优化，提高检测精度。在Cornell数据集上进行实验验证。实验结果表明，与经典的抓取检测方法相比，所提算法能够更好地预测抓取角度，提升抓取检测精度；在Cornell数据集上，此模型达到了97.5%的准确率以及71?FPS的检测速度。

参考文献 | 相关文章 | 多维度评价

Select

39. 自编码器动态主导融合的多模态情感分析

杨溪, 郭军军, 严海宁, 谭凯文, 相艳, 余正涛

计算机工程与应用 2024, 60 (6): 180-187. DOI: 10.3778/j.issn.1002-8331.2211-0010

摘要（47）

PDF（pc）（562KB）（58）

多模态情感分析过程中，对情感判定起主导作用的模态常常是动态变化的。传统多模态情感分析方法中通常仅以文本为主导模态，而忽略了由于模态之间的差异性造成不同时刻主导模态的变化。针对如何在各个时刻动态选取主导模态的问题，提出一种自编码器动态主导融合的多模态情感分析方法。该方法首先对单模态编码并获得多模态融合特征，再利用自编码器将其表征到共享空间内；在此空间内衡量单模态特征与融合模态特征的相关程度，在各个时刻动态地选取相关程度最大的模态作为该时刻的主导模态；最后，利用主导模态引导多模态信息融合，得到多模态鲁棒性表征。在多模态情感分析基准数据集CMU-MOSI上进行广泛实验，实验结果表明提出方法的有效性，并且优于大多数现有最先进的多模态情感分析方法。

参考文献 | 相关文章 | 多维度评价

Select

40. 融合多特征及协同注意力的医学命名实体识别

刘歆宁

计算机工程与应用 2024, 60 (6): 188-198. DOI: 10.3778/j.issn.1002-8331.2211-0094

摘要（42）

PDF（pc）（707KB）（50）

针对当前中文医疗命名实体识别中未融合医学领域文本独有的特征信息导致实体识别准确率无法有效提升的情况，及单注意力机制影响实体分类效果的问题，提出一种基于多特征融合和协同注意力机制的中文医疗命名实体识别方法。利用预训练模型得到原始医学文本的向量表示，再利用双向门控循环神经网络（BiGRU）获取字粒度的特征向量。结合医疗领域命名实体鲜明的部首特征，利用迭代膨胀卷积神经网络（IDCNN）提取部首级别的特征向量。使用协同注意力网络（co-attention network）整合特征向量，生成<文字-部首>对的双相关特征，再利用条件随机场（CRF）输出实体识别结果。实验结果表明，在CCKS数据集上，相较于其他的实体识别模型能取得更高的准确率、召回率和F1值，同时虽然增加了识别模型的复杂程度，但性能并没有明显的降低。

参考文献 | 相关文章 | 多维度评价

栏目文章信息