栏目文章信息

    大数据与云计算 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 利用图神经网络的互补产品推荐
    倪伟竣, 纪淑娟, 梁永全
    计算机工程与应用    2024, 60 (10): 292-300.   DOI: 10.3778/j.issn.1002-8331.2304-0222
    摘要11)      PDF(pc) (3709KB)(7)    收藏
    互补产品推荐可以提供互补搭配的产品,为用户提供便利。然而现有使用图神经网络的工作忽视了产品的多模态信息,以及多模态模型在模态信息缺失时性能会受到影响。现有多模态模型只是将模态简单拼接,忽略了模态间的联系。因此,提出了一种利用图神经网络的互补产品推荐模型(complementary product recommendation using graph neural network,CPRUG)。该模型将图神经网络与多模态信息结合,强化产品的表征;利用图注意力网络,应对多模态缺失问题,维持模型的性能,提高模型的鲁棒性;使用共同注意力机制和矩阵分解双线性池化方法来融合多模态特征,学习产品的互补关系。在Amazon数据集上进行了实验,实验结果表明,模型的性能优于其他基线模型。
    参考文献 | 相关文章 | 多维度评价
    2. 混合动作空间下的多设备边缘计算卸载方法
    张冀, 齐国梁, 朵春红, 龚雯雯
    计算机工程与应用    2024, 60 (10): 301-310.   DOI: 10.3778/j.issn.1002-8331.2304-0194
    摘要11)      PDF(pc) (4350KB)(5)    收藏
    为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep determination policy gradient,H-MADDPG)。首先考虑物联网设备/服务器计算能力随负载的动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件,建立MEC系统模型;其次以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后将问题以马尔科夫决策过程(Markov decision procession,MDP)的形式交付给H-MADDPG,在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度进行观察,H-MADDPG系统整体回报优于Local、OffLoad和DDPG,在计算密集型的任务需求下也能保持更大的系统吞吐量。
    参考文献 | 相关文章 | 多维度评价
    3. 主动式微服务细粒度弹性缩放算法研究
    彭凯, 马芳玲, 徐博, 郭佳璐, 胡梦兰
    计算机工程与应用    2024, 60 (8): 274-286.   DOI: 10.3778/j.issn.1002-8331.2303-0543
    摘要17)      PDF(pc) (876KB)(25)    收藏
    微服务架构已成为云数据中心的基本服务架构。但目前关于微服务系统弹性缩放的研究大多是基于服务或实例级别的水平缩放,忽略了能够充分利用单台服务器资源的细粒度垂直缩放,从而导致资源浪费。为此,设计了主动式微服务细粒度弹性缩放算法。算法通过预测请求到达率对系统进行资源预配置。基于预测结果,应用平方根配置规则计算需求资源数量,进而利用垂直缩放的细粒度资源控制特性和水平缩放的高可用性对微服务进行伸缩。应用基于微服务依赖关系的实例迁移算法进一步降低资源开销。实验结果表明,提出的算法在优化微服务系统时延和开销方面取得了显著效果。
    参考文献 | 相关文章 | 多维度评价
    4. 融合自注意力和图卷积的多视图群组推荐
    王永贵, 王芯茹
    计算机工程与应用    2024, 60 (8): 287-295.   DOI: 10.3778/j.issn.1002-8331.2304-0035
    摘要21)      PDF(pc) (604KB)(29)    收藏
    为了解决大多数现有的群组推荐仅仅从群组和用户的单一交互中学习群组表示,以及固定融合策略难以动态调整权重的问题。提出了一种融合自注意力和图卷积的多视图群组推荐模型(MVGR),设计了成员级、项目级和组级三个不同的视图,来捕捉群组、用户和项目三者之间的高阶交互信息,缓解数据稀疏问题,增强群组表示建模过程;对于项目级视图,利用基于二分图的图卷积神经网络来学习群组偏好向量以及项目嵌入;进一步提出了自适应融合组件来动态调整不同视图权重,得到最终的群组偏好向量。在两个真实数据集上的实验结果表明,与基线模型相比,MVGR模型的命中率(HR)和归一化折损累计增益(NDCG)在Mafengwo数据集上平均提高了8.89个百分点和1.56个百分点,在CAMRa2011数据集上平均提高了2.79个百分点和2.7个百分点。
    参考文献 | 相关文章 | 多维度评价
    5. 协作处理任务的多无人机辅助移动边缘计算
    曹慧娟, 余庚花, 陈志刚
    计算机工程与应用    2024, 60 (4): 298-305.   DOI: 10.3778/j.issn.1002-8331.2301-0145
    摘要59)      PDF(pc) (2281KB)(45)    收藏
    随着通信技术的发展,移动边缘计算(mobile edge computing, MEC)被认为是处理计算密集型和延迟敏感任务的关键技术,然而在灾难响应、紧急救援等情景中,边缘服务器无法快速部署并提供任务处理服务。无人机(unmanned aerial vehicle, UAV)辅助MEC以其部署简便、机动性强的特点受到关注。但是UAV的计算资源和能量有限,如何进行资源分配成为难题。针对该问题,提出了一种高效利用资源的多UAV协作策略(LUAVs-Cor)。该策略通过多UAV协作的方式动态处理任务,为了充分利用UAV空闲的计算资源,通过搜索最优任务组合的方式确定任务传输策略。此外,通过估计UAV处理能力、任务数量及处理情况优化UAV派遣数量,实现了UAV的动态部署并减少了能量消耗。通过大量仿真实验得出,LUAVs-Cor策略的服务容量提升了约6.8%,UAV整体能耗降低了10.3%。提出的LUAVs-Cor策略中无人机的协作代价较小,实现在较低的能耗代价下为更多用户服务。
    参考文献 | 相关文章 | 多维度评价
    6. 多任务联合学习的图卷积神经网络推荐
    王永贵, 邹赫宇
    计算机工程与应用    2024, 60 (4): 306-314.   DOI: 10.3778/j.issn.1002-8331.2303-0508
    摘要53)      PDF(pc) (2409KB)(39)    收藏
    基于图神经网络的协同过滤推荐可以更有效地挖掘用户项目之间的交互信息,但其性能依然受到数据稀疏和表征学习质量不高问题的影响,因此提出一种多任务联合学习的图卷积神经网络推荐(multi-task joint learning for graph convolutional neural network recommendations, MTJL-GCN)模型。利用图神经网络在用户-项目交互图上所聚集到的同质结构信息与初始嵌入信息形成结构邻居关系,设计节点邻居关系的对比学习辅助任务来缓解数据稀疏问题;向节点的原始表征添加随机的统一噪声进行表征级数据增强,构建节点表征关系的对比学习辅助任务,并提出直接优化对齐性和均匀性两个属性的学习目标来提高表征学习质量;将图协同过滤推荐任务与对比学习辅助任务和直接优化学习目标进行联合训练,从而提升推荐性能。在Amazon-books和Yelp2018两个公开数据集上进行实验,该模型在Recall@k和NDCG@k两个推荐性能指标上的表现均优于基线模型,证明了MTJL-GCN模型的有效性。
    参考文献 | 相关文章 | 多维度评价
    7. 融合时间感知与兴趣偏好的推荐模型研究
    唐潘, 汪学明
    计算机工程与应用    2023, 59 (24): 268-276.   DOI: 10.3778/j.issn.1002-8331.2212-0386
    摘要48)      PDF(pc) (644KB)(32)    收藏
    针对传统的推荐模型无法挖掘用户细粒度兴趣偏好的问题,提出了一种融合时间感知与兴趣偏好的推荐模型(TAIP)。在TAIP模型中,将用户交互的时间间隔信息作为辅助信息引入到序列嵌入矩阵中,并设计多尺度时序卷积网络与通道和空间注意力机制精准地提取细粒度短期偏好,同时采用Transformer编码器挖掘目标项目与用户兴趣之间的长期偏好,最后利用全连接网络实现全局特征融合提供推荐。在公开数据集MovieLens-1M和YELP上进行实验,实验结果表明TAIP模型在HR、NDCG和MRR评价指标上相较于其他模型至少提升了4.84%和1.38%,具有更佳的推荐性能,验证了TAIP模型的有效性。
    参考文献 | 相关文章 | 多维度评价
    8. 以CodeBERT为基础的代码分类研究
    成思强, 刘建勋, 彭珍连, 曹奔
    计算机工程与应用    2023, 59 (24): 277-288.   DOI: 10.3778/j.issn.1002-8331.2209-0402
    摘要77)      PDF(pc) (702KB)(63)    收藏
    随着代码大数据的不断发展,代码库中的源代码数量逐渐增长。如何快速有效地对代码库中的代码进行分类管理,对软件工程的发展具有十分重要的意义。第一次将预训练模型引入代码分类研究,并提出了一种优化的代码分类方法CBBCC。CBBCC采用wordpiece对源代码进行数据预处理。采用CodeBERT预训练模型对源代码进行特征表征。在预训练模型的基础上进行分类任务的微调。为了验证所提模型的有效性,在POJ104数据集上进行实验分析。实验结果表明,相对于7种基准模型,CBBCC模型各项分类指标都在98%以上。其中准确率上比目前最优模型提高了1.1个百分点,达到了POJ104代码分类数据集上分类任务的SOTA值。CBBCC能有效地对代码进行标注,提高对开源社区源代码的管理,促进软件工程领域的发展。
    参考文献 | 相关文章 | 多维度评价
    9. 领域对抗自适应的短任务负载预测模型
    刘春红, 焦洁, 王敬雄, 李为丽, 张俊娜
    计算机工程与应用    2023, 59 (24): 289-297.   DOI: 10.3778/j.issn.1002-8331.2211-0036
    摘要21)      PDF(pc) (817KB)(25)    收藏
    负载预测的精度是影响云平台弹性资源管理的主要因素之一。而云平台中存在着大量的短任务负载序列,其历史信息不足和不平滑的特性导致难以选择合适的模型进行精准预测。对此提出了一种领域对抗自适应的短任务负载预测模型。该模型采用奇异谱分析(singular spectrum analysis,SSA)对样本进行平滑处理;联合第四版本的Mueen相似度搜索算法(the fourth version of Mueen’s algorithm for similarity search,MASS_V4)与时间特征进行域间相似性计算,获得合适的源域数据来辅助迁移预测;将门控循环单元(gated recurrent unit,GRU)作为基准器构建网络,并利用Y差异定义新的损失函数,通过对抗过程建立出表征能力强的短任务负载预测模型。将所提方法在两个真实的云平台数据集上与其他常用的云负载预测算法对比,均表现出较高的预测精度。
    参考文献 | 相关文章 | 多维度评价
    10. 边缘计算中多服务器协同任务缓存策略
    马世雄, 葛海波, 宋兴
    计算机工程与应用    2023, 59 (20): 245-253.   DOI: 10.3778/j.issn.1002-8331.2211-0238
    摘要68)      PDF(pc) (690KB)(58)    收藏
    针对边缘服务器有限的计算、存储资源与大量用户任务请求之间的矛盾,设计了基于多服务器协同的边缘计算任务缓存网络架构,该架构中边缘服务器可以在内存中缓存并执行用户任务,未缓存的任务放在云端执行。结合用户任务请求时变和邻近区域用户更倾向于请求相似任务的特点,提出一种基于改进Soft Actor-Critic的多服务器协同任务缓存算法(MSAC)。该算法以最小化用户平均任务执行时延为目标,为避免反复选择同一动作而收敛于局部最优,引入最大熵模型来鼓励边缘服务器探索最优动作。通过设计经验共享机制,收集并学习本地边缘服务器和相邻服务器的经验以优化任务缓存策略。仿真结果表明,与最高流行度算法、独立SAC算法、DQN算法、遗传算法相比,所提出的MSAC算法在降低用户任务平均执行时延方面的效果最好。
    参考文献 | 相关文章 | 多维度评价
    11. 结合微聚类和主动学习的流分类方法
    尹春勇, 陈双双
    计算机工程与应用    2023, 59 (20): 254-265.   DOI: 10.3778/j.issn.1002-8331.2210-0230
    摘要30)      PDF(pc) (1058KB)(31)    收藏
    数据流分类是数据挖掘中重要的研究内容,但是数据流中的概念漂移和标记成本昂贵的问题给分类带来了巨大的挑战。现有的研究工作大多采用基于主动学习的在线分类技术,一定程度上缓解了概念漂移和有限标签的问题,但是这些方法的分类效率较低,并且忽略了内存开销的问题。针对这些问题提出了一种结合微聚类和主动学习的流分类方法(a data stream classification method combining micro-clustering and active learning,CALC)。提出一种新的主动学习混合查询策略,将其与基于错误的表示学习相结合,从而在维护过程中衡量每个微聚类的重要性,通过动态维护一组微聚类以适应数据流中产生的概念漂移。采用基于微聚类的惰性学习方法,实现对数据流的分类,并完成对缓存微聚类的在线更新。使用三个真实数据集和三个人工合成数据集进行实验,结果显示CALC在分类准确率和内存开销方面优于现有的数据流分类算法。与基准模型(online reliable semi-supervised learning on evolving data streams,ORSL)相比,CALC的分类准确率有一定的提升,在六个数据集上的平均准确率分别提高了5.07、2.41、1.04、1.03、3.47、0.64个百分点。
    参考文献 | 相关文章 | 多维度评价
    12. HDFS分级存储系统元数据管理方法的研究
    刘晓宇, 夏立斌, 姜晓巍, 孙功星
    计算机工程与应用    2023, 59 (17): 257-265.   DOI: 10.3778/j.issn.1002-8331.2211-0230
    摘要67)      PDF(pc) (5727KB)(32)    收藏
    随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有异构存储研究不支持磁带库存储,无法满足高能物理Hadoop平台海量实验数据持久化和备份过程对于存储系统高性价比的需求。针对上述问题,为了构建支持磁盘-磁带存储的HDFS分级存储系统,使磁带层文件在HDFS中无缝融合,为用户提供统一的文件系统命名空间,调研了分布式文件系统元数据管理方法,在此基础上设计实现了HDFS分级存储系统中统一的元数据管理方法。该方法通过重新设计内存文件元数据结构,构建分级存储系统统一的内存目录树并实现其访问管理和可靠性保障,完成分级存储系统中不同层级文件元数据的集中统一管理。测试结果表明,该方法实现了分级存储系统异构资源上文件元数据的统一管理,提供了高效的元数据操作。基于该方法构建的分级存储系统可靠性高,在对不同规模大小的文件读写时,其读写吞吐量较优于高能物理领域传统分级存储系统EOSCTA。
    参考文献 | 相关文章 | 多维度评价
    13. 融合关系感知与时间注意的时序知识图谱补全
    许智宏, 毛琛, 王利琴, 董永峰
    计算机工程与应用    2023, 59 (17): 266-274.   DOI: 10.3778/j.issn.1002-8331.2210-0266
    摘要68)      PDF(pc) (3433KB)(51)    收藏
    针对现有时序知识图谱补全方法大多将时间信息内嵌于三元组中,依赖静态知识图谱补全方法学习实体特征,无法全面考虑图谱结构信息和时序信息的问题,提出一种融合关系感知与时间注意的时序知识图谱补全方法(incorporating relational awareness and temporal attention for temporal knowledge graph completion,RATA)。一方面,通过引入关系感知聚合机制的图卷积神经网络集成实体和关系特征,特定于关系的参数可以增强消息函数的表达能力,封装更加丰富的邻域上下文信息;另一方面,使用融合自注意力机制的长短期记忆网络学习蕴含在时序数据中的全局特征和局部特征。在ICEWS18、ICEWS14、YAGO和WIKI数据集上的实验结果表明,RATA模型在MRR、Hits@1、Hits@3和Hits@10上普遍优于基线模型,在大规模时序数据集上具有优势。
    参考文献 | 相关文章 | 多维度评价
    14. 微服务架构磁带库存储系统设计与实现
    刘晓宇, 夏立斌, 姜晓巍, 孙功星
    计算机工程与应用    2023, 59 (15): 253-263.   DOI: 10.3778/j.issn.1002-8331.2206-0067
    摘要81)      PDF(pc) (777KB)(61)    收藏
    建立具有磁带存储层的HDFS分级存储系统是完善高能物理领域Hadoop生态系统的重要部分,但高能物理领域传统的磁带存储管理系统(如Castor、CTA)上层不支持HDFS磁盘存储,并且随着高能物理数据量的急剧增长、互联网技术的不断发展和用户需求的迅猛变化,传统的磁带存储管理系统逐渐呈现出系统扩展、负载均衡、开发和运维成本上升等方面的问题。设计开发了基于微服务架构的磁带存储管理系统。该系统向上支持HDFS磁盘存储,将磁带库资源管理、文件传输、磁带读写等功能以微服务的形式分布到各个服务实例中,达到分散服务压力的目的,并且系统针对传统负载算法效率不佳的问题,实现了基于服务器响应指数的负载均衡算法,通过根据自定义参数计算得到的服务器响应指数对其进行排序,保证将用户请求调度到响应指数最高的服务器进行处理。实验结果表明,磁带库存储系统满足HDFS文件分级存储磁带层管理的需求,提出的基于服务器响应指数的负载均衡算法相较于轮询算法,系统归档性能高出6%以上,提取性能高出64%以上;相较于随机算法,系统归档性能高出9%以上,提取性能高出64%以上,最终实现的磁带库存储系统表明,与传统的系统相比,微服务体系结构能够实现系统中组件的解耦和分布式负载的平衡,在系统开发和运维等方面更为便捷。
    参考文献 | 相关文章 | 多维度评价
    15. 融合社交信息的多图神经网络会话推荐方法
    雷景生, 李冉, 杨胜英, 史文彬
    计算机工程与应用    2023, 59 (15): 264-273.   DOI: 10.3778/j.issn.1002-8331.2209-0083
    摘要51)      PDF(pc) (647KB)(35)    收藏
    在推荐系统中,用户对于项目的兴趣是动态变化的且会受到自身历史行为以及朋友行为等多种因素的影响。而如何对用户的动态兴趣以及社交关系进行共同建模一直是推荐算法的一个挑战。通过将用户的行为分割为会话序列,并建模为全局图来探索用户的动态兴趣。之后根据用户的社交关系构建社交关系图,再通过图注意力网络捕获用户社交关系的影响,动态确定每个朋友的影响力,并将用户的动态兴趣与朋友的社交影响结合以得到最终的推荐结果。算法在Douban、Delicious和Yelp数据集上进行了验证,相较最优的基线模型,算法在Douban数据集各项指标上提高超过6个百分点,在Delicious和Yelp数据集各项指标上提高超过3个百分点,证明了算法的有效性。
    参考文献 | 相关文章 | 多维度评价
    16. 基于图卷积自注意力机制的神经协同推荐算法
    王巍, 杜雨晅, 郑小丽, 张闯
    计算机工程与应用    2023, 59 (13): 247-258.   DOI: 10.3778/j.issn.1002-8331.2206-0190
    摘要86)      PDF(pc) (826KB)(88)    收藏
    随着信息技术的快速迭代发展,信息过载问题日益严重,推荐算法在一定程度上可以解决信息过载,但是传统推荐算法无法有效解决数据稀疏性和推荐准确性等相关问题。提出一种基于注意力的图卷积神经协同推荐方法(GCACF)。获取用户和项目的相关交互信息,并将其转换为相应的特征向量;将特征向量使用图卷积神经网络的传播方式聚合本地化信息,同时使用注意力机制重新分配聚合后的权重系数;最后将聚合后的特征向量使用BPR损失函数优化相关参数并得出最终推荐结果。在MovieLens-1M和Amazon-baby两个公开数据集进行对比实验,结果表明,GCACF在准确率、召回率、Mrr、命中率和NDCG五个指标上均优于基线方法。
    参考文献 | 相关文章 | 多维度评价
    17. 使用图神经网络选择并行查询的执行计划
    陶温霞, 牛保宁, 柳浩楠
    计算机工程与应用    2023, 59 (13): 259-265.   DOI: 10.3778/j.issn.1002-8331.2208-0300
    摘要70)      PDF(pc) (521KB)(39)    收藏
    查询作为数据库系统(database system,DBS)占比最大的操作,其效率在很大程度上影响着DBS的性能,为查询选择一个较优的执行计划、提高查询效率是提高DBS效率的关键。查询执行受到其他查询的影响产生查询交互(query interaction,QI),是查询优化器难以为并行查询选择较优执行计划的主要因素。提出一种以操作为单位表示查询执行计划的编码方式(features of plans based on operator,FPO),并用操作之间的数据共享关系以及资源竞争关系反映QI;在此基础上,提出基于图神经网络的查询执行计划选择模型(plan selection based on graph,PSG)。PSG将操作作为节点,操作特征作为节点特征,操作间的关系作为边,生成异构图,作为模型的输入;考虑到操作间的关系有多种、作用不同,使用关系图卷积网络(relational graph convolutional network,RGCN)聚合信息,得到查询组合的图表示,提取其QI,通过全连接层(fully connected layers,FC),为查询选择执行计划。在PostgreSQL上的实验表明,PSG的平均准确率比查询优化器提高了47.3个百分点。
    参考文献 | 相关文章 | 多维度评价