搜索结果: 1-15 共查到“工学 CUDA”相关记录18条 . 查询时间(0.125 秒)
基于CUDA实现经典功率谱估计
CUDA Matlab 经典功率谱 并行运算
2013/11/23
针对目前通常使用Matlab等软件调用CPU进行功率谱估计的现状,提出了一种借助于CUDA平台调用GPU并行计算功率谱的方法;根据经典功率谱估计方法的原理,实现了GPU进行功率谱估计,通过Matlab的C语言接口输出结果,并给出了程序执行流程;最后通过数据对比,显示了CUDA并行计算带来的性能优势。
基于MPI+CUDA的异构并行可压缩流求解器
消息传递接口 统一计算设备架构 异构计算 可压缩流
2016/6/6
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求...
基于MPI+CUDA的异构并行可压缩流求解器
消息传递接口 统一计算设备架构 异构计算 可压缩流
2016/7/14
在CPU/GPU异构体系结构计算集群上,建立了基于MPI+CUDA的异构并行可压缩流求解器。讨论了异构结构上的可压缩流并行算法的并行模式,在CPU上执行计算密集度低、指令复杂的计算任务,在GPU上执行计算密集度高、指令单一的计算任务。通过数个算例,对比了异构并行计算和传统CPU并行计算计算结果和计算效率。将该算法运用于高超声速流动的数值模拟中,数值结果显示,基于MPI+CUDA的异构并行可压缩流求...
基于CUDA的大型γ辐照装置通用并行排源算法
并行模拟植物生长算法 并行排源算法 GPU 大型&gamma 辐照装置
2013/4/19
本文利用CUDA执行模型实现了植物模拟生长算法的完全并行化,结合标准排源质量评价数学模型,得到了一种高效率的并行排源算法,对应的代码能运行在GPU上。在此基础上,利用若干不同规模的排源算例对新版本算法进行了测试。测试结果表明,在保持已有版本算法优点的基础上,新算法的计算效率相对CPU版本提升了500倍以上,相对CPU+GPU混合版本,也提升了30倍以上。对111 PBq以下装置,新算法的计算时间小...
转换波叠前时间偏移计算量巨大、耗费时间长,影响了多波多分量地震数据的处理效率,也限制了转换波技术在生产上的应用规模。目前转换波叠前时间偏移主要采取CPU集群计算方式,但CPU集群存在功耗大、占用空间大和维护成本高等缺点,为缩短偏移计算耗时和降低计算成本,本文提出一种基于CUDA技术的转换波Kirchhoff叠前时间偏移并行算法。应用理论数据和实际转换波数据在CPU和GPU测试平台对算法进行了对比验...
邻居搜索问题在CUDA上基于KD-TRIE方法的优化与实现
KD-TRIE k-最邻近结点算法 CUDA 图形处理器
2012/12/10
介绍如何在CUDA上搭建KD-TRIE,并对其进行搜索,使其能适应解决邻居搜索问题.实验结果表明,当搜索半径较小(如整个空间直径的0.01和0.001),数据规模较大(如106)时,使用KD-TRIE进行搜索的效果最佳,与蛮力算法相比可以达到加速比5 000~15 000倍的效果;当搜索半径较大时,加速比会相应减少.采取优化措施,可以提高加速比.
基于CUDA 的格子Boltzmann 方法: 算法设计与程序优化
格子Boltzmann 方法 CUDA 并行计算 GPU 优化
2013/8/29
格子Boltzmann 方法(LBM)由于其具有计算简单, 天然并行, 易于程序实现, 易于处理复杂边界等优点而成为流体建模和模拟的一种重要方法. LBM 的上述优点也使得其非常适合利用图形处理单元(graphic processing unit, GPU)进行大规模流体计算. 基于GPU 的CUDA(compute unified device architecture)编程平台, 首先设计了相...
基于GPGPU和CUDA的高速AES算法的实现和优化
通用图像处理器 统一计算架构 AES算法 并行计算
2011/12/27
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphic processing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified device architecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基...
基于CUDA的GPS信号快速捕获
GPS软件接收机 快速捕获 快速傅里叶变换 图形处理单元
2014/4/22
为实现基于PC平台的GPS软件接收机C/A码信号快速搜索,提出了一种由GPU完成信号搜索计算的快速实现方法。该方法以基于FFT的码相位并行搜索算法为基础,通过CUDA编程,由GPU完成主要的计算任务,实现了信号搜索在GPU上的并行计算。最后,将该方法与在CPU上实现的捕获方法进行了比较测试,结果表明:新方法的捕获速度显著提高,冷启动条件下,搜索全部32颗卫星只需1.653秒,为GPS软件接收机的实...
对MS-Alignment算法进行分析得出该算法很难满足大规模数据对鉴定速度的要求,而且具有的一个特点是相同的任务在不同的数据上重复计算,为数据划分提供了基础。基于CUDA编程模型使用图形处理器(GPU)对步骤数据库检索及候选肽段生成进行加速优化,设计了该步骤在单GPU上的实现方法。测试结果表明,此方法平均加速比为30倍以上,效果良好,可以满足蛋白质翻译后修饰鉴定中大规模数据快速计算的需求。
针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的汇流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法, 对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果表明,基于CUDA的汇流分析并...
基于CUDA的加速MATLAB计算研究
统一计算设备架构 MATLAB 加速计算
2010/8/25
介绍了NVIDIA公司新的编程框架CUDA的特点以及CUDA加速MATLAB的方法,测试了CUDA加速岩土工程中常用的算法如矩阵计算、快速傅里叶变换、支持向量机。随后分析了数据规模、算法复杂性与加速效果的关系,指出了基于CUDA的MATLAB加速计算的应用前景。测试结果表明,CUDA方式相对传统计算方式的最好加速效果分别达到了22.39倍、46.88倍、51.32倍,证明了CUDA加速计算的有效性...
基于CUDA的三维数据场航路规划方法
航路规划 统一计算设备架构(CUDA) 航路优化
2009/10/20
针对数据量庞大、复杂的三维数据场环境下航路规划速度偏低的问题,提出一种基于统一计算设备架构(CUDA)的三维数据场航路规划方法。该方法以三维水下声场为威胁模型,水下航行的潜艇为背景,运用CUDA对大规模数据场环境下对航路进行规划,对可并行计算部分与CUDA进行计算,仿真结果证明该方法可以提高规划速率、优化初始航路。
监控摄像机视频去隔行和CUDA加速
视频去隔行 GPU加速 CUDA 运动检测
2014/5/5
监控摄像机的隔行扫描是造成视频降质的重要因素,因此需要在进一步处理前对其进行去隔行。本文针对典型的视频监控场景,提出了一种快速有效的运动自适应去隔行算法。采用同极性4场运动检测法提取运动信息,将图像分为静止区域、运动区域和混合区域;对静止区域采用直接的场合并,对于运动区域采用改进的基于边缘的插值,混合区域则采用基于运动向量的加权平均。为提高算法的实时性,基于Nvidia 的CUDA技术对算法进行了...