工学 >>> 计算机科学技术 >>> 计算机系统结构 >>> 并行处理 >>>
搜索结果: 1-15 共查到知识库 并行处理相关记录110条 . 查询时间(3.518 秒)
分布式水文模型中的逐栅格汇流算法计算量大,需要借助并行计算以满足大流域长历时模拟的要求。针对目前鲜有对基于隐式有限差分的逐栅格汇流算法进行并行计算研究的情况,基于栅格分层的思想提出一种适用于共享内存并行计算环境的逐栅格汇流并行算法。该算法首先根据流向进行栅格分层,使同一层中栅格的计算相互独立,然后将同一层中栅格的计算任务分配到多个计算单元并行计算。采用C++编程语言与OpenMP并行编程库实现了该...
Parallelizing compilers do not handle loops in a satisfactory manner. Fine-grain transformations capture irregular parallelism inside a loop body not amenable to coarser approaches but have limited ab...
Optimal Loop Parallelization     Optimal Loop  Parallelization       2016/5/25
Parallelizing compilers promise to exploit the parallelism available in a given program, particularly parallelism that is too low-level or irregular to be expressed by hand in an algorithm.
We describe two novel constructs for programming parallel machines with multi-level memory hierarchies: call-up, which allows a child task to invoke computation on its parent, and spawn, which spawns ...
We present a technique for automatically adding fine-grain locking to an abstract data type that is implemented using a dynamic forest —i.e., the data structures may be mutated,even to the point of vi...
We describe an approach for synthesizing data representations for concurrent programs. Our compiler takes as input a program written using concurrent relations and synthesizes a representation of the ...
针对水声目标实测数据量庞大,LOFAR和DEMON分析计算量大的问题,设计了一个基于Visual C++ 6.0的数据库管理系统。管理系统通过ADO接口实现与SQL Server 2005数据库管理程序的数据交换,保证了数据稳定存储和高效传输。通过内存映射文件技术,实现了对大数据文件的快速读取。采用CPU与GPU并行计算进行了LOFAR和DEMON分析,实现了LOFAR和DEMON谱图的实时显示。...
随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIM...
利用CUDA Fortran语言发展了基于图形处理器(GPU)的计算流体力学可压缩湍流求解器。该求解器基于结构网格有限体积法,空间离散采用AUSMPW+格式,湍流模型为k-ω SST两方程模型,采用MPI实现并行计算。针对最新的GPU架构,讨论了通量计算的优化方法及GPU计算与PCIe数据传输、MPI通信重叠的多GPU并行算法。进行了超声速进气道及空天飞机等算例的数值模拟以验证GPU在大网格量情况...
高光谱影像降维快速独立成分分析过程包含大规模矩阵运算和大量迭代计算。通过分析算法热点,设计协方差矩阵计算、白化处理、ICA迭代和IC变换等关键热点的图像处理单元映射方案,提出并实现一种G-FastICA并行算法,并基于GPU架构研究算法优化策略。实验结果显示:在处理高光谱影像降维时,CPU/GPU异构系统能获得比CPU更高效的性能,G-FastICA算法比串行最高可获得72倍加速比,比16核CPU...
对多区结构网格大规模CFD流场模拟的高效并行方法进行了研究,以天河超级计算机平台的CPU同构计算环境和CPU+MIC异构计算环境为例,重点讨论了CFD应用特点与超级计算机运行环境相适应的性能优化与改进策略,发展了一系列多层次并行与性能优化方法.通过在天河2高性能计算平台上进行了多个算例的数值模拟,验证了这些优化方法的并行效果;在CPU+MIC异构平台上模拟的最大CFD问题规模达到6800亿个网格单...
针对光滑粒子动力学主要计算量是近邻粒子搜索这一特点,提出了一种基于粒子分解的光滑粒子动力学并行计算方案。利用该方案可以方便地将任意串行光滑粒子动力学代码并行计算,而且每一个时间步内的信息传递量只和粒子总数有关,而和粒子的分布无关,因而特别适合于自由表面流动等大变形问题的并行数值模拟。对一个粒子总数为40万的三维溃坝问题的模拟结果表明:此方案能达到的最大加速比约为16,这一结果可能比空间分解方案(不...
科学计算产生和分析的数据规模日益增长,高性能计算机的存储系统在体系架构和软件管理方法上面临重大挑战。针对天河-2系统的新型分层混合存储架构,提出一种由应用程序耦合的协同式突发缓冲技术来有效利用其存储资源优势。该方法采用运行时动态耦合的方法,将临近计算任务的分布式高速存储资源聚合成为一个的巨大的协同式突发缓冲区,通过采用文件命名空间投影的映射方法组织全局数据视图,利用位置亲和和感知数据意图的方法来挖...
求解布尔不可满足子式在超大规模集成电路设计与验证领域都具有非常重要的理论与应用价值,帮助EDA工具迅速定位错误与不一致。针对求解不可满足子式的非完全方法,提出了消解悖论与悖论解析树的概念,在此基础上提出一种启发式局部搜索算法。该算法根据公式的消解规则,采用局部搜索过程直接构造证明不可满足性的悖论解析树,而后递归搜索得到不可满足子式;算法中融合了布尔推理技术、动态剪枝方法及蕴含消除方法以提高搜索效率...

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...