Quantcast
Channel: 英特尔开发人员专区文章
Viewing all articles
Browse latest Browse all 583

在英特尔® 至强融核™ 协处理器上微调矢量化和内存流量:对小型矩阵进行 LU 分解

$
0
0

作者:Andrey Vladimirov(Colfax International)

之前已经讨论了有关微调基于英特尔® 至强融核™ 协处理器应用的自动矢量化循环性能的常用技术,这些技术包括强度折减、调整矢量化模式、数据对齐、对齐数据提示和指示器消歧。还展示了内存流量调优的循环分块技术。以下示例阐述了优化方法,该示例对 128×128 尺寸的单精度矩阵进行单线程 LU 分解。

性能指标评测显示,优化后的协处理器性能比未经优化的代码提升了 2.8 倍,多核主机系统的性能提升了 1.7 倍,主机和协处理器的性能大致相同。

可以通过以下链接免费下载文中涉及的代码 https://github.com/ColfaxResearch/LU-decomposition


Viewing all articles
Browse latest Browse all 583

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>