作者:Andrey Vladimirov(Colfax International)
之前已经讨论了有关微调基于英特尔® 至强融核™ 协处理器应用的自动矢量化循环性能的常用技术,这些技术包括强度折减、调整矢量化模式、数据对齐、对齐数据提示和指示器消歧。还展示了内存流量调优的循环分块技术。以下示例阐述了优化方法,该示例对 128×128 尺寸的单精度矩阵进行单线程 LU 分解。
性能指标评测显示,优化后的协处理器性能比未经优化的代码提升了 2.8 倍,多核主机系统的性能提升了 1.7 倍,主机和协处理器的性能大致相同。
可以通过以下链接免费下载文中涉及的代码 https://github.com/ColfaxResearch/LU-decomposition