展开全部

主编推荐语

重点介绍如何利用目前主流的C语言的各种特定硬件或平台的向量化扩展、并行化库,来设计性能优良的向量化和并行代码。

内容简介

本书系统、深入讲解了科学计算及企业级应用的并行优化方法与最佳实践。第1章介绍了常见的并行编程基于的多核/众核向量处理器架构。第2章介绍了如何在X86、ARM和GPU上优化常见的线性代数运算。第3章介绍了如何在X86和GPU处理器上优化偏微分方程的求解。第4章介绍了如何在X86处理器和GPU上优化常见的分子动力学算法。第5章详细介绍了如何在X86、ARM和GPU上优化常见的机器学习算法。

目录

  • 版权信息
  • 前言
  • 第1章 多核向量处理器架构
  • 1.1 众核系统结构
  • 1.2 众核架构的一致性
  • 1.3 多核向量处理器架构
  • 1.3.1 Intel Haswell CPU架构
  • 1.3.2 ARM A15多核向量处理器架构
  • 1.3.3 AMD GCN GPU架构
  • 1.3.4 NVIDIA Kepler和Maxwell GPU架构
  • 1.4 Intel MIC架构
  • 1.4.1 整体架构
  • 1.4.2 计算单元
  • 1.4.3 存储器单元
  • 1.4.4 MIC架构上一些容易成为瓶颈的设计
  • 1.5 OpenCL程序在多核向量处理器上的映射
  • 1.5.1 OpenCL程序在多核向量CPU上的映射
  • 1.5.2 OpenCL程序在NVIDIA GPU上的映射
  • 1.5.3 OpenCL程序在AMD GCN上的映射
  • 1.6 OpenCL程序在各众核硬件上执行的区别
  • 1.7 众核编程模式
  • 1.8 众核性能优化
  • 1.9 MIC和GPU编程比较
  • 1.10 本章小结
  • 第2章 常见线性代数算法优化
  • 2.1 稀疏矩阵与向量乘法
  • 2.1.1 稀疏矩阵的存储格式
  • 2.1.2 CSR格式稀疏矩阵与向量乘法
  • 2.1.3 ELL格式稀疏矩阵与向量乘
  • 2.2 对称矩阵与向量乘积
  • 2.2.1 串行代码
  • 2.2.2 向量化对称矩阵与向量乘积
  • 2.2.3 OpenMP并行化
  • 2.2.4 CUDA代码
  • 2.3 三角线性方程组的解法
  • 2.3.1 串行算法
  • 2.3.2 串行算法优化
  • 2.3.3 AVX优化实现
  • 2.3.4 NEON优化实现
  • 2.3.5 如何提高并行度
  • 2.3.6 CUDA算法实现
  • 2.4 矩阵乘法
  • 2.4.1 AVX指令计算矩阵乘法
  • 2.4.2 NEON指令计算矩阵乘法
  • 2.4.3 GPU计算矩阵乘法
  • 2.5 本章小结
  • 第3章 优化偏微分方程的数值解法
  • 3.1 热传递问题
  • 3.1.1 C代码及性能
  • 3.1.2 OpenMP代码及性能
  • 3.1.3 OpenACC代码及性能
  • 3.1.4 CUDA代码
  • 3.2 简单三维Stencil
  • 3.2.1 串行实现
  • 3.2.2 Stencil在X86处理器上实现的困境
  • 3.2.3 CUDA实现
  • 3.3 本章小结
  • 第4章 优化分子动力学算法
  • 4.1 简单搜索的实现
  • 4.1.1 串行代码
  • 4.1.2 向量化实现分析
  • 4.1.3 OpenMP实现
  • 4.1.4 CUDA实现
  • 4.2 范德华力计算
  • 4.2.1 串行实现
  • 4.2.2 向量化实现分析
  • 4.2.3 OpenMP实现
  • 4.2.4 CUDA实现
  • 4.2.5 如何提高缓存的利用
  • 4.3 键长伸缩力计算
  • 4.3.1 串行实现
  • 4.3.2 向量化实现
  • 4.3.3 OpenMP实现
  • 4.3.4 CUDA实现
  • 4.4 径向分布函数计算
  • 4.4.1 串行实现
  • 4.4.2 向量化实现
  • 4.4.3 OpenMP实现
  • 4.4.4 CUDA实现
  • 4.5 本章小结
  • 第5章 机器学习算法
  • 5.1 k-means算法
  • 5.1.1 计算流程
  • 5.1.2 计算元素所属分类
  • 5.1.3 更新分类中心
  • 5.1.4 入口函数
  • 5.2 KNN算法
  • 5.2.1 计算步骤
  • 5.2.2 相似度计算
  • 5.2.3 求前k个相似度最大元素
  • 5.2.4 统计所属分类
  • 5.3 二维卷积
  • 5.3.1 X86实现
  • 5.3.2 ARM实现
  • 5.3.3 CUDA实现
  • 5.4 四维卷积
  • 5.4.1 X86实现
  • 5.4.2 ARM实现
  • 5.4.3 CUDA实现
  • 5.5 多GPU并行优化深度学习软件Caffe
  • 5.5.1 为什么要使用多GPU并行Caffe
  • 5.5.2 AlexNet示例
  • 5.5.3 Caffe的主要计算流程
  • 5.5.4 多GPU并行卷积神经网络的方式
  • 5.5.5 多GPU并行Caffe实践
  • 5.6 本章小结
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

机械工业出版社有限公司

机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。