什么是 BigDL?
BigDL 是一种面向 Apache Spark* 的分布式深度学习库, 用户可以通过 BigDL 将深度学习应用编写为标准的 Spark 程序,这些程序可以直接在 Spark 或 Hadoop 集群上运行。
- 丰富的深度学习支持。 BigDL 模仿Torch,为深度学习提供综合支持,包括数值计算(借助Tensor)和高级神经网络;此外,用户可以利用 BigDL 将预训练Caffe或Torch模型加载至 Spark 程序。
- 极高的性能。为了获得出色的性能,BigDL 将英特尔 MKL和多线程编程应用到每个 Spark 任务中。 因此,相比现成的开源Caffe、Torch和TensorFlow,BigDL 在单节点至强处理器上的运行速度高出多个数量级(即与主流 GPU 相当)。
- 高效的横向扩展。 BigDL 通过Apache Spark(一种极速分布式数据处理框架)实现高效横向扩展,执行“大数据规模”数据分析,在 Spark 上有效实施同步 SGD 和 all-reduce 通信。
为什么选择 BigDL?
如果在编写深度学习程序时面临如下情况,建议使用 BigDL:
- 在存储数据的大数据 (Hadoop/Spark) 集群(如 HDFS、HBase、Hive 等集群)中分析大量数据。
- 在大数据 (Spark) 程序和/或工作流程中添加深度学习功能(训练或预测)。
- 利用现有的 Hadoop/Spark 集群运行深度学习应用,随后与其他工作负载动态共享(例如 ETL、数据仓库、特性设计、经典机器学习、图形分析等等)。
如何使用 BigDL?
- 安装、创建 BigDL (在 Linux 和 macOS 上)
- 入门 - 了解如何运行 BigDL 程序(作为本地 Java 程序或 Spark 程序)
- 在 EC2 上试用 BigDL
- 教程 - 了解如何利用 BigDL 在几分钟时间内创建实用的神经网络
支持
- 加入BigDL 谷歌群组
- 订阅邮件列表(有关 BigDL 问题的讨论)
- 发布错误报告和特性请求