Tensorflow | CineNeural

OpenEBS-For-MinIO

架构

Automate Analyse Covid 19 XRay Image by DeepLearning

动画程式代码如下: lung-3D.nb lung3d = AnatomyPlot3D[lung anatomical structure, PlotTheme->"XRay"] gif = {}; Do[ image = ImageResize[ Show[lung3d, ViewPoint -> {3 Cos[x], 3 Sin[x], 0}, ViewAngle -> 20 Degree], {256, 256}]; gif = Append[gif, image], {x, 0, 2 Pi, 0.1}] Export["lung-3D.gif", gif, "AnimationRepetitions" -> Infinity ] image = ImageResize[ Show[lung3d, ViewPoint -> {3 Cos[Pi/2], 3 Sin[Pi/2], 0}, ViewAngle -> 20 Degree], {512, 512}] 训练集收集 covid-chestxray-dataset paultimothymooney/chest-xray-pneumonia muhammedtalo/COVID-19 Labeled Optical Coherence Tomography (OCT) and Chest X-Ray Images for Classification ...

TF-MPI-分布式训练

Horovod 之前写过一篇文章讨论如何使用TF2.0自带的分布式训练系统，在树莓派4上建立分布式训练集群。然而这里会有一个缺陷，我们需要在每一个节点上去启动写好的训练程式，等全部启动之后，整个分布式训练才会开始运作，那么能否通过MPI消息传递接口来完成分布式的训练，答案就在Uber开发的Horovod，MPI主要用在超算领域，在树莓上搭建MPI集群，第一个可以用来学习超算上的分布式计算，第二可以在实际中观察TF在ARMv8上进行分布式训练的性能。回顾 horovod的开发可以从研究这篇论文开始Horovod: fast and easy distributed deep learning in Tensorflow 一般常见的分布式并行处理有两种，一种是数据并行，一种是模型并行，这个在之前的文章中讨论过，数据并行的优势是相对简单的。数据并行流程: 在每个节点上分发拷贝模型代码并运行每个节点读取数据集开始训练根据损失函数计算模型的梯度合并每个节点所计算得到的梯度值，计算出新的平均梯度根据计算得到的新梯度，更新每个节点上模型的参数和权重重复上述过程早期TF的分布式训练为PS架构，Worker训练模型，将获得的梯度发往parameter server，PS服务将收集到的数据进行均值化处理，开发人员需要在每台节点上启动Worker和PS，然后TF通过服务发现机制接入整个训练集群，这样就会出现两个瓶颈。当只有一台PS服务时，会出现PS负载过高的情况当有多台PS和多台Worker时，训练的瓶颈会出现在网络带宽层面接下来就有了Ring-All-Reduce算法: 每个Worker节点连在一起形成闭环，通过以下算法将所有节点的梯度值的聚合存储在worker节点上: (->代表将数值传递到下一个worker节点，k代表数组号) 在MPI消息接口中，已经实现了AllReduce功能，MPICH MPI_Allreduce，程式中关于梯度的均值计算就只需要一个AllReduce()操作，然后再将得到的新梯度重新传递给每一个Worker。使用horovod只需要在程式中增加horovod初始化和基于MPI的optimizer更新论文中关于使用ring-allreduce和之前原版本TF性能利用率对比图: 以下所有分布式训练均可在树莓派4集群上完成。训练MNIST LeNet代码如下: #!/bin/env python3 # -*- coding: utf-8 -*- """ Spyder Editor This is a temporary script file. """ import numpy as np import tensorflow as tf from tensorflow import keras import horovod.tensorflow.keras as hvd hvd.init() // horovod 初始化 mnist = keras.datasets.mnist (x_train, y_train), (x_test, y_test) = mnist.load_data() x_train, x_test = x_train / 255.0, x_test / 255.0 x_train,x_test = np.expand_dims(x_train, axis=3), np.expand_dims(x_test, axis=3) model = keras.models.Sequential([ keras.layers.Conv2D(32, 3, padding='same', activation='relu',input_shape=(28,28,1)), keras.layers.MaxPool2D(2), keras.layers.Conv2D(64, 3, padding='same',activation='relu'), keras.layers.MaxPool2D((2)), keras.layers.Flatten(), keras.layers.Dense(512, activation='relu'), keras.layers.Dense(10, activation='softmax')]) opt = tf.optimizers.Adam(0.001 * hvd.size()) opt = hvd.DistributedOptimizer(opt) // 增加分布式的优化器 model.compile(optimizer=opt,loss='sparse_categorical_crossentropy', metrics=['accuracy']) callbacks = [ hvd.callbacks.BroadcastGlobalVariablesCallback(0), ] if hvd.rank() == 0: callbacks.append(keras.callbacks.ModelCheckpoint('./checkpoint-{epoch}.h5')) model.fit(x_train, y_train,steps_per_epoch=500, callbacks=callbacks, epochs=20, verbose=1 if hvd.rank() == 0 else 0) MPICH 版本构建镜像 Dockerfile ...

RaspberryPis Tensorflow 分布式训练1

为什么目前自己采购了35块树莓派4core4G用来计算Rosetta@home，等到COVID-2019过去之后，会用这些开发板测试TF项目，因为TF的生态链齐全，所以在工业上会考虑使用TF来做为最终的产品技术使用方案。未来的趋势会面向边缘计算领域，像自动驾驶，智能家居，家庭医疗辅助系统，农业生产，制造业零部件质量检测，工业机械磨损检测等等，都会考虑到数据的实时接受和传输，还有计算成本，在机器学习上，如果依靠云计算平台，去辅助上述这些项目，那么就需要考虑本地到服务中心的网络，带宽延迟，数据安全性，计算实时性的问题。如果依托边缘计算，采用工业的微控制器，在微控制器上部署模型以及Tensorflow Lite用于模型的推演，在本地解决计算高可用问题，无需将数据传递到公网上，减少带宽的消耗，从而降低计算成本。 Tensorflow aarch64 源码构建安装依赖 apt-get install libatlas3-base libopenblas-dev libopenblas-base libblas-dev gcc gfortran python3-dev libgfortran5 g++ libhdf5-dev libfreetype-dev build-essential openjdk-11-jdk zip unzip python3-h5py python3-numpy python3-pip sudo pip3 install keras_preprocessing keras_applications 安装 Bazel install-compile-bootstrap-unix bazel 官方未给出arm64架构的二进制文件，所以需要自己手工编译下载 bazel-2.0.0-dist.zip 运行 EXTRA_BAZEL_ARGS="--host_javabase=@local_jdk//:jdk" bash ./compile.sh 拷贝 output/bazel 到 /usr/local/bin/hazel 编译 Tensorflow Raspberry pi 4B 上安装的系统是Ubuntu 20.04 ARM64架构，Python Version: 3.8，Tensorflow官方未给出对应版本的python whl安装包，所以需要自己手动从源码构建 git clone https://github.com/tensorflow/tensorflow.git git checkout v2.2.0 ./configure 配置选项编译操作之前需要增加swap分区，4G系统内存编译是完全不够的，建议swap设置6G 最好能够单独增加一块USB3转SATA的移动硬盘用来单独增加SWAP分区 fallocate -l 6G /swapfile chmod 0600 /swapfile mkswap /swapfile swapon /swapfile 执行编译操作 bazel build --config=noaws --config=nogcp --config=nohdfs --config=nonccl --config=monolithic --config=v2 --local_cpu_resources=3 //tensorflow/tools/pip_package:build_pip_package 由于是直接在4核4G的Raspberry pi 上构建，所以需要耐心等待，编译时间大概在 15 - 25 小时之间 ☕️☕️☕️ 编译完成之后执行构建pip安装包 bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg tensorflow-2.2.0-cp38-cp38-linux_aarch64.whl 安装包构建完成最后执行 pip install tensorflow-2.2.0-cp38-cp38-linux_aarch64.whl TF 测试使用官方的最简MNIST教程中的代码 ...