@lijiang

Sculpting in time

Do one thing and do it well.
Every story has a beginning and an end.

1 分钟

最近一周一直在优化自己结合论文和其他研究资料开发的Covid-Net,用于诊断Covid19的深度学习模型,在2万+的xRay数据集上训练得到的精度低于90%,为了能够达到更高的精度,自己尝试了改进模型和做数据集增强,但是还会有两个极端,要不就是精度达不到标准,要不就出现过拟合,自己的工作站用的显卡是P2000 5G,当模型越来越复杂时,显存明显会不够,于是狠了狠心,卖掉了DJI Inspire 2,用赚来的钱买了一张TITAN RTX 24G,然后继续优化模型,并增加训练的batch_size。

TF-MPI-分布式训练

Tensorflow基于MPI分布式训练

3 分钟

之前写过一篇文章讨论如何使用TF2.0自带的分布式训练系统,在树莓派4上建立分布式训练集群。然而这里会有一个缺陷,我们需要在每一个节点上去启动写好的训练程式,等全部启动之后,整个分布式训练才会开始运作,那么能否通过MPI消息传递接口来完成分布式的训练,答案就在Uber开发的Horovod,MPI主要用在超算领域,在树莓上搭建MPI集群,第一个可以用来学习超算上的分布式计算,第二可以在实际中观察TF在ARMv8上进行分布式训练的性能。

最新文章

分类

关于

Keep thinking, Stay curious
Always be sensitive to new things