4 roxxo

尚未进行身份认证

暂无相关简介

等级
TA的排名 10w+

解决TF训练提示 Not using XLA:CPU for cluster

训练时一直未太关注该搞错,启动训练后报警提示如下,了解了下XLA的设置,对性能有一定提升, 于是尝试解决 W tensorflow/compiler/jit/mark_for_compilation_pass.cc:1412] (One-time warning): Not using XLA:CPU for cluster because envvar TF_XLA_FLAGS=--tf_xla_cpu_global_jit was not set. If you want XLA:CPU, ei..

2020-05-19 10:01:39

解决docker 无法启动

容器一启动后 就宕机,这个问题第一次遇到查看日志主要报 ,ExecStart=/usr/bin/dockerd (code=exited, status=0/SUCCESS)试了很多办法仍然报,重装了docker,居然还是起不来最后想起来,把开机进入系统后自动挂载nfs的 链接去掉后,再重启机器,终于起来了之前的一容器环境挂载多个nfs 网盘,可能没释放导致 ,这一天天的各种坑...

2020-05-07 14:07:58

解决dockers无法启动

记录一下 折腾了一天 一台服务器跑代码崩了 重启后,dockers无法使用, 启动docker 报Job for docker.service failed because the control process exited with error code. See "systemctl status docker.service" and "journalctl -xe" for de...

2020-04-28 08:51:35

解决容器外操作copy 报no such file or directory

容器外操作copy 命令如下nvidia-docker exec -i contain-name cp -r xxxx1/* xxx2/cp: cannot stat 'xxx/*': No such file or directory进入容器内 按此命令 操作拷贝正常将* 替换为.命令更改为如下nvidia-docker exec -i ...

2020-04-24 11:25:49

解决 ImportError: Extension horovod.tensorflow has not been built

在使用horovod autotune 功能 ,提示 horovodrun: error: unrecognized arguments: --autotune --autotune-log-filehorovod -h 查看 确实没有autotunehorovod -v查看 版本 0.16.1于是 按照相关命令HOROVOD_GPU_ALLREDUCE=...

2020-04-21 14:17:41

使用分布式框架horovod 未能提升加速训练

使用分布式框架horovod ,初步使用了单机多卡 ,跑测的estimator, 数据集大概十几个分类,1万张照照片,调用4个gpu从图里看出训练时长17个小时左右 ,与之前单机单卡训练时长和准确率没有太大区别,浪费资源啊!看了horvord的训练模式,分别起了4个进程,而不是一个进程该操作 与TF 的experimental.MultiWorkerMirroredStrateg...

2020-04-21 09:40:47

一台ubuntu服务器不慎将kernal 删除,恢复过程

记录一下,一台ubuntu服务器不慎将keral 删除,恢复过程一、系统启动 后 如下报错Kernel panic - not syncing: VFS: Unable to mount root fs on unknown-block(0,0)重启后,选择一内核,按E, 进入grub,发现现有内核都缺失 对应的initrd-image -xxx 镜像,系统是无法直接进...

2020-04-13 11:07:51

k8s 环境 系统日志 报 Unable to allocate memory on node -1

k8s 中一容器 始终占用显卡不释放,相关占用显卡进程已 kill 通过dmesg 查看 报 Unable to allocate memory on node -1 ,治标不治本的办法 重启对应的容器通过搜索 要最终解决该问题, 当前系统内核 4.4.0-xxxx 该版本问题,导致k8s上出问题,解决办法升级ubuntu 系统内核,该内核升级不要手动随意下载一高版本de...

2020-04-13 10:38:14

解决分布式训练 报terminate called after throwing an instance of 'std::length_error'

在进行分布式进行训练,INFO:tensorflow:Reduce to /replica:0/task:0/device:CPU:0 then broadcast to ('/replica:0/task:0/device:CPU:0',).I0408 04:01:41.507015 140706188736256 cross_device_ops.py:427] Reduce to /r...

2020-04-08 13:14:46

解决 cuda10 环境上 tf.test.is_gpu_available() 为false

.升级Tensorflow 1.15 以及 cuda10,进行分布式训练 ,发现gpu 内存都只占用 145M,开始测试单个卡也是145M,使用如下简单测试下gpu是否能调用import tensorflow as tfimport osos.environ['CUDA_VISIBLE_DEVICES'] = "1"print(tf.test.is_gpu_available())...

2020-03-27 11:56:53

解决k8s集群环境 容器组 报 network: open /run/flannel/subnet.env: no such file or directory

k8s集群环境 由于机器显卡故障,导致节点连接失败,出现大量1000多个 pending 容器, 查看容器容器组里 报 network is not ready: [runtime network not ready: NetworkReady=false reason:NetworkPluginNotReady message:docker: network plugin i...

2020-03-26 10:21:30

解决module 'dlib' has no attribute 'load_rgb_image'

在生成相关图片的过程中 ,提示module 'dlib' has no attribute 'load_rgb_image'默认环境的dlib版本需升级解决办法 1.pipuninstalled dlib 2.pip install dlib

2020-02-14 16:32:16

基于k8s PyTorch 共享内存设置

基于k8s PyTorch 共享内存设置 提高gpu的使用 在文件中按如下格式加入 volumeMounts: - name: dshm mountPath: /dev/shm volumes: - name: dshm emptyDir: medium: Memory...

2020-01-10 10:44:37

解决 k8s集群环境 安装显卡驱动报 An NVIDIA kernel module 'nvidia' appears to already be loaded

k8s集群环境 下一台 linux‘ 服务器上使用如下命令 卸载驱动sudo apt-get purge nvidia-*重启后 安装显卡仍报如下错An NVIDIA kernel module 'nvidia' appears to already be loaded in your kernel. This may be because it is in...

2020-01-09 15:10:21

安装指定版本kubelet kubeadm kubectl

添加同步源add-apt-repositorycat <<EOF >/etc/apt/sources.list.d/kubernetes.listdeb https://mirrors.aliyun.com/kubernetes/apt/ kubernetes-xenial mainEOF更新安装apt-get updateapt-get install -...

2019-11-19 17:11:26

解决重装nvidia驱动报错

今天一台机器 重装nvidia驱动报错,在卸载环节 折腾了半天,报如下错nvidia-primeE: Sub-process /usr/bin/dpkg returned an error code (1)再网上看 在卸载nvidia-prime时 一文件无法重命名Purging configuration files for nvidia-prime (0.8.2) ......

2019-11-04 14:56:24

解决 ImportError: cannot import name 'tf_utils'

使用keras运行时报cannotimportname'tf_utils'keras默认版本高,安装pip3installkeras==2.2.0解决

2019-10-14 16:37:03

解决nvidia驱动 安装 报'nvidia-drm'问题

参考该博文https://blog.csdn.net/fdqw_sph/article/details/78745375一台ubuntu 16.04 机器重装显卡驱动,查看linux 版本内核 username -a进入对应内核路径cd /lib/modules/4.4.0-83-generic/kernel/drivers/gpu/drm/nouveau sudo rm...

2019-10-12 13:33:26

解决TFServeing 模型预测不准确

TFServeing进行模型预测,模型导出部署后,通过grpc方式访问预测,返回的值君一样通过对模型训练、client脚本、数据转换多方定位,发送数据应该没有问题,模型本身也没问题,准确率都很高,以及都能按照格式返回预测结果最后定位到导出模型中使用的serving_input_fn(): 函数中features 定义的有问题如果你的模型预测不准,可参考...

2019-07-25 13:52:52

解决 grpc模型预测 Please switch to GA gRPC API in prediction_service_pb2_grpc.

参考 文章https://blog.csdn.net/shin627077/article/details/78592729 调试TFServing模型预测grpc模型测试 调用相关函数过期调用过程中报错 DeprecationWarning: beta_create_PredictionService_stub() method is deprecated. This me...

2019-07-08 16:19:31

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。