记录一次tf-faster-rcnn代码强行升级环境的过程

作者: conner是位好少年 | 来源:发表于2019-07-23 16:37 被阅读0次

记录一次tf-faster-rcnn代码强行升级环境的过程
Faster R-CNN tensorflow版本，cpu下运行
Android Studio 3.2 JNI (ndk-buil
mac 升级(启动/卸载/安装)mysql
openfire升级记录
递进的异步代码升级过程
Elasticsearch 升级记录
CocoaPods安装过程小记
windows环境下spark 源码搭建和调试
Jenkins Gerrit trigger使用

因为处理量的增大，之前在本地linux上的一套tf-faster-rcnn的代码需要被移动到更高的环境下（之前是gtx1080ti的单显卡，目标机器是一台gtx titanv的双显卡），我本以为移动会很简单，但事实耗费了我两个小时的时间，这里记录一下移动过程中出现的问题，以及我的解决思路。
首先先声明一点，所有的问题都出在了版本不一致上。因为原机器的版本是cuda9+tensorflow_gpu的1.14版本，而新机器的版本是cuda10+tensorflow_gpu的2.0.0的beta版本。
正常移动，其实一点都不正常，因为我们线下线上的隔离性，导致scp是用不了的只能用samba来做，很麻烦，不过这里基本不会出问题，所以就跳过了。
移动完成之后出现了问题。

第一个问题：老生常谈的问题：

ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory

这个在之前的本地机器上就出现过这个问题，原因是cuda虽然安装好了，但是路径并没有放到我们的环境变量上，根据我之前的经验打开环境变量然后输入：export XXXXX
但是打开我的环境变量诶不对啊我的环境变量是有这个的啊

image.png

所以问题不在这里，进入我们的文件看一下/usr/local/cuda/lib64

ls一下如下：

image.png

这根本就没有libcudart.so.9.0这个文件，可恶！难道fasterrcnn不支持10.0吗？我可不想重新安装这麻烦的工具，去百度找找原因吧，经过搜索我发现没有谁用cuda10来跑fasterrcnn，怎么办。难道只能重新安装cuda9的版本吗？我可不想做那么麻烦的事情，因为安装可能要浪费我一天的时间，那何不把线上缺少的那个libcudart.so.9.0文件从本地拷贝过来？，反正报错说是缺少这一个文件啊。

image.png

拷贝完成后执行我要运行的python代码，忽然发现报错变了,代表这个是可以work的，喜极而泣啊。

转而开始观察新的错误

image.png

这是一个没有见过的错误，包不对，我忽然意识到tensorflow 2的版本和1.X版本好像很多api已经更换了。降级是不可能降级的，这辈子都不可能降级。于是我开始启动了一个虚拟环境来安装低版本的tensorflow（这不tm也是降级吗？）
cd venv
python -m venv Conner
source /data/venv/Conner/bin/activate
然后开始安装对应的包：
pip install Pillow
pip install easydict
pip install opencv-python
pip install keras
pip install matplotlib
然后再执行，ok！完美解决