自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

乱七八糟的笔记

优秀的博客很多了,这只是个笔记

  • 博客(316)
  • 资源 (2)
  • 收藏
  • 关注

原创 分布式运算白花钱警告:使用tensorflow分布式必须注意ps server空耗资源

为武汉祈祷。ps server 不会主动停止,无论在什么情况下。这个问题从2016年提出,到现在,也没有一个简洁干净的解决方式,而这个问题会很严重,如果你使用的是租用资源,会白白花费很多钱钱。我注意到,ps server不论是使用gpu还是cpu资源都不会主动停止,即使worker已经训练完停止了,甚至是遇到错误,ps server仍旧会运行。 这就会导致这个进程对节点资源的持续占有,即使...

2020-02-19 02:05:48 950 2

原创 几个小时 几行代码 简单 直白 tensorflow 分布式代码实战

北京又下雪了,这个2020年开启的方式太沉重了。我本人对tf并不精通。分布式听起来也很复杂。而且我要做的是将deeplabv3+的代码做成分布式的。也就是多个节点,相当于用两台服务器的gpu。听起来很麻烦,实际上居然很简单。而我自己也是花了几个小时从什么都不懂到代码跑起来。很多教程写了特别长的文字,我认为画图更简单。本教程尽量简短,好懂,并且有代码。只是基础教程,不能做到自创多GPU损失计...

2020-02-12 01:36:01 1069 9

原创 并行 云架构 深度框架 sbatch slurm 深度学习 tensorflow环境从搭建到使用 conda

有一定的GPU云时常可用,一个节点4个GPU,我本人决定使用anaconda搭建tensorflow1.13并且使用。anaconda是乙方提供的,使用bash命令可以加载module load anaconda/3.7加载后正常使用create命令建立环境详情见我所有conda标志的博客,其实就是下面一句代码,看明白就不用翻了。下面这句代码就从零开始建立了一个tensor...

2020-01-22 22:15:50 3013 2

原创 GPU有限,如何提高batch size

那么从:https://github.com/mathildor/DeepLab-v3/blob/master/g3doc/faq.mddeeplabv3+也是谷歌团队,tensorflow就是他们的产品。可以看到提高batch size 的方法。batchsize不仅对于batch normalization至关重要,而且梯度下降也需要一定的batchsize,比如batchsize...

2019-10-29 14:29:12 2291 1

原创 deeplab v3+ 代码 复现 简单 官方 voc2012

为了使local_test.sh顺利运行。代码来源于官方,就是论文作者:https://github.com/tensorflow/models/tree/master/research/deeplab那肯定是需要先下载代码的。1.安装slim工具包。很简单只需要两步,下载,安装。必须安装不然import net 会报错https://blog.csdn.net/u0132...

2019-08-27 10:52:10 4265 10

原创 deeplabv3+二:详细代码解读 data generator 数据生成器

3+支持三种数据库,voc2012,cityscapes,ade20k,代码文件夹-deeplab -datasets -data_generator.py在开始之前,始终记住,网络模型的输入是非常简单的image,规格化到[-1,1]或[0,1],或者数据扩增(水平翻转,随机裁剪,明暗变化,模糊),以及一个实施了相同数据扩增的label(毕竟需要pixe...

2019-07-23 15:50:45 3016

原创 keras data fit generator 数据生成器 多输入数据生成器 图片 分割 逐像素label 直观调试 生成图片

此处以keras为例。多数的深度学习方法都是支持批量yeild数据,而不是直接加载所有数据到内存。给一个对比:25512是未使用数据生成器的30777是使用数据生成器的。但是必须要说明的,GPU的内存是不会减少的,都是有多少用多少。给的多就多用,给的少就少用。那么首先给出原始教程:https://stanford.edu/~shervine/bl...

2019-05-21 15:56:25 2163 1

原创 本地windows的pycharm 使用远程anaconda虚拟环境环境跑代码

emmm,虽然vim直接写代码已经可以了,但是这也是另一种方式。本地用windows安装pycharm的企业版,然后把代码用服务器的anaconda创建的虚拟环境以及硬件跑。那么教程是两个部分,第一个部分是pycharm和远程连接,服务器啊,密码啊,文件夹什么的。第二个部分是配置远程环境。第一部分的教程第二部分的教程首先要打开你的项目,然后这个项目需要和你的本地目录一致。...

2019-04-24 20:57:36 9912 3

原创 十个原因可能导致 训练集明明很高,验证集,测试集 validation accuracy stuck 准确率 很低 损失不减小

损失函数一直在下降,为什么识别率上不去。1.最常见的原因:过拟合过拟合值得单独开个章节。主要包括1.数据量小,网络复杂2.learning rate 比较高,又没有设置任何防止过拟合的机制解决方法主要包括1.简化模型,利用现有深度学习手段增加数据(翻转,平移,随机裁剪,imgaug)2.利用 dropout层3.利用正则化2.你犯了错误:没有把数据规格化图片...

2019-04-19 10:07:29 100219 107

原创 overleaf latex 公式表格引用图片 一天全攻略 写文章基本够用

官网我发现笔记真的特别有用,尤其是你每天输入大量东西,你就会发现,你对上周的记忆都模糊了,更别说上个月了,所以我时不时会翻看自己写的教程。。。青年痴呆状态。所以工具教程我也开始写了。点击template,最上方的是测试版本。我们现在用的是老版本。点击之后挑选模板。我们现在选的是artical,academic journal选用选择open as a template.好了幼儿园教程结束。之后就...

2018-07-05 10:55:04 25747 3

原创 砖混结构自建房抗震指导(程序员无视)

现在国内大多是砖混结构,砖混结构是没有所谓的抗震的。设计院也只管你这个不会自然坍塌,人家不保证抗震的。而商业建筑框架结构又建不了(基本不接自建房)so,我研究了一下,没有中文资料是免费的,就收集下英文资料,提供给有需要的人。重要:强的高度不要超过厚度30倍,比如24cm厚的墙,不能超7.2米。如果开口超过1.5米就要两边搁柱子,上面梁要再下放与柱子结合。窗户和门不能全把空间打断,横纵向至少又一条连续墙。我真的是,盖个房还要扒国外论文看抗震。这个的图与内容,可以看全文。钢筋水泥墙体之间没有缝隙。

2023-04-09 20:49:09 225 1

原创 收集一些因果推断比较好的工具包,教程

4.casual ML(python包)包含了工具变量模型,以及两个深度模型。3.微软开发的因果方法包(超全)2.耶鲁大学教授课程全套。我看了一下内容,相当全。

2023-04-06 19:47:28 959

原创 因果推断-注意事项

混淆变量,我认为,辛普森悖论有可能被未观察到的混淆变量触发,所以在做模型的时候把这个因子考虑进去,或者控制其为常数。内生性问题,这个一般的解决方式是找个无关变量。

2023-03-22 18:00:09 205

原创 因果推断-指标

不做实验情况下最严格,比如TC在投放前完全重合,那就说明在未来一段时间也应该是重合的。这个不是来衡量TC相似度的,适用于一切没有TC的归因,比如沙普利值的计算,或者是MTA模型等。最水,说TC组是符合同一分布的,但是方差大的话,其实TC lift的误差就很大。属于终极绝招,不知道效果,随机分流试一下,绝对公平可信。

2023-03-22 17:55:03 517

原创 因果推断-最小二乘法

实操注意:如果交叉效果实在不显著,直接删除该项。比如ab一块干活到底有没有效果呢?最后发现,找不着规律,一会高一会低。数据要求:触点之间是正交的,不能是关联的,a干预和b干预没有因果关系。除了沙普利值外,也可以用最小二乘法来进行多触点归因。

2023-03-20 18:43:55 221

原创 因果推断-异质性分析

异质性分析 在因果推算

2023-03-17 17:29:49 662

原创 因果推断方法(一)合成控制

因果推断

2023-02-23 14:42:03 538

原创 京东数据挖掘工程师常用的 10多个 pandas 函数

sql,spark,用熟了,希望收集一下pandas dataframe常用的替代方式。df就是例子dataframeimport pandas as pd1.把column name转成 list[str]pandas: list(df)spark-scala: df.colums.toSeq()2.复制dfpd: df_new = df.copy()scala: df_new = df3. 列加减乘除常数pd: df['v'] = df['v']+1s

2022-03-17 18:42:46 3805

原创 scala spark sql 获得分组后的分位点

SELECT PERCENTILE(orders, 0.5) OVER (PARTITION BY deal_id, type) as per50, PERCENTILE(orders, 0.25) OVER (PARTITION BY deal_id, type) as per25, PERCENTILE(orders, 0.75) OVER (PARTITION BY deal_id, type) as per75,* from temp为了获得orders这个字段在每个deal_id,.

2022-03-03 14:15:04 2577

原创 spark scala 检查array list是否含有某个特定元素

比如我有个复杂的数组猫咪:cat = (('age'->4),('name'->'旺财'))我想知道猫咪数组是否记录了猫咪性别,我如果直接取cat('sex')取不到就会出错,所以我用contain方法:val sex = if(cat.contains('sex')) cat('sex') else ''...

2021-06-24 16:59:59 3254

原创 python 读取 csv 到numpy array

大多教程整一堆没有用的,先转成pandas dafaframe然后再巴拉巴拉,下面一句代码就够了:from numpy import genfromtxtmy_data = genfromtxt("/Users/2333/666.csv", delimiter=',')读取进来就是个二维数组:array([[ nan, nan, nan, nan, nan], [4.9321...

2021-05-26 11:47:49 4432 3

原创 spark scala 获取 json 列

写自定义目录标题第一种方式第二种方式比如数据Teacher有个 json列叫做information长这样, 有两个元素,我们想获取其中的name,让它成为一个独立的列:{‘name’: ‘tom’, '‘age’:33, …}第一种方式获取到json类型的information这个column里面的name,并且成为一个新的列,叫做name。import org.apache.spark.sql.functions.{get_json_object}Teacher.withColumn("nam

2021-05-26 11:46:28 706

原创 spark sql 读取 parquet 文件

你可以使用spark-sql -S启动 sql的 spark。CREATE TEMPORARY VIEW parquetTableUSING org.apache.spark.sql.parquetOPTIONS ( path "/user/data/dt=2020-09-09/")这行代码会从上述文件夹读取parquet文件,读取后的table就叫parquetTable可以使用:desc parquetTable;select * from parquetTable li

2020-11-15 16:04:44 1103

原创 mysql 自定义排序 ORDER BY FIELD 用法

本章解决自定义排序问题。比如,淘宝订单有三个状态:正在处理中,取消,已完成,想要自己的订单数据按照:1.处理中。2.已完成。3取消排序。下面的代码就实现了这一功能,自定义了status按照'In Process', 'On Hold', 'Cancelled','Resolved', 'Shipped'进行排序那么,Field遇到In Process返回的是1.On Hold则是2。以此类推。注意,如果没写全,比如:遇到Disputed会自动返回0....

2020-10-19 10:07:14 1102

原创 python 判断 hdfs 文件 目录 是否存在

很简单 filexistchk = "hadoop dfs -test -e " + hdfs_path + ";echo $?" filexistchk_output = subprocess.Popen(filexistchk, shell=True, stdout=subprocess.PIPE).communicate() if '1' not in str(filexistchk_output[0]): return 1 else:

2020-09-07 11:30:42 3387

原创 分布式 unknownError:Could not start gRPC server

这里要说一个比较偶然的错误,会导致worker都不停止。ps会输出unknownError:Could not start gRPC server.这是由于端口被占用,也就是类似于:节点名:2223 (比如192.18.49.1:2223,或者1:2223)其中2223就是端口。如果2223被什么占用了,那么worker跑完就不会停止。节点不释放,就会空耗资源,就会费钱。解决方法是开始跑程序就要注意ps的输出,如果提示了unknownError:Could not start gRPC

2020-08-20 11:05:49 1014

原创 pyspark 中文 colomn schema 列 改名

当列名是中文时,你引用该列的名字会报错。df.姓名#报error!!df.name #没有error所以需要使用 selectExpr改名df = spark.read.csv("./ex.csv").selectExpr("姓名 as name")df.name #不报错ref:https://stackoverflow.com/questions/34077353/how-to-change-dataframe-column-names-in-pyspark...

2020-08-16 15:22:25 969

原创 pyspark 筛选 null 行

如果某行数值是null,去掉这行,比如代码:df = df.filter(df.x2. isNotNull())+---+----+----+| x1| x2| x3 |+---+----+----+| a| b|null|| 1|null| 0 || 2| 2| 3 |+---+----+----+#去掉之后+---+----+----+| x1| x2| x3 |+---+----+----+| a| b|null|| 2|

2020-08-16 14:56:02 7100

原创 pySpark 读取csv文件

这个读取蛮水的。but从官网来的。from pyspark.sql import SparkSessionspark = SparkSession.builder \ .enableHiveSupport().getOrCreate()df = spark.read.csv("/tmp/resources/zipcodes.csv")df.printSchema()##可以得到root |-- _c0: string (nullable = true) |-- _c1: s.

2020-08-16 14:40:50 15176 2

原创 python CSV 文件读取 存储 例子

我想读取一个CSV文件,然后只取前几条数据,之后存储成为一个新的文件,代码很简单,注意看注释哦import csv#这个是我要读取的csv,文件名不一定携带csv也可以file_dir = "./666.c000"#这个是我要写入的write_name = "./csvSamples.csv"csvFile = open(file_dir,"r")csvFileS = open(write_name,"w")#读取reader = csv.DictReader(csvFile)f

2020-08-03 10:02:45 492

原创 如何上传PASCAL VOC 2012 test数据

pascal voc本质是个比赛数据库,所以test未公开,需要参赛者上传自己对测试图片的预测,官方服务器会给出你的mIOU。1.注册一个账号http://host.robots.ox.ac.uk:8080/2.找到你要参赛的名字,比如我选择了第二行的2012比赛,对应的也是PASCAL VOC2012数据库的图像。3.点击new submission4.其他东西随便填写,主要是Challenge要对:如果你要比2012年的测试数据选择 VOC2012如果是2012年的验

2020-06-11 15:24:25 3658 9

原创 RuntimeError: cuda runtime error (59) : device-side assert triggered when running

这个出现的原因是网络的维度对你的数据没有准备。比如,网络以为你label标签从0到50,结果你输入的数据既有-1,又有80. 或者在NLP里面,你的字典一共200个,但是你偏要就设置100个embed。...

2020-05-01 20:00:23 397

原创 adam 策略参数设置 torch tensorflow keras

TensorFlow: learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08.Keras: lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0. Blocks: learning_rate=0.002, beta1=0.9, beta2=0.999, epsilo...

2020-05-01 11:25:05 6249

原创 Attention is all you need 代码笔记

主要依据:http://jalammar.github.io/illustrated-transformer/写作原因:文章太长,我必须总结做笔记。也可以认为是翻译,但是没有原文详细(应该)所以有那里卡主,过不去,就去看看原文相应的地方。严格来讲我这个不能算做翻译。问题简述:利用attention机制进行语言翻译(可并行,不用RNN)。Self attentionembedding...

2020-04-27 23:21:16 807

原创 python3 字典建立三种方式 字母顺序字典

字典的建立:1.批量建立字典:import stringdict ={key:0 for key in string.ascii_lowercase }letter_count{'a': 0, 'b': 0, 'c': 0, 'd': 0, 'e': 0, 'f': 0, 'g': 0, 'h': 0, 'i': 0, 'j': 0, 'k': 0, 'l': 0, 'm'...

2020-04-11 19:47:47 1492

原创 python 3 四舍五入round 会倾向于偶数 很容易出错 round(0.5)=0

在四舍五入时,一般在pytho3都用round(x)比如round(0.1)=0,round(1,6)=2等但是round(0.5)却会返回0,即round(0.5)=0同时round(-0.5)=0官方的解释:https://docs.python.org/3/library/functions.html#roundz这是什么意思呢,就是所有的中间数...

2020-04-03 00:06:56 2005

原创 快速幂 python版本 特别漂亮的代码 递归

class Solution: def myPow(self, x: float, n: int) -> float: def subpow(x,n): if n == 0:return 1 if n == 1:return x result = subpow(x,n>>1) ...

2020-03-30 18:33:24 356

原创 超透彻解析leetcode有趣的题。287. Find the Duplicate Number

问题描述:找到重复数字。有n+1个位置[0,n],却取值是整数从[1,n]取,比如[1,2,3,4,5,1]由于序号从0开始,所以一共0,1,2,3,4,5.一定有一个重复数值。找到这个重复数值。Input: [1,3,4,2,2]Output: 2此处默认python数组,特点是序号从零开始。其实感觉除了matlab都是从零开始的。这个问题需要用o(1)的存储,以及o(n^2...

2020-03-25 02:24:14 294

原创 VOC2012服务器好像是停了? 好消息,5。5号又开了,尽快测试,不知道啥时候又会关了

是这样的,VOC2012的test数据未公布,所以只能上传服务器,可是最近服务器好像不工作了,不知道是不是疫情影响,还是怎么了?在7号大概还是好使的,目前突然不好使了。就在eccv投稿期还是好使的。真不是水啊,就是这个不好使的话,问题还是挺大的,不知道是不是我代码出问题了。那以前为啥好使?...

2020-03-14 13:03:08 453 4

原创 超实用看图片 matlab imshow(img,[]) 对应 代码 mat2gray() 灰度图像

其实主要是因为平时习惯用imshow(img,[]) 看一些 取值范围不在0-255内的图片。比如如果用imshow()而使用imshow(img,[])就可以了,因为会规格化0-255。但是没法批量操作。没什么可说的img_trans=mat2grey(img);即可将img转成能够保存成图片的样子。...

2020-03-12 18:05:54 2209

cityscape sets.rar

cityscape 数据库 详细标注的5000张图片, 分为了train val test三个集合,这个压缩包是train.txt+val.txt+test.txt, 文件名,类似于./cityscapes/leftImg8bit/val/frankfurt/frankfurt_000001_049209_leftImg8bit.png ./cityscapes/leftImg8bit/val/frankfurt/frankfurt_000001_042098_leftImg8bit.png

2019-10-15

C语言大学实用教程_苏小红版参考答案

C语言大学实用教程_苏小红版参考答案,哈工大计算机系

2014-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除