自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(120)
  • 收藏
  • 关注

原创 scala & spark调优

https://blog.csdn.net/lovehuangjiaju

2019-08-16 15:14:02 169

原创 刷oj 刷oj

https://blog.csdn.net/code4101/article/details/40748663我的知乎刷题收藏专栏QQacfun群http://exp-blog.com/2018/06/28/pid-38/ 二分图的最大匹配 (匈牙利算法) 未做最大流的增广路算法(压入重标法、KM算法) 未做不要在乎名次,掌握思维方式,才是最重要的...

2019-06-14 03:20:49 470

原创 scala 裸写 json

手写简单的json,可以用"""框起来def TestJson(): Unit = { val campaign_id = 1 val cid = 2 print( s"""{"campaign_id":$campaign_id, "cid":$cid}""" )}用转义字符报错s"{\"campaign_id\":$campaign_id, \"cohort_id\":$cohort_id}"';' expected but string literal .

2022-02-28 21:43:10 307

原创 markdown写作note

最近写东西用markdown了,一些基本的操作记录如下:Markdown文本样式(加粗、斜体、下划线、删除线、高亮、下标/上标)https://blog.csdn.net/zgdwxp/article/details/103156841Markdown插入表格语法https://www.jianshu.com/p/2df05f279331/...

2021-03-12 15:31:28 221

原创 tensorflow 分布式训练

一文说清楚Tensorflow分布式训练必备知识 - 杨旭东的文章 - 知乎 https://zhuanlan.zhihu.com/p/56991108

2021-01-05 11:45:25 197

原创 tensorflow 梯度freeze整理

面试的时候问了如何freeze 梯度,感觉自己tensorflow梯度处理这块很不熟,整理一下:optimizer.minimize函数是结合了两个函数:1. compute_gradients 2. apply_gradientscompute_gradients主要传入 loss和trainable_variables(这里就可以把freeze的参数过滤掉)apply_gradients 传入 (grads_and_vars)的pair listtf.losses.add..

2020-12-28 18:45:26 412 1

原创 fix Spark RDD生成成功,但是dump失败问题

最近碰到一个很奇葩的问题,RDD成功产生(rdd.take(100).mkstring("\n")成功打出),但是dump到hdfs失败,报如下的错误org.apache.parquet.io.InvalidRecordException: could not get child 3 from [GroupColumnIO user r:0 d:1 [user], GroupColumnIO items r:0 d:1 [items], PrimitiveColumnIO expId r:0 d:1

2020-12-04 17:08:04 165

原创 对训练样本分布不均的思考

背景最近自己做一个游戏激活&付款预测的比赛,正负样本极其不均衡正样本:51969 负样本:87529147867(875亿+)和同事讨论之后+查资料之后,对正负样本不均有了一些新的理解。最后的理解样本的正负不均衡和模型学不好没有一定的联系。对于正负样本不均衡,但是正负样本都足够多的情况,模型还是可以学好的。可能数量巨多的那一类会过拟合。对于某类样本不够多的情况,需要提高该类权重或者新增该类样本。对于某类样本绝对多,并且噪声大的情况,对该类样本负采样,会减...

2020-11-21 10:29:18 1893

转载 Lombok的使用详解

Lombok的使用详解(最详尽的解释,覆盖讲解所有可用注解),解决@Builder.Default默认值问题https://www.cnblogs.com/shihaiming/p/11392983.html

2020-10-30 16:22:01 181 1

原创 tf.nn.fixed_unigram_candidate_sampler解释

最近看GraphSage的代码,发现了一个函数tf.nn.fixed_unigram_candidate_sampler理解这个函数的难点主要在:num_true、range_max, 这两个参数上,直接上代码吧import tensorflow as tfdef test1(): vec = tf.constant([[1, 2, 3, 4, 6]], dtype=tf.int64) # vec = tf.reshape(vec, [-1, 1]) """ .

2020-10-28 10:06:09 740

原创 online learning

最近有在上线 ftrl; 有篇文章先markhttps://tech.meituan.com/2016/04/21/online-learning.html

2020-10-10 14:27:53 127

原创 对xgboost、lightgbm面向面试题的理解

intro:最近在公司做项目,用xgboost、lightgbm分析特征重要性,做个baseline,正好写下对xgboost和lightgbm最新的理解Chap01:正好看到一道面试题:我面试候选人时必问的一个问题GBDT中的梯度是什么对什么的梯度? 给一个有m个样本,n维特征的数据集,如果用LR算法,那么梯度是几维? 同样的m*n数据集,如果用GBDT,那么梯度是几维?m维?n维?m*n维?或者是与树的深度有关?或者与树的叶子节点的个数有关?就这样一个简单的问题,面试过2位数的

2020-08-13 19:34:30 503

原创 scikit-learn 数据预处理

https://www.jianshu.com/p/580688e4a069

2020-07-29 10:12:44 439

原创 pandas数据处理实战记录

1. 不要用drop来删除dataframe中的某列,直接del df[col]

2020-07-13 20:51:34 143

原创 微平均 宏平均 微平均(准确率、召回率、f1-score相等) 以及 TP、TN、FP、FN的理解

一种计算方法是把所有类别的一次性都考虑进来,计算类别预测的准确率。(微平均)另外还有一种是对每个类别分开考虑,计算单独每个类别的准确率,最后再进行算术平均得到该测试集的准确率。(宏平均)其中微平均 recall = precise = f1-score 无论是二分类还是多分类, 因为要统计所有的类别, 所以TP为各个类别分对的数目的总和, FP= FN 为各个类别分错数目的总和,recall = precise = 正确分类 / (正确分类 + 错误分类)https://zhuanlan..

2020-07-08 14:54:55 3465

原创 ​​​​SettingwithCopyWarning: 如何在pandas中解决这个问题

中文全文翻译:https://zhuanlan.zhihu.com/p/41202576英文原文:https://www.dataquest.io/blog/settingwithcopywarning/

2020-06-19 16:31:13 141

原创 推荐算法比赛内存不足处理办法

我直接扩大虚拟内存了,就是磁盘容量来增加swap内存大小, 我扩大到了50ghttps://www.linuxidc.com/Linux/2018-10/154708.htm最近买了一个CentOS的云主机,因为贫穷限制了我购买的内存大小,只有500M,所以导致物理内存经常处于饱和状态,无奈虚拟内存设置的只有132M,理论上讲虚拟内存应该要有物理内存的2倍也就是1G大小才够用!又由于我安装其他工具,提示我内存不足,所以想用提高虚拟内存的方法去安装这个软件,本来都已经安装完了,今天我手贱把L.

2020-06-18 14:24:36 406

原创 第二届易观算法大赛——性别年龄预测

https://www.tinymind.cn/competitions/43一、 数据类型(1) 设备数据:每个设备上的应用安装列表,设备应用名都进行了hash处理【deviceid_packages.tsv】deviceid 安装设备id列表 00009270c4ec26e1d76f5d86847009c9 1896072db9ce6406febfc17f681c2086,90cb852cf345e04d508fe03f74089183,8c8544b6c129ad4a431

2020-06-17 10:47:33 779

原创 [机器学习] 调参工具

一、 种类网格搜索、随机搜索、贝叶斯搜索二、Hyperopthttps://www.jianshu.com/p/35eed1567463

2020-06-14 17:37:40 222

原创 Maven conflict插件安装

idea pom右键没有依赖分析,于是:1. 装了maven helper这个插件(Settings→Plugins)2. restart idea3.在IntelliJ中打开项目的pom.xml文件,在文件编辑器的左下方,会看到两个tab,一个是“Text”,另一个是“Dependency Analyzer”:4.可以remove或者exclude了...

2020-05-16 12:36:34 359

原创 [工作]堆外内存泄露分析,进程内存远超申请堆大小

最近工作中碰到了内存泄漏的问题emmm, 这曲线还真挺恐怖的。分析&解决过程:一、 为啥没有fullGCps -ef 看了下虚拟机参数,发现堆空间就开了8g,这曲线都涨到14g了,问了下同事,曲线显示的是进程内存(堆内内存+堆外内存),所以下面就分别看下堆内内存和堆外内存的情况了。二、 堆内内存的情况1. 先理解下内存模型内存模型// https:/...

2020-04-28 17:08:14 545

原创 [工作]内存泄漏分析

1. JProfile安装2.ps -ef | grep ai-dialog-guide-history3.jmap -dump:format=b,file=ai-dialog-guide-history.shenh.heap.hprof 444869attention: 不要加live(live子选项是可选的,假如指定live选项,那么只输出活的对象到文件.)http...

2020-04-26 15:05:10 281

原创 pandas中loc-iloc-ix的使用

1.pandas中loc-iloc-ix的使用https://www.jianshu.com/p/d6a9845a0a342、ix函数(0.20.0版本后已经弃用)ix就是一种混合索引,字符串的标签和证书的数据索引都可以作为合法输入,其实相当于loc和iloc的一个混合方法:test_dict_df.ix['Alice']test_dict_df.ix[1]上述...

2020-04-22 21:51:52 242

原创 Retrofit2

你真的会用Retrofit2吗?Retrofit2完全教程https://www.jianshu.com/p/308f3c54abdd/

2020-04-04 16:34:28 146

原创 gson 教程

你真的会用Gson吗?Gson使用指南(一) https://www.jianshu.com/p/e740196225a4

2020-04-04 16:24:55 199

原创 HashMap -> HashTable、SynchronizedMap -> CocurrentHashMap

做项目,有个多线程写入map的操作,做个笔记:1.漫画:什么是HashMap?https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653191907&idx=1&sn=876860c5a9a6710ead5dd8de37403ffc&chksm=8c990c39bbee852f71c9dfc587f...

2020-04-03 15:16:05 142

原创 Maven属性(properties)标签的使用

https://www.cnblogs.com/cuiqq/p/11023886.html1.Maven属性是值占位符,如Ant中的属性。它们的值可以通过使用符号${X}在POM中的任何位置访问,其中X是属性。2.当然除了在pom.xml使用自定义属性外,还可以在properties文件中使用,比如项目文件src/main/resources/jdbc.properties3.${p...

2020-04-03 10:04:56 444

转载 SVM hinge loss 理解

常见的损失函数(loss function)总结 - yyHaker的文章 - 知乎 https://zhuanlan.zhihu.com/p/58883095

2020-03-26 09:21:52 355

原创 tensorflow-server

Tensorflow Serving的从0到1 - 高清的文章 - 知乎 https://zhuanlan.zhihu.com/p/80658574

2020-03-21 18:38:27 264

转载 【转】maven Failure to find xxx in 中央仓库

转自https://blog.csdn.net/FU250/article/details/84400426问题描述,本地仓库有该jar包,但是中央仓库没有该包,mvn编译时一直报如右错误:Failure to find com.sun:jai_codec:jar:1.1.3 in https://repo.maven.apache.org/maven2 was cached i...

2020-03-18 21:10:07 2944

原创 自定义tensorflow optimizer

https://www.ctolib.com/luochuwei-Custom-Optimizer-in-TensorFlow.html

2020-03-13 14:00:25 923

原创 机器学习优化算法

这几天做一个推荐的项目,优化方法突然很重要,自己一直也没重视,知乎了几篇机器学习界有一群炼丹师,他们每天的日常是:拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。作者:Juliuszh链接...

2020-03-13 11:40:31 196

原创 tensorflow SessionRunHook MonitoredTrainingSession

Hook? tf.train.SessionRunHook()介绍【精】https://blog.csdn.net/mrr1ght/article/details/81011280tf.train.MonitoredTrainingSession()解析【精】https://blog.csdn.net/mrr1ght/article/details/81006343cla...

2020-03-11 17:26:35 337

原创 rsync 使用

rsync -aP --rsh=ssh user@ip:***(src) ***(dst)

2020-03-07 16:52:31 216

转载 maven打包时加入依赖的包

<?xml version="1.0" encoding="UTF-8"?><project xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://maven.apache.org/POM/4.0.0" xsi:schemaLocation="http://m...

2020-03-05 15:37:14 267

原创 jupyter notebook 没有创建的conda kernel

进入对应的虚拟环境,然后 conda install nb_conda 就可以了

2019-10-15 17:30:31 490

原创 数据挖掘竞赛资料

数据挖掘比赛通用框架http://www.cbdio.com/BigData/2016-08/16/content_5187960.htm手把手带你入门和实践特征工程的万字笔记(附代码下载)https://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247486476&idx=1&sn=dad421fd939dd...

2019-09-30 10:49:44 219

转载 GDT,LDT,GDTR,LDTR 详解,包你理解透彻

一、引入保护模式下的段寄存器 由 16位的选择器 与 64位的段描述符寄存器 构成段描述符寄存器: 存储段描述符选择器:存储段描述符的索引段寄存器PS:原先实模式下的各个段寄存器作为保护模式下的段选择器,80486中有6个(即CS,SS,DS,ES,FS,GS)80位的段寄存器。由选择器CS对应表示的段仍为代码段,选择器SS对应表示的段仍为堆栈段。二、详解先说明一下...

2019-09-28 17:46:41 389

转载 五一干货资料整理,在学习上的劳动才是最好的劳动! (包括:ML、DL、RL、Paper、NLP、CV、KG等)

https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247486557&idx=1&sn=5e2575a87a25e553408cfa5d54ffa4fe&chksm=eb5018cedc2791d82b5ed79d6d4ff5ba0ffe7b7258b852c2a5b16ddf4b649184597df23...

2019-09-27 14:42:34 741

转载 java的栈和堆

栈与堆都是Java用来在Ram中存放数据的地方。与C++不同,Java自动管理栈和堆,程序员不能直接地设置栈或堆。Java 的堆是一个运行时数据区,类的(对象从中分配空间。这些对象通过new、newarray、anewarray和multianewarray等指令建立,它们不需要程序代码来显式的释放。堆是由垃圾回收来负责的,堆的优势是可以动态地分配内存大小,生存期也不必事先告诉编译器,因为它是在...

2019-09-25 09:44:29 169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除