自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

蚂蚁搬家

记录自己的成长,最好还能帮助到他人

  • 博客(127)
  • 资源 (5)
  • 问答 (2)
  • 收藏
  • 关注

原创 IDEA卡顿问题处理

IDEA卡顿问题,排查了内存和CPU占用,确定了java bytecode compiler插件导致了CPU占用升高,关闭后问题得以解决,记录了排查过程。

2022-08-22 23:23:55 6862 5

原创 spark groupByKey和groupBy,groupByKey和reduceByKey的区别

groupByKey、groupBy、reduceByKey的区别介绍

2022-06-12 21:38:14 810

原创 信息度量——熵

1 熵1.1 熵的定义和理解热力学用熵值描述系统混乱程度或不确定程度,香农用信息熵的概念来描述信源的不确定度。信息量与信息熵是相对的,告诉你一件事实,你获取了信息量,但减少了熵。或者说,得知一件事实后信息熵减少的量,就是你得到的这个事实所包含的信息的量。对于随机变量 XXX ,其概率分布 PXP_{X}PX​ ,熵为:H(X)=E[log⁡1PX(X)]=∑x∈XPX(x)log⁡1PX(x)=−∑x∈XPX(x)log⁡PX(x)\begin{aligned}H(X) &=\mathb

2022-02-07 19:00:03 2270 1

原创 tensorflow笔记之二十九——通过if条件分支理解graph构建

1.从训练到推理过程模型文件形态sess.run模式下,tensorflow在训练过程中,通常使用saver = tf.train.Saver()和saver.save()保存模型,一次 saver.save() 后会生成ckpt文件,这里的ckpt文件并不是1个文件而是4个文件,模型权重数据和模型结构是分开保存。在推理场景下,一般使用tensorflow提供的freeze_graph函数,将权重数据和模型结构合并为pb格式的文件,...

2021-10-26 22:30:06 799

原创 tensorflow笔记之二十八——带掩码的损失函数

一个应用场景在多标签问题中,有时候需要一些特殊的处理,比如一些样本只对部分class进行更新,而另一些样本对另外一些class进行更新。举个例子,我们预测一个用户喜欢什么类型的电影,假如我们知道用户对哪些电影有过观看行为,这是正样本,负样本一般来说可以随机采样构造,构造也有两种方式,一个是固定用户随机采样电影,一个是固定电影随机采样用户,两种方式其实是等价的,不过考虑到随机采样用户可以覆盖到完全没有观影记录的用户,我们倾向于用后者(看电影的用户和不看电影的用户可能本身就有很大的不同了,如果train d

2021-10-26 13:10:39 1166

原创 IDEA spark本地调试错误——“main“ java.lang.NoClassDefFoundError: org/apache/spark/broadcast/Broadcast

本地运行spark测试程序,报错如下:Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/broadcast/Broadcast at java.lang.Class.getDeclaredMethods0(Native Method) at jav

2021-09-22 11:08:47 672

原创 tensorflow笔记(二十七)——重要tensor操作函数

1.合并多个tensor的合并主要包括2个函数:tf.concat和tf.stack,他们的输出参数都是list of tensor。区别是:tf.concat是沿某一维度拼接shape相同的张量,拼接生成的新张量维度不会增加。tf.stack是在新的维度上拼接,拼接后维度加1。import tensorflow as tfa = tf.constant([[1,2,3],[4,5,6]]) b = tf.constant([[7,8,9],[10,11,12]])ab1 = tf.con

2021-09-08 19:14:01 650

原创 tensorflow笔记(二十六)——tf.estimator模型文件保存和加载

1.模型的4个文件之前一次测试的时候,发现预测概率全部在0.5左右,最后发现是模型加载没有成功,预测结果其实是随机初始化的模型预测结果,所以概率都是0.5。怎么发现是模型没有加载成功呢?我把模型路径下的文件清空了之后预测,没有报错且预测概率就是0.5附近。然后为什么没有加载成功呢,是因为我的模型从平台存储空间上拷贝到测试机上时,只拷贝了model.ckpt-30000.data-00000-of-00001文件,这是不完整的。整个模型其实包含4个文件:model.ckpt-30000.data-000

2021-08-29 11:52:52 3175

原创 tensorflow笔记(二十五)——MultiLabelHead.loss代码走读

概述MuiltLabelHead是tf.estimator.Head的子类,用于多标签问题,默认损失函数为sigmoid_cross_entropy。具体的调用

2021-08-26 19:55:38 421

原创 tensorflow笔记(二十三)——tf.metrics

1.概述tf.metrics主要是实现了评估相关的各种指标函数,比如mean、precesion、auc、precession、mse、precesion_at_k等等。以tf1.15为例,主要包括:accuracy(...): Calculates how often predictions matches labels.auc(...): Computes the approximate AUC via a Riemann sum.average_precision_at_k(...): Com

2021-08-08 12:48:03 1594

原创 tensorflow笔记(二十二)—— Hooks

什么是Hooks?中文直译为“钩子”,在tensorflow中概念:Hooks are tools that run in the process of training/evaluation of the model.*Hooks是模型训练/测试过程中的工具,这些工具用于在训练/评估过程中执行特定任务。例如:控制训练EarlyStopping改变学习率打印一些中间日志保存checkpoint…这些hooks可以在以下几个地方生效,:when a session starts bei

2021-08-07 18:04:36 1627

原创 tensorflow笔记(二十)——estimator.evaluate源码走读

1.概述评估tensorflow.python.training.source code: https://github.com/tensorflow/tensorflow/blob/r1.15/tensorflow/python/training/evaluation.py

2021-08-05 11:09:22 1608 1

原创 tensorflow笔记(十九)——错误集锦

错误1,训练正常,预测和评估的时候报OOM:减少预测和训练的batchsize,或者减少网络参数。参考:ResourceExhaustedError (see above for traceback): OOM when allocating tensor of shape [7744,512] #3393

2021-08-03 16:37:25 1179

原创 Tensorflow笔记(八)——Estimator

知乎-TensorFlow之estimator详解

2021-07-23 21:54:22 1316

原创 tensorflow笔记(三)——损失函数

一、概述机器学习主要面对两类问题:回归和分类。不过一个问题属于分类还是回归的界定却并不清晰。比如点击率预估输入样本的Label是0-曝光和1-点击,输出的是用户点击的概率,是一个连续值,你说点击率是回归问题还是分类问题?从目标来看输出一个率值而非类别应该算回归,但从输入来看是标签离散的,应该算是分类。本质上这两类问题是一体两面的,分类模型可将回归模型的输出离散化,回归模型也可将分类模型的输出连续化,主要看任务目标是什么。分类和回归最大的不同可能在于对于损失函数的选择上。主要区别在于:损失函数的一般表示

2021-07-23 14:24:43 1380

原创 Tensorflow笔记(一)——Varibale和Scope

Variable两个函数Variable和get_variable函数都是获取变量,具体用哪个?tf.Variable(initial_value=None, trainable=True, collections=None, validate_shape=True, caching_device=None, name=None, variable_def=None, dtype=None, expected_shape=None, import_scope=None, constraint=None,

2021-07-17 23:46:00 151

原创 spark运行错误集锦(持续更新)

文章目录问题1: Spark 启动java.lang.NoClassDefFoundError: com/fasterxml/jackson/databind/Module问题1: Spark 启动java.lang.NoClassDefFoundError: com/fasterxml/jackson/databind/Module解决方法:使用Maven下载以下依赖 : jackson-databind-xxx.jar、 jackson-core-xxx.jar、 jackson-annotatio

2021-06-30 15:25:33 220

原创 ssh远程免密访问配置

需求:(1)机器A需要ssh远程登录机器S和T。(2)同时,机器B需要ssh远程登录机器S。(3)同时,机器T需要ssh远程登录机器A。需求拆解:A->S; A<->T; B->S覆盖三种情况:一台本地机器与多台远程机器ssh访问,一台远程机器被多台本地机器ssh访问,本地机器和远程机器互相ssh访问。概念:.ssh/id_rsa 默认的私钥文件,...

2020-03-31 17:27:26 501

原创 git submodule使用方法

1. submodule简介submodule是一种git特性,用以将一部分公共代码从主项目中抽离出来成为一个独立的git工程,并以submodule的形式被主项目使用,submodule和主项目(或者叫主模块)充分解耦,这样做的好处是作为submodule的公共代码可以被多个主项目工程使用,减少了开发量和版本控制负担。同时,submodule作为独立的git工程,也使得权限管理、版本迭代更加灵...

2020-03-17 20:28:33 5192

原创 推荐系统中的最小样本量和参数估计

点估计和区间估计假设数据总体数量是N,总体均值u,总体标准差σ,样本大小是n,样本均值u’,样本标准差σ’,样本中符合条件A的占比(比如推荐系统中点击占比):p’点估计从总体中抽取一个样本(batchsize=n),得到样本均值u’,样本标准差σ‘,(推荐系统中)样本点击率ctr等,这些样本参数都是对总体的一个点估计。标注误差SE抽取n个样本,分别计算其均值u’1,u’2,…这些值的...

2020-02-05 18:59:03 6117

原创 shell向上取整

需求1,向上取整;2,兼容小数点后为0的情况;3,兼容负数;实现shell bash本身没有向上取整的函数,shell里变量也都当做字符串处理,向上取整需要自己手动写一下。我本来想在网上找一个通用的实现,但暂时没有找到,于是自己手写了一个:function ceil(){ floor=`echo "scale=0;$1/1"|bc -l ` # 向下取整 add=`awk ...

2020-01-10 16:36:33 16454

转载 tensorflow各个版本的CUDA以及Cudnn版本对应关系

原文:https://blog.csdn.net/qq_27825451/article/details/89082978————————————————版权声明:本文为CSDN博主「LoveMIss-Y」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_27825451/article/deta...

2019-11-11 12:35:42 1569

原创 python启动时Failed calling sys.__interactivehook__错误原因及解决方法

问题描述启动python时,突然遇到以下错误,报错描述:C:\Users\starxhong>pythonPython 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "license"...

2019-10-17 17:10:23 4292 8

原创 python logging日志打印模块实用手册

文章目录感谢基本概念日志级别四大神器——Logger,Handler, Filter, FormatterLogger——记录器Handler——处理器StreamHandler——流处理器FilerHandler——文件处理器RotatingFileHandler——循环文件处理器TimeRotatingFileHandler——时间循环文件处理器其他Handler主要函数Formatter——...

2019-04-15 09:36:14 891

原创 工程中最常用git命令

本文力图涵盖常用的git命令,并介绍它们的应用场景,更好地理解git的使用。关于git的基本概念在这里不做赘述,默认你已经了解这些概念:工作区/暂存区/仓库,远程仓库,HEAD。本文主要分为5个部分,对应你可能最需要的5大功能:基本配置:git的环境变量(config); 本地仓库:git项目的开端(clone,init); 远程仓库:远程仓库和本地仓库交互(remote, fet...

2018-12-21 11:30:19 463

原创 Warning: Local jar /data/myProject/4 does not exist, skipping报错

最近shell脚本写spark脚本:$SPARK_BIN --master yarn-client --name openrc_${bid}_${model}_es@${running_id} --queue ${queue} \    --class com.tencent.dp.gr.driver.CTR1 \    --conf spark.hadoop.fs.hdfs.impl.d...

2018-11-26 17:17:49 3188 2

原创 Java中hashCode函数的Python,C++实现

摘要:hashCode函数是java中一个比较重要的函数,在工程上有较多的应用。如何用python和C++实现相同的功能呢?其难点在于java内部编码统一为unicode,而python和C++的编码形式比较多样,同样的函数使用不同的编码得到的结果可能不一样(甚至python2和python3都不一样)。本文主要就此进行介绍。一,java的hashCode函数实现:public in...

2018-09-28 23:39:10 4624 4

转载 Linux C++ 中文处理 (uincode与utf-8相互转化)

本文来自 一线涯 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/jcjc918/article/details/52200478 我认为这是很棒的一片文章,解决了我用C++实现Java的hashCode函数时遇到编码的问题。原文如下:背景C++ 对于中文的处理是很蛋疼的事情,然而,不幸的我们接到命令,要在 Linux 下支持对文案进行文案超长截断处理。...

2018-09-25 22:43:35 24479 5

转载 C++编码问题

      我们传统的程序基本都只在Windows或只在Linux下运行,Windows程序使用简体中文GB18030编码,Linux程序则只使用英文,多年以来这些程序运行起来都没有问题。  近年来,随着程序的组件化,部分代码特别是公用组件都需要同时支持Windows及Linux平台,这样就出现了不同程度的编码问题,例如在编译时编译器报错,或者在运行时出现乱码。这些问题都和程序选用的字符编码不...

2018-09-25 15:42:19 3007

原创 Python 编码问题——UnicodeDecodeError(二)

我的上一篇博客 Python 编码问题——UnicodeDecodeError(一)基本上足够应对常见Python Unicode编码错误问题,主要解释了问题产生的原因——隐式编码解码机制、避免问题的原则——Unicode“空气锁”原则。本篇主要作为一个补充,便于更好地理解第一篇文章。一,编码概述关于Python编码,你最需要了解ASCII,Unicode,UTF-8。ASCII——1...

2018-09-18 22:56:50 1215

原创 python中open,io.open和codecs.open的使用——TypeError:'encoding' is an invalid keyword argument

问题描述:python打开文件最简单的方法:f = open('test.txt', 'r')但有时候我们要指定编码方式,例如 f=open('test.txt', 'r', encoding='utf-8'),如果是python3则没有问题,但如果是python2,则会报错:TypeError: 'encoding' is an invalid keyword argument for ...

2018-09-18 20:11:24 3204

翻译 Python 编码问题——UnicodeDecodeError(一)

编码问题是python2使用中最令人头疼都问题之一。如果你读到这篇文章,那么你可能正在被这个问题困扰不已。Python编码问题困难的主要问题是编码相关术语令人困惑,同时很多时候大家处理简单字符的时候并不会遇到什么问题,因此也不会在意这个问题。直到有一天在处理ASCII码能够表达的字符之外的字符时,发现自己一头撞进砖墙上……如果你现在撞到了Python 2编码的墙上,这里有3个你可以参考的思...

2018-09-16 23:15:08 2754

原创 保持ssh连接live

当ssh session长时间处于空闲时,NAT防火墙可能会自动将连接清理掉,为避免这种情况,我们可以定时发送呼吸指令保持连接状态。On Linux 或者 Mac Os:可以选择全局设置,用户级别设置,分别为:/etc/ssh/ssh_config和~/.ssh/config(若不存在则创建一个),编辑:Host * ServerAliveInterval 300 S...

2018-09-08 21:36:12 836

原创 simhash实现文本去重原理与工程化实现

网上有很多写的很好的了,我就不重复造轮子了,摘录几篇讲的透彻的,忘记了再捡起来看看。simhash的java实现(包含汉明距离计算):http://jacoxu.com/simhash%E6%98%AF%E5%90%A6%E9%80%82%E5%90%88%E7%9F%AD%E6%96%87%E6%9C%AC%E7%9A%84%E7%9B%B8%E4%BC%BC%E6%96%87%E6%9...

2018-08-17 17:21:17 879

转载 IDEA编译通过能打包能运行,但是出现红色下划线

转自:https://blog.csdn.net/medtc/article/details/80018470昨天使用IDEA本来正常重新打开IDEA之后,有一个包里面的类总是报错找不到,各种clean还是不行;能编译能打包通过说明SDK导入正确,但是为啥我们点击每一个Java文件会出现好多红色的下划线?网上查到原因就是可能没有清除原来的历史缓存,导致一些错误,解决方法是 File-I...

2018-08-17 16:28:00 1823

转载 bash 变量名中包含变量赋值方法

转自:https://blog.csdn.net/xzz_hust/article/details/48246077写bash脚本时经常要会有变量名中包含变量, 例如有变量 s1, s2, s3, … , 用变量 i 表示数字, 怎样方便的用for循环赋值, 解决方法是用 eval 命令. 如下:eval s${i} = ${var}给其他变量赋值eval ss=\$s${i}...

2018-08-16 14:07:43 6137

转载 linux定时任务的设置 crontab 配置指南

为当前用户创建cron服务1.  键入 crontab  -e 编辑crontab服务文件      例如 文件内容如下:     */2 * * * * /bin/sh /home/admin/jiaoben/buy/deleteFile.sh      保存文件并并退出     */2 * * * * /bin/sh /home/admin/jiaoben/buy/dele...

2018-08-14 21:16:10 219

原创 spark中使用groupByKey进行分组排序

任务需求:已知RDD[(query:String, item_id:String, imp:Int, clk:Int)],要求找到每个query对应的点击最多的前2个item_id,即:按照query分组,并按照clk降序排序,每组取前两个。例如:(连衣裙,1234, 22, 13)(牛仔裤,2768, 34, 7)(连衣裙,1673,45, 9)(衬衣,3468, .........

2018-08-13 22:10:52 24702 6

原创 Scala ERROR: forward reference extends over definition of value xxx——错误解决方案

项目编译打包时的错误,有点莫名其妙。网上找了一些问题原因,稍微记录一下:1,方法调用和定义间插入了val的定义you're calling a method before you define it, and that the definition of the value x appears between that forward reference and the definitio...

2018-08-13 21:52:03 5800

转载 IntelliJ IDEA 中 右键新建(new)时,选项没有scala(java) class的解决方法和具体解释

项目是用Maven 创建的,具体的创建过程就不做解释了。出现的问题如下: 具体问题的图,如下:打开设置界面的路径如下: 主界面File——&gt;Project Structure——&gt;modules 如上图红圈所示,我们可以根据对项目的任意目录进行这五种目录类型标注,这个知识点非常非常重要,必须会。  Sources 一般用于标注类似 src 这种可编译目录。有时候我们不单...

2018-08-13 20:38:33 2351

Faster R-CNN演示文档

目标检测算法Faster R-CNN的PPT演示文档,中文,制作精良,条理清晰,适合学习和教学

2017-12-18

Fast R-CNN演示文档

目标检测算法Fast R-CNN的PPT演示文档,中文,制作精良,条理清晰,适合学习和教学

2017-12-18

SPP-Net演示文档

目标检测算法SPP-Net的PPT演示文档,中文,制作精良,条理清晰,适合学习和教学

2017-12-18

R-CNN演示文档

目标检测算法R-CNN的PPT演示文档,中文,制作精良,条理清晰,适合学习和教学

2017-12-18

js实现手机触屏左右滑动、上下滑动

用js实现手机屏幕的左右,上下滑动,资源含有html,可以在电脑上进行滑动屏幕的演示

2014-10-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除