自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 资源 (2)
  • 收藏
  • 关注

原创 深度学习的一些总结(Introduce to Deep learning)

关于深度学习的一些总结

2015-06-28 16:42:10 3903 2

原创 shell 快语句

1. 查看文件第一列数据:cat 2.txt | awk -F " " '{print $1}' | sort | uniq > 11.txt

2021-04-06 18:07:47 148

原创 python环境配置打包

python 打包记录 1. pipinstall-i https://pypi.tuna.tsinghua.edu.cn/simplevirtualenv 2. virtualenv --always-copy venv#用 virtualenv 以 always-copy 方式建立一个全新的 Python 环境,这里定义名称为 venv;会在当前目录生成一个 venv 文件 3. VENV_PYTHON=venv/bin/python 4. DST=`$V...

2021-01-18 11:13:44 427

原创 pyspark 记录

1. 读取文件./bin/spark-submit examples/src/main/python/wordcount.py file:///home/hadoop/coder_oyang/tst #读取本地文件 ./bin/spark-submit examples/src/main/python/wordcount.py file:///home/hadoop/coder_oyang/ #读取本地文件夹 ./bin/spark-submit examples/src/main/python..

2020-12-22 11:21:05 224

原创 推荐-线下AUC提升,线上CTR无提升

线下AUC提升,线上AB测试无提升1.判断线上线下特征提取是否一致?2.数据是否泄露,简言之,倒因为果,某特征跟目标有很高相关性?3.是否需要一味地添加特征?

2020-09-07 09:48:52 704

原创 scala word2vec 工程异常总结

scalaword2vec在集群出现奇奇怪怪的问题,代码如下:val documentDF = sentence.map(Tuple1.apply) .toDF("macs_videos") .repartition(15) documentDF.show(3, false) val model = new Word2Vec() .setInputCol("macs_videos") .setOutputCol("vector").

2020-08-29 16:26:54 316 1

原创 scala 基础 - join

Spark DataFrame中join与SQL很像,都有inner join, left join, right join, full join;类型 说明 inner join 内连接 left join 左连接 right join 右连接 full join 全连接 spark join看其原型def join(right : DataFrame, usingColumns : Seq[String], joinType : String).

2020-08-03 20:23:48 3552 1

原创 scala 基础-flatMap

在你调用map方法后紧接着调用flatten方法的情况下,你就可以尝试调用flatMap来解决这个问题了。满足如下情况: 使用map方法来从原集合基础上创建一个新的集合 map方法的返回结果是一个嵌套集合,或者元素为Some和None 你在map方法后紧接着调用了flatten方法 如果你的程序正好符合上面的情况,那么你就是可以使用flatMap来代替collection.map.flatten了下面这个例子中,你会看到如何使用flatMap来处理一个Option。在这个例

2020-07-30 10:55:15 703

原创 lazy function

做lightgbm时候,发现,infer过程比较慢,排查发现其中,有个方法为lazy init

2020-07-14 15:47:33 195

原创 pyspark -- Please check environment variables PYSPARK_PYTHON

Exception:Python in worker has different version 3.6 than that in driver 2.7,PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly setfrom __future__ import print_funct

2020-07-13 21:47:13 990 2

原创 推荐系统及其embedding

https://zhuanlan.zhihu.com/p/104182282

2020-06-03 13:56:12 206

原创 检索-推荐

1.Annoy(Approximate Nearest Neighbors Oh Yeah)算法是应用于稠密矩阵的最近邻查找算法,Annoy的目标是建立一个数据结构,使得查询一个最近邻的时间是线性的。Annoy通过对输入矩阵建树来获取O(log n)的检索速度建库:平面内随机取一个点作为种子节点,随机取200个节点判断每个点和哪个种子距离更近,取上述点的中心为最终的中心点,优缺点:树形检索快;...

2020-02-26 17:31:56 307

原创 Linux sendmail 报警邮件

参考 https://blog.csdn.net/qq_35326134/article/details/90312932参考 https://www.runoob.com/w3cnote/centos-mail-command-sendmail.html

2020-01-02 14:25:42 152

原创 python 多线程可用-demo

import threadingdef thread_num(ss, num): total = len(ss) split_data = [ss[i: i + int(total/num)] for i in range(0, len(ss), int(total/num))] for d in split_data: t = threading.T...

2019-12-26 17:15:28 154

原创 git从入门到精通

教程1:git详解 教程2:图解git

2019-10-08 17:15:29 322

原创 github readme markdown- readme格式在线工具

基本格式 在线工具

2019-09-02 15:46:41 1703

原创 推荐系统--论文

1. Deep Neural Networks for YouTube Recommendations 对应中文解读 重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文2. https://github.com/wzhe06/Reco-papers 推荐系统论文列表...

2019-07-12 16:47:58 314

原创 tar 打包压缩-解压文件

背景常需要将本地工具上传集群,并在集群解压,涉及到解压后的路径问题,故整理压缩解压tar.gz指令压缩压缩分成两个步骤:打包;压缩1. 打包成tar文件,打包路径,影响解压路径1. tar -cf YOUFILE.tar bin/## 将bin文件夹打包进YOUFILE.tar文件夹2. tar -rf YOUFILE.tar conf/## 将conf文件新增进YOU...

2019-07-01 15:26:53 250

原创 python - 技巧

1. 安装过多第三方包,通过 python -c "import mxnet; print mxnet.__file__"输出安装包路径

2019-06-27 20:50:49 96

原创 dict-get用法

2019-05-10 12:35:22 604

原创 paper list

Chris Dyer Neural architectures for named entity recognition

2019-05-09 17:15:22 145

原创 vim 纵向编辑技巧

一. 插入ctrl + v 进入 VISUAL BLOCK 纵向编辑模式 通过方向键选定列 I 选中列首插入;A选中列尾插入 插入内容 esc二. 删除ctrl + v 方向键选中 d参考 https://www.ibm.com/developerworks/cn/linux/l-cn-vimcolumn/三, 命令行光标移动ctrl+a : 跳到行首 ctrl...

2019-05-09 16:42:08 713

原创 远程获取文件

1. wget2. scp3. python -m SimpleHTTPServer 8003 启动http服务 wget 机器/文件路径 获取文件, 文件路径取决于该服务启动的路径,可通过 机器名:8003在浏览器中查看文件目录...

2019-04-30 16:27:16 745

原创 hadoop streaming bistreaming ustreaming

1. 问题1close failed in file object destructor:sys.excepthook is missinglost sys.stderr

2019-04-24 11:28:23 961

原创 vim insert VISUAL模式

vim中使用鼠标右键粘贴,失败。vim的模式:网上解法:1. 普通模式下输入“:set mouse-=a”,有效2. .vimrc中添加:if has('mouse') set mouse-=aendif失效查资料发现:vi的三种模式,命令模式,插入模式,可视模式。鼠标可以启动于各种模式中:The mouse can be enabled for di...

2019-04-08 17:01:54 16478 2

原创 SQL

date nums tag 2019-3-11 1 A 2019-3-11 2 B 2019-3-12 4 A 2019-3-12 5 B select nu-nums,F.tagfrom( select * from pandora_fea_num where {t [...

2019-03-12 17:48:05 149

原创 知识图谱二 -- DeepDive

https://blog.csdn.net/alitech2017/article/details/80134104https://blog.csdn.net/xgjianstart/article/details/70214852知识图谱特征学习http://baijiahao.baidu.com/s?id=1602210213239784098&wfr=spider&amp...

2019-03-10 16:22:58 613 1

原创 知识图谱一 -- 知识图谱架构、DeepDive中文抽取示例

一. DeepDiveDeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统,能处理文本、表格、图表、图片等多种格式的无结构数据,从中抽取结构化的信息。系统集成了文件分析、信息提取、信息整合、概率预测等功能。Deepdive的主要应用是特定领域的信息抽取,系统构建至今,已在交通、考古、地理、医疗等多个领域的项目实践中取得了良好的效果;在...

2019-03-10 15:10:25 18936 1

原创 设置secureCRT不掉线的方法

Options—>Global Options—>General—>Default Session—>Edit Default Settings—>Terminal—>Anti-idle选中Send protocol NO-OP every 120 seconds

2019-03-08 11:34:38 4650 1

原创 HQL - HiveQL

use namespace dba_ns; #选定数据库set user_write_ugi:hdfs://nmg01-xxxx-hdfs.dmop.xxxxx.com:54310/app/ecom/fcr/bigdata_dump/user_feature/=xx,xxxxxxx; #赋值:用户名,密码insert overwrite directory 'hdfs://nmg01-xxxx...

2019-02-23 13:31:05 322

原创 linux tmp自动清理

1. 背景线上机器总是报内存不足,df -h 发现存储空间占满,df -i ,发现是tmp中临时文件占满,可以修改系统定时清除tmp文件的时间间隔tips1 : 指定目录下,列出文件大小du -h --max-depth=1tips2: will delete all files and folders older than 100 days find /tmp/pu* -c...

2019-01-22 15:27:13 3202

原创 流式计算引擎

批量计算:收集数据-存入DB-取出分析,先将数据存进去,再处理区别:1. 与批量计算累积数据不同,流式计算将大数据平摊到各个结点上,连续进行小批量的传输,流动,计算完后抛弃2. 批量计算维护一张表,对表进行各种逻辑操作,流式计算相反,须先定义好计算逻辑,提交到流式计算系统,计算逻辑在整个运行期间不可更改3. 计算结果上,批量计算是对全部数据计算后传输结果,流式计算是每次小批量计算后...

2019-01-11 20:25:50 1945

原创 数据展示

review html case,起 serverhtml测试页面 https://www.w3school.com.cn/tiy/t.asp?f=html_table_test将文件放在html文件夹下,在 html 存放目录下,运行 nohuppython-m CGIHTTPServer 8888 &#端口号自定义#coding:utf-8import sys#...

2018-12-17 16:13:57 318

原创 screen - nohup

通常情况下我们都是为每一个任务开一个远程终端窗口,因为他们执行的时间太长了。必须等待它执行完毕,在此期间可不能关掉窗口或者断开连接,否则这个任务就会被杀掉,一切半途而废了1. 为什么关掉窗口/断开连接会使得正在运行的程序死掉进程组(process group):一个或多个进程的集合,每一个进程组有唯一一个进程组ID,即进程组长进程的ID。 会话期(session):一个或多个进程组的集合...

2018-12-04 14:39:45 165

原创 hadoop streaming 使用总结

hadoop client: 客户端可以让用户访问集群,hadoop client 使用手册,通过配置hadoop-site.xml文件,实现访问不同集群,同时该客户端目录的 xx/xx/hadoop/bin/hadoop 是你配置的hadoop命令路径,在streaming命令参数配置时,需要指明该hadoop位置,对于该命令,可以通过alias hadoopdr='xx/xx/hadoop/...

2018-11-08 10:06:32 811

原创 git | Linux 常用命令汇总

【git】创建仓库之后,常用命令:git 有三个状态:已提交(committed)、已修改(modified)和已暂存(staged);对应下图四个状态:本地工作目录,缓存区(索引),本地仓库,远程仓库 git clone ssh you git address # 将仓库clone到本地git add readme.txt # 添加文件g...

2018-10-23 14:40:05 482

原创 hadoop 简单入门与streaming常用配置参数说明

1. Hadoop包含两核心部分hdfs Hadoop distribute file system -- hadoop分布式文件系统,存储数据 Namenode、Datanode 常用命令形式:hadoop fs -ls  /  hadoop fs -mkdir MapReduce 分而治之;map:实现分治;reduce:实现合并 解决数据可分割的计算问题 编程接...

2018-10-11 17:33:51 1023

原创 http--Python自动登陆访问页面方式

import sysimport httplibimport base64# import libs.mcpack as mcpackfrom lib.mcpack import * def export_username_http(userId): request = httplib.HTTPConnection("you_ip", 8080) aut...

2018-09-16 11:41:14 1484

原创 python 命令行运行代码参数解析代码详例

一直以IDE的方式运行代码,最近遇到很多以命令行方式输入代码参数并运行代码,所以做一个简单的总结:第一种方法:通过ArgumentParserfrom argparse import ArgumentParserdef init_args(): """ init_args: parse args Args: None Returns: ...

2018-08-26 14:14:27 886

原创 概率图模型 -- 隐马尔可夫模型、条件随机场

本文从建模角度出发,通过概率图模型分析隐马尔可夫,条件随机场,文章重点在模型建立理论基础

2018-07-12 21:05:49 4872

概率图模型

https://blog.csdn.net/coder_oyang/article/details/81021978 word文档,从建模的角度出发,逐步分析HMM、CRF模型

2018-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除