自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark On Yarn的配置

Spark on Yarn模式下的配置spark-env.sh配置如下,standalone deploy mode部署模式下忽略export JAVA_HOME=/usr/jdk64/jdkexport SPARK_HOME=/opt/spark# Options read in YARN client/cluster modeexport SPARK_CONF_DIR...

2020-03-17 19:53:25 669

原创 win10中tensorflow-gpu安装

本机安装的版本号如下操作系统:           Windows10    GPU型号:           NVIDIA GeForce 920MXTensorFlow版本:tensorflow-gpu 1.9.0CUDA版本:        cuda_9.0.176_win10CUDNN版本:     cudnn-9.0-windows10-x64-v7.1安装python的...

2018-07-25 10:25:43 1070

原创 spark中日志清理

spark开启history-server之后,app日志会保存在制定的目录下,若yarn开启日志收集,也需要进行app-logs的自动清理## yarn日志收集yarn.log-aggregation.retain-seconds = 1209600yarn.log-aggregation.retain-check-interval-seconds = 86400## spa...

2018-07-17 10:54:26 3412

原创 常见函数导数公式

2018-07-11 14:46:32 19278

原创 回归评价指标

分类问题一般使用准确率,召回率等评价指标,但是回归问题评价一般使用误差相关定义指标:MSE      Mean Squared Error     均方误差    这个就是目标损失函数loss functionRMSE   rmse = sqrt(MSE)MAER2参考:https://blog.csdn.net/skullFang/article/details/79107127...

2018-07-10 16:40:49 278

原创 hbase regionserver进程启动参数

/usr/jdk64/jdk1.8.0_77/bin/java -Dproc_regionserver-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=18409 -Djava.rmi.server.hostname=10.50.70.20 -Dcom.sun.management.jmxremote.s...

2018-06-15 11:16:27 623

原创 hive中SerDe使用

SerDe is a short name for “Serializer and Deserializer.”Hive uses SerDe (and !FileFormat) to read and write table rows.HDFS files –> InputFileFormat –> <key, value> –> Deserializer –&gt...

2018-05-07 11:21:48 2522

原创 推荐系统评测指标

用户满意度技术指标:准确率召回率覆盖率多样性流行度新颖度惊喜度实时性产品指标:点击率ctr转化率vppv

2018-03-29 14:42:37 314

原创 信息熵

信息熵信息增益信息增益比基尼系数马太效应

2018-03-29 14:05:01 2940

原创 二分类评判指标

Precision:TP/(TP+FP),分类器预测出的正样本中,真实正样本的比例Recall:TP/(TP+FN),在所有真实正样本中,分类器中能找到多少Accuracy:(TP+TN)/(TP+NP+TN+FN),分类器对整体的判断能力,即正确预测的比例参考文章:http://alexkong.net/2013/06/introduction-to-auc-and-roc/...

2018-03-28 17:42:09 431

原创 NLP处理-Spark中的HashTF与CountVectorizer模型

http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport sc

2017-07-10 15:32:17 2908

原创 maven编译异常错误loading CharSequence class file is broken

在用maven对项目进行编译打包时,遇到了下面奇怪的编译错误"C:\Program Files\Java\jdk1.8.0\bin\java" "-Dmaven.home=C:\Program Files (x86)\JetBrains\IntelliJ IDEA Community Edition 2016.2.1\plugins\maven\lib\maven3" "-Dclasswo

2017-07-06 11:09:38 5640

原创 spark application运行时版本不兼容错误

17/06/27 14:34:41 INFO deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps17/06/27 14:34:41 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 788

2017-07-03 17:46:52 1106

原创 ssh远程到目标机器执行命令shell脚本

linux下ssh到目标机器首先需要配置免密码登陆,才能执行如下脚本  hostnames服务器列表文件master.hadoopw1.hadoopw2.hadoopw3.hadoopw4.hadoop 运行shell脚本#!/bin/bashfunction usage() { echo "Wrong arguments input..." echo "Usa

2017-06-30 09:50:49 2744

原创 spark读取mongodb数据

val spark = SparkSession.builder .appName(this.getClass.getName().stripSuffix("$")) .getOrCreate() val df = spark.read.format("com.mongodb.spark.sql").options( Map

2017-06-26 11:38:51 10330

原创 spark在windows上local模式下的缺失winutils.exe异常

在window10上Intellij IDEA上已Local的模式运行调试Spark程序,并且将中间结果写入本地目录时,程序抛出异常错误Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties17/06/19 11:24:33 INFO SparkContext: Running Spark

2017-06-19 11:49:41 5376

原创 mongo在shell中操作命令

在linux中安装mongodb的客户端很简单,下载对应版本的mongodb-linux-x86_64-rhel62-3.4.2.tgz,解压后加入目录bin到环境变量中就可使用mongo 198.168.0.1:27017/nlp -u nlp_s -p 123456 连接mongo之后,数据库操作命令# 查看库中所有表show collections;# 查看表中数据db.

2017-06-05 11:44:07 393

转载 随机变量协方差的意义

在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况:当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大  Y 也越大, X 越小  Y 也越小,这种情况,我们称为“正相关”。当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。

2017-05-26 14:12:16 3043 2

原创 spark提交任务端口占用异常

当在同一台机器上提交多个spark任务时 并且是以client的方式提交,会报端口占用错误17/05/05 15:51:07 WARN AbstractLifeCycle: FAILED org.spark-project.jetty.server.Server@3c8bdd5b: java.net.BindException: Address already in usejava.net.

2017-05-05 16:13:59 9385

原创 python库numpy的使用

python库numpy的使用

2017-04-27 15:24:36 852

原创 导数据中的网络引起的异常

最近由hive想应用数据库mysql 和 hbas导数据的时候,莫名的出现很多连接异常或者中断的情况,初步怀疑是开启并发过多占满网络带宽导致   导入mysql数据库Lost connection to MySQL server at 'reading authorization packet', system error: 0  导入Hbase数据库时ssh连接中断   ja

2017-04-27 14:52:37 512

转载 利用Fiddler进行http抓包

转载自   作者:Findyou地址:http://www.cnblogs.com/findyou/p/3491014.html前言:做前端测试,基本要求会抓包,会分析请求数据包,查看接口是否调用正确,数据返回是否正确,问题产生是定位根本原因等。不管是之前做HTML5手机项目测试,还是现在的企邮app测试,经常需要抓包,做前端开发基本第一时间会想到Fiddler,的

2017-04-25 16:56:31 1552

原创 hbase常用shell命令

#范围扫描scan 'edw_applications:user_profile_customer', STARTROW=> '00502be7c4df-8509-d144-b2c8-03108f00', ENDROW=> '00502be7c4df-8509-d144-b2c8-03108f00'#值扫描scan 'edw_applications:user_profile_

2017-04-25 15:57:32 460

原创 hive上创建表视图

数据仓库中对有些表采用全量分区,每天一个历史镜像数据,有些数据应用系统正好使用该类型表,可以对外输出一个表视图使数据消费方不用关心是何种类型的表,在workflow中每天定时重建该视图,还可以屏蔽调度数据失败对外面的影响,即使失败数据消费方还能继续work,只是数据是前天生成的而不是最新的数据drop view if exists edw.test_tablename_view;crea

2017-04-25 14:50:25 1888

原创 HDFS上磁盘数据清理

HDFS数据清理一些办法:datanode数据做reblance 清理临时目录、日志目录文件 全量分区表历史分区清理 使用lzo,orc格式进行数据压缩 清理或者归档历史冷数据 增加datanode横向扩容附上自动清理目录下过期的文件#!/bin/bashsource ~/.bash_profile# 将待检测的目录(可以为多个)加载至数组中yarn_log_di...

2017-04-14 08:31:02 5295

原创 windows下python环境安装与配置

1. Python安装包在https://www.python.org/downloads/下载, 因对对python2.x熟悉些 所以下载的是python-2.7.13版本   安装完成后添加环境变量 Path=%Path%;C:\Python272. 安装Python pip工具来安装管理python库包,https://pypi.python.org/pypi/pip#dow

2017-03-23 15:05:35 477

原创 Hbase基本操作类

Hbase基本操作类

2017-03-23 14:14:53 757

原创 hive 动态分区使用

hive 动态分区

2017-02-20 14:16:32 1874

原创 hadoop常用命令整理

1. 直接删除文件不进入垃圾回收桶    hadoop fs -rm -r -skipTrash   xxxx2. 基于yarn提交的application查看日志和stdout,stderr输出    yarn logs -applicationId application_1479210500211_555588 > spark.log

2017-02-15 10:32:59 471

原创 impala大数据量查询/tmp/impala-scratch创建异常

使用impala对大数据量查询distinct的时候出现如下错误5ab149d_24414dab2c19caca:e54b206c5ab149f_91001337-9d70-4c93-84ce-e7916c1ae804 failed with errno=2 description=Error(2): No such file or directoryBackend 4:Create fil

2017-02-10 17:37:11 1687

原创 横竖表相互转换SQL

以Oracle数据库为例,测试在数据处理中经常遇到数据库中横表和竖表的相互转换,采用学生各科成绩分数为测试数据横表转换竖表:CREATE table score( username varchar(10) , chinese int , math int , physics int); INSERT into score(username ,

2017-02-10 17:08:46 4905

原创 spark-submit提交的shell脚本

spark-submit向yarn提交application的脚本,包括spark参数、环境变量、应用程序参数传入#!/bin/bashsource ~/.bash_profileAPP_HOME=/home/data_user/recommendecho $APP_HOME###################### etl候选集和浏览数据集 #################

2017-02-09 14:10:02 8642

原创 hive sql优化整理

Hive sql优化方法参数一些整理,方便快速查找使用1. map数量与reduce数量的控制    输入文件大小指实际文件大小,与文件格式textfile, ORC等无关,压缩的文件格式会小很多设置参数要适当调整--map数量控制set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapr...

2017-02-09 12:58:46 1042

原创 hive常用函数整理

Hive常用的函数整理,方便快速查找使用1.时间戳格式化select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss');select current_timestamp;2. 时间日期大小比较(天)select datediff('2016-09-01','2016-08-01');select datediff(f

2017-02-09 10:53:30 1312

原创 hive常用sql整理

Hive常用的sql整理,方便快速查找使用1.创建Hive表CREATE TABLE if not exists edw_applications.dws_test_table ( cid string, event_code int, event_date string, house_

2017-02-04 16:03:31 1375

原创 Linux下网络设置

Linux下网络环境相关配置,基于Redhat版本的设置1. 静态IP配置vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0ONBOOT=yesBOOTPROTO=staticIPADDR=192.168.0.3NETMASK=255.255.255.0GATEWAY=192.168.0.1

2017-02-04 15:04:52 245

原创 mysql导出库结构和表数据

##导出整个数据库结构和数据mysqldump -h localhost -uroot -p123456 database > dump.sql##导出单个数据表结构和数据mysqldump -h localhost -uroot -p123456  database table > dump.sql ##导出整个数据库结构 (不包含数据)mysqldump -h

2017-02-04 14:52:18 362

原创 运行java程序shell脚本

一个运行普通Java程序的shell脚本,指定运行的jdk,依赖jar路径和运行时arguments#!/bin/bashsource ~/.bash_profileAPP_HOME=/home/xubc/app_testecho $APP_HOMEfor f in $APP_HOME/lib/*.jar; do APP_CLASSPATH=$f:${APP_CLASSPAT

2017-02-04 14:29:00 710

原创 kafka0.8.2命令

##  kafka启动zookeeper-server startbin/kafka-server-stop.sh nohup bin/kafka-server-start.sh config/server.properties > logs/kafka-server-start.log & ## 查看当前节点状态echo stat | nc 127.0.0.1 2181

2017-02-04 14:06:21 1007

原创 数据库SQL解析执行过程

SQL解析执行的主要步骤:1. 对提交SQL的进行判断是否已解析和生产执行计划,对已生成执行计划的SQL直接执行返回结果2. 对SQL进行语法规范检查3. 对SQL进行语义检查,使用表、字段、函数、视图等数据库对象是否存在,以及是否拥有对应的操作权限4. 将SQL解析成语法树,按照不同的算法策略并做一些替换其中视图、表达式,合并查询等优化,去生成由关系代数算子组成的(投影 (π),

2017-02-03 16:49:28 2378

Python加载纯真IP库查询

运用Python脚本对纯真IP库进行 IP查询,导出文本

2013-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除