自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (3)
  • 收藏
  • 关注

翻译 渗透学习:SQL盲注

SQL 盲注可能会查看、修改或删除数据库条目和表可能原因未对用户输入正确执行危险字符清理技术描述该软件使用受外部影响的输入来构造 SQL 命令的全部或一部分,但是它未能对可能在 SQL 命令发送到数据库时修改该命令的元素进行无害化处理。如果在用户可控制的输入中没有对 SQL 语法充分地除去或加上引号,那么生成的 SQL 查询可能会导致将这些输入解释为 SQL 而不是普通用户数据。这可用于...

2019-03-18 16:35:54 779

原创 jekins出现无法打包

jekins出现无法打包 出现错误:stderr: error: Your local changes to the following files would be overwritten by checkout:src/routes.js进入对应git目录丢弃文件即可: git checkout . && git clean -xdf...

2018-06-13 15:33:42 922

原创 Storm单机安装

一、下载安装包http://www.apache.org/dyn/closer.lua/storm/apache-storm-1.1.1/apache-storm-1.1.1.tar.gz二、修改配置文件vim storm.yaml ##zookeeper storm.zookeeper.servers: - "localhost" ##nimbus所在节点 nimbus.see

2017-11-11 21:38:59 474

原创 sqoop使用

list-databases 列出数据库 sqoop list-databases –connect jdbc:oracle:thin:@172.21.202.4:1521:TJZHCSDEV –username tjzhcs –password tjzhcs2.list-tables 列出某数据库下的表 sqoop list-tables–connect jdbc:oracle:thin

2017-10-28 21:54:33 392

转载 hive2.1.1安装部署

转:http://blog.csdn.net/reesun/article/details/8556078http://blog.csdn.net/zhongguozhichuang/article/details/52702476http://blog.csdn.net/huoyuyan/article/details/50769104一、Hive 运行模

2017-10-25 22:34:00 402

原创 Hadoop安装教程_伪分布式配置

创建hadoop用户如果你安装 CentOS 的时候不是用的 "hadoop" 用户,那么需要增加一个名为 hadoop 的用户。首先点击左上角的 “应用程序” -> "系统工具" -> "终端",首先在终端中输入 su ,按回车,输入 root 密码以 root 用户登录,接着执行命令创建新用户 hadoop:su # 上述提到的以 root

2017-10-06 14:18:41 691

原创 elasticsearch UpdateByQuery的使用

上一篇发了解决elasticsearch UpdateByQuery的问题,后来遇到好多小伙伴问我,为什么他使用不了UpdateByQuery,遂科普下。 在于你可能没有引入reindex包:<dependency> <groupId>org.elasticsearch.module</groupId> <artifactId>reindex</artifactId> <v

2017-08-29 16:10:43 16299

原创 es UpdateByQuery 出现 VersionConflictEngineException

问题出在多次更新统一doc出现版本不一致,抛出异常,修改不成功。 解决方法: 确认你的操作不会造成数据不一致的情况下, UpdateByQueryRequestBuilder实现类增加执行方法abortOnVersionConflict(false)like thisUpdateByQueryRequestBuilder ubqrb = UpdateByQueryAction.INSTANCE

2017-08-25 15:05:08 11273 1

原创 disruptor高性能框架

最近项目里需要写模型,然后数据是从es取,不同人负责写不同模型,这里遇到一个问题,就是数据的读其实公用,没必要各自取一次数据浪费带宽、内存、cpu…遂想是否可以提取公用部分做数据读,下发给各个模型,然后开发老大说用disruptor试试,调研了下确实可行,就稍加记录下。disruptor项目地址:https://github.com/LMAX-Exchange/disruptor 简单来说disr

2017-08-25 14:58:53 381

原创 【Storm初探】wordcount demo

目前工作下需要接触storm,遂写个demo练练手。 代码主要借鉴的是storm官方的github项目:https://github.com/apache/storm 略做修改。 1.pom.xml引入 <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</arti

2017-06-26 16:33:48 1093

原创 elasticsearch java api使用,es java封装

最近需要使用到elasticsearch,封装了一些方法,在此记录下。1. 创建索引public static boolean createIndex(String index) { if (!isIndexExist(index)) { LOG.info("Index is not exits!"); } CreateInde

2017-04-20 20:30:54 11382 11

原创 HashMap里的equals实现

今天遇到一个问题,需要对List<Map>对象里的Map去重,然后想到是否可以使用Set去重,试了下是可以的,但是仔细想想,发现明明塞进Set的时候是新创建的Map对象,但是Set却认为是重复的塞不进去,想到应该是HashMap的equals里逻辑,遂看源码。 public boolean equals(Object o) {//1.同一对象,对象相等 if (o == this)

2017-04-20 20:10:31 2350

原创 matplotlib使用记录

工作中需要使用python的matplotlib包作图,记录了一些需要注意的坑。1.Linux服务器没有GUI的情况下使用matplotlib绘图import matplotlib as mplmpl.use('Agg')必须添加在import matplotlib.pyplot之前2.解决matplotlib中文乱码plt.rcParams['font.sans-serif'] = ['Sim

2017-04-01 11:17:19 1761

原创 hive的几种存储引擎,以及hive的SQL优化器

hive的几种存储引擎,以及hive的SQL优化器? 存储方面:textfile、orcfile、rcfile、parquet、sequencefile 执行引擎:mr、tez、spark 词法解析: calcite、cbo 优化:mapjoin 自定义函数:udf sql语法或自带函数 新特性:Vectorized Query Execution、Hybrid Hybrid Gr

2016-12-28 11:09:26 8451

原创 sql 同一列的多行内容拼接成字符串

SELECTL4.plan_id,MAX(SUBSTR(L4.分组内容,2)) display_themeFROM( SELECT L3.plan_id ,SYS_CONNECT_BY_PATH(L3.theme_name,';') AS 分组内容 FROM( SELECT

2016-12-28 11:00:57 4920

原创 查看mysql 32位64位

show variables like ‘%version_%’;

2016-12-28 10:59:26 6938

原创 【oracle】获得两个日期之间的所有日期

SELECT A.REMARK_NAME, A.REMARK_START_DATE, A.REMARK_END_DATE, A.REMARK_START_DATE + B.DIS - 1 H FROM B_REMARK_DETAIL A, (SELECT ROWNUM DIS FROM (SELECT MAX

2016-12-28 10:58:57 2022

原创 在oracle中varchar和varchar2有什么区别?

1.varchar2把所有字符都占两字节处理(一般情况下),varchar只对汉字和全角等字符占两字节,数字,英文字符等都是一个字节; 2.VARCHAR2把空串等同于null处理,而varchar仍按照空串处理; 3.VARCHAR2字符要用几个字节存储,要看数据库使用的字符集, 大部分情况下建议使用varchar2类型,可以保证更好的兼容性搜索。

2016-12-28 10:58:23 447

原创 【Oracle】LGWR

LGWR,是Log Writer的缩写,也是一种后台进程。主要负责将日志缓冲内容写到磁盘的在线重做日志文件或组中。DBWn将dirty块写到磁盘之前,所有与buffer修改相关的redo log都需要由LGWR写入磁盘的在线重做日志文件(组),如果未写完,那么DBWn会等待LGWR,也会产生一些相应的等待事件(例如:log file prarllel write,后面单独作为话题再聊)。

2016-12-28 10:57:17 679

原创 java8下spark-streaming结合kafka编程(spark 2.0 & kafka 0.10)

前面有说道spark-streaming的简单demo,也有说到kafka成功跑通的例子,这里就结合二者,也是常用的使用之一。1.相关组件版本 首先确认版本,因为跟之前的版本有些不一样,所以才有必要记录下,另外仍然没有使用scala,使用java8,spark 2.0.0,kafka 0.10。2.引入maven包 网上找了一些结合的例子,但是跟我当前版本不一样,所以根本就成功不了,所以探究了下

2016-12-26 19:45:14 17542 4

原创 kafka初探 版本0.10 java编程

之前一直有项目用到,不过我并不负责这一块,所以了解不多,这次趁机会学习下。 之前对kafka的了解其实仅限于知道它是一个分布式消息系统,这次详细了解了下,知道了一些关键概念(topic主题、broker服务、producers消息发布者、consumer消息订阅者消费者),具体网上一大堆,这里不赘述,直接开始代码。

2016-12-20 19:39:55 5503 6

原创 azkaban集群多节点模式配置

配置多节点执行服务器的时候,需要在AzkabanWebServer的配置文件azkaban.properties里添加azkaban.use.multiple.executors=trueazkaban.executorselector.filters=StaticRemainingFlowSize,MinimumFreeMemory,CpuStatusazkaban.executorse

2016-12-19 16:28:55 9222

转载 Spark集群硬件挑选

Spark 开发者都会反应一个常见问题,如何为 Spark 配置硬件。然而正确的硬件配置取决于使用的场景,我们提出以下建议。存储系统因为大多数 Spark 作业都很可能必须从外部存储系统(例如 Hadoop 文件系统或者 HBase )读取输入的数据,所以部署 Spark 时尽可能靠近这些系统是很重要的。我们建议如下:如果可以,在 HDFS 相同的节

2016-12-19 16:25:16 1549

转载 Hadoop 集群如何选择合适的硬件

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多)。在这个博客帖子中,你将会学到一

2016-12-19 16:23:07 1761

原创 java8实现spark streaming的wordcount

概念这里就不说了,从案例开始,惯例,hellowrod,哦不,wordcount。 要计算从一个监听 TCP socket 的数据服务器接收到的文本数据(text data)中的字数。 主体代码部分跟spark相差不大,毕竟DStream是RDD产生的模板(或者说类)。

2016-12-16 10:07:27 3230 2

原创 java8实现spark wordcount并且按照value排序输出

最近在学习spark,本来应该是使用scala编程,但是无奈scala没接触过,还得学,就先使用java的spark api练练手,其实发现java8的函数式编程跟scala很多地方异曲同工啊,搞定spark的java api后面学scala应该事半功倍! 最开始当然是万年不变的wordcount,加了个排序输出,具体看注释.

2016-12-14 15:26:59 4255

原创 判断文件是否存在,通配符文件匹配发生错误 binary operator expected

time1=(date−d"(date -d "currentTime” +%s) time2=((((time1-24*3600)) filepath=/root/g01/g_01_api_*_time2.txtif[−ftime2.txt if [ -f filepath ]; then echo ‘找到匹配的文件’ for i in filepathdoechofilepath

2016-11-14 17:20:52 15272 4

原创 Encryption raised an exception

script-test: [echo] Testing encrypt.sh [exec] Exception in thread “main” org.jasypt.exceptions.EncryptionOperationNotPossibleException: Encryption raised an exception. A possible cause is y

2016-11-14 17:19:32 6553

原创 Hive常用优化方法

1、join连接时的优化:当三个或多个以上的表进行join操作时,如果每个on使用相同的字段连接时只会产生一个mapreduce。 2、join连接时的优化:当多个表进行查询时,从左到右表的大小顺序应该是从小到大。原因:hive在对每行记录操作时会把其他表先缓存起来,直到扫描最后的表进行计算 3、在where字句中增加分区过滤器。 4、当可以使用left semi join 语法时不要使用in

2016-10-20 11:19:41 408

原创 centos下wget: 无法解析主机地址

wget -4 强制使用ipv4

2016-10-20 11:14:06 24622 4

原创 ambari坑记录

问题一: 此问题是在安装注册主机时遇到的 (‘ERROR 2015-02-06 20:09:43,441 NetUtil.py:56 - [Errno 1] _ssl.c:492: error:100AE081:elliptic curve routines:EC_GROUP_new_by_curve_name:unknown group ERROR 2015-02-06 20:09:43,4

2016-10-14 15:17:49 4462

原创 ambari离线安装以及hadoop环境搭建详细过程

ambari离线安装以及hadoop集群搭建详细过程

2016-10-14 14:13:39 8819

原创 mysql 身份证明号码 正则表达式

匹配15和18位select * from sfzmhm_table where sfzmhm regexp '^[1-9][[:digit:]]{7}((0[[:digit:]])|(1[0-2]))(([0|1|2][[:digit:]])|3[0-1])[[:digit:]]{3}$|^[1-9][[:digit:]]{5}[1-9][[:digit:]]{3}((0[[:digit:]])|

2016-09-12 18:10:13 5232 2

原创 建模交流学习

以下是今天(20160811)跟阿里的同学交流的关于建模方面的心得。1.规则-经验-机器学习 有的时候规则其实更简单,只不过这是人为的经验成分 机器学习其实是想通过大数据学习这种人为经验2.模型是注重性能还是可解释性? (1)如果可解释性要强的话就要牺牲性能(预测的结果好坏),如果只追求性能的话可以用一些非线性(gbdt,dnn等) (2)如果要求可解释性最好用一些线性的模型(最简单的最常用

2016-08-11 20:02:23 876 1

原创 xx省驾驶员信用评分模型

公安项目有签订保密协议,敏感字段和与技术无关字段我已删减采用的是 信用评分卡模型,计算WOE值获得最终评分。为了综合评估普通驾驶员的道路交通能力,此次建模的目标为驾驶员是否有发生事故,若有则为坏样本,整体的坏样本率为1.314%,通过统计可以发现:

2016-08-05 17:46:23 1500

原创 吐槽阿里云PAI

之前在杭州培训的时候有接触过PAI,说实话是挺好用的。 直接接入ODPS数据,使用ODPS的引擎做机器学习,训练模型,体验还是不错的,基本的算法都有,满足基本预测挖掘数据的要求。一个完整的建模步骤包括以下6个步骤: step1:数据准备 step2:数据预处理 step3:数据可视化 step4:算法建模 step5:多模型评估 step6:数据存储 PAI全部可以完成上述步骤,就我

2016-08-05 17:18:43 6315 1

原创 一些分布式计算框架

1) MapReduce: 这个框架人人皆知,它是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算。 2) Spark: 我们知道,MapReduce计算框架不适合(不是不能做,是不适合,效率太低)迭代计算(常见于machine learning领域,比如PageRank)和交互式计算(data mining领域,比如SQL查询),MapReduc

2016-06-14 11:14:48 3328

原创 Hbase安装

hbase安装export HBASE_HOME=/home/hadoop/hbase-1.0.1export PATH=$PATH:$HBASE_HOME/binvi conf/hbase-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_65export HBASE_MANAGES_ZK=truevi hbase-sit

2016-05-25 10:17:10 296

原创 启动hive报错:[ERROR] Terminal initialization failed; falling back to unsupported

是因为jline版本太低造成,复制hive下的jline jar包到Hadoop下即可。

2016-05-12 20:54:00 689

原创 hadoop伪分布式环境搭建记录

Hadoop快3个月没接触了,这阶段全是阿里云的东西,乘着领导让我给同事讲讲Hadoop的机会,复习下Hadoop的知识。hadoop伪分布式环境搭建记录201605111.解压hadoop、jdk压缩包tar -xvzf hadoop-2.6.0.tar.gztar -xvzf jdk-7u79-linux-x64.tar.gz2.环境变量添加vi ~/.bash

2016-05-12 18:08:11 604

js简单分页

挑战杯的一个项目,大部分同学在做,然后需要分页的功能,为了不影响同学服务端代码,干脆js分页了,效果还好,当然如果你的数据量不小,千万不要用这个方法.... 在引入之前一定要定义好: pagesize//每页显示行数 icount//总行数 pcount//总页数 三个参数。

2014-12-04

可自定义2048游戏源码

可自定义的2048游戏,简单替换style文件夹下的图片即可。有动画效果。

2014-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除