_tommy-CSDN博客

原创交互式查询工具impala

交互式查询工具impala主要内容第 1 部分 Impala概述（Impala是什么，优势，劣势，与Hive对⽐）第 2 部分 Impala的安装(制作本地Yum源⽅式安装)第 3 部分 Impala的架构原理(有哪些组件，组件的作⽤，查询流程，查询计划)第 4 部分 Impala的使⽤（使⽤与Hive类似，编写sql⽅式；Impala的DDL,查询语法，导⼊数据）第 5 部分 Impala的Java 开发(Java+C++,使⽤JDBC⽅式查询Impala)第 6 部分 Impala的优化(

2021-07-12 02:16:47 817 1

原创自定义分区

自定义分区需求说明场景：实际生产中需求变化多端，默认分区规则往往不能满足需求，需要结合业务逻辑来灵活控制分区规则以及分区数量。如何定制自己需要的分区规则？具体步骤：自定义类继承Partitioner，重写getPartition()方法在Driver驱动中，指定使用自定义Partitioner在Driver驱动中，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask数量。需求：按照不同的appkey把记录输出到不同的分区中原始日志格式001 001577c3

2021-07-01 20:21:09 383

原创序列化Writable接口

序列化Writable接口基本的序列化类型往往不能满足所有需求，比如在Hadoop框架内部传递一个自定义bean对象，那么对该对象就要实现Writable序列化接口。编写套路必须实现Writable接口反序列化时，需要反射调用空参构造函数，所以必须有空参构造public CustomBean() { super();}重写序列化方法@Overridepublic void write(DataOutput out) throws IOException { ....}

2021-07-01 20:20:21 589 1

原创大数据简介

大数据简介大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉，管理和处理的数据集合，是需要新处理模式才能具有更强的决策力，洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点大数据的特点可以用“5V”来描述，大量 Volume :采集、存储和计算的数据量都非常大。高速 Velocity（低延迟）：在大数据时代，数据的创建、存储、分析都要求被高速处理，比如电商网站的个性化推荐尽可能要求实时完成推荐，这也是大数据区别于传统数据挖掘的显著特征。多

2021-07-01 20:19:44 367

原创工厂模式介绍

简单工厂模式看一个披萨的项目：要便于披萨种类的扩展，要便于维护披萨的种类很多(比如 GreekPizz、 CheesePizz 等)披萨的制作有 prepare， bake, cut, box完成披萨店订购功能。传统的代码//将Pizza 类做成抽象public abstract class Pizza { protected String name; //名字 //准备原材料, 不同的披萨不一样，因此，我们做成抽象方法 public abstract void pr

2021-06-06 19:51:33 244

原创基于Netty的WebSocket开发网页版聊天室

基于Netty的WebSocket开发网页版聊天室WebSocket简介WebSocket是一种在单个TCP连接上进行全双工通信的协议。WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，客户端和服务器只需要完成一次握手，两者之间就直接可以创建持久性的连接，并进行双向数据传输。应用场景十分广泛:社交订阅协同编辑/编程股票基金报价体育实况更新多媒体聊天在线教育实时地图位置实时数据流的拉取与推送WebSock

2021-06-06 10:31:00 787 1

原创 Netty案例-群聊天室

Netty案例-群聊天室案例要求:编写一个Netty群聊系统，实现服务器端和客户端之间的数据简单通讯。实现多人群聊服务器端: 可以监测用户上线，离线，并实现消息转发功能。客户端：可以发消息给其它所有用户，同时可以接受其它用户发送的消息。聊天室服务端编写NettyChatServerpackage com.my.chat;import io.netty.bootstrap.ServerBootstrap;import io.netty.channel.*;import io.net

2021-06-06 08:01:45 195

原创 Netty编解码器

Netty编解码器java的编解码编码（Encode）称为序列化，它将对象序列化为字节数组，用于网络传输、数据持久化或者其它用途。解码（Decode）称为反序列化，它把从网络、磁盘等读取的字节数组还原成原始对象（通常是原始对象的拷贝），以方便后续的业务逻辑操作。java序列化对象只需要实现java.io.Serializable接口并生成序列化ID，这个类就能够通过 java.io.ObjectInput和java.io.ObjectOutput序列化和反序列化。java序列化对象只需

2021-06-05 23:56:38 310 2

原创 netty核心原理

Netty核心原理Netty介绍原生 NIO 存在的问题NIO 的类库和 API 繁杂，使用麻烦：需要熟练掌握 Selector、ServerSocketChannel、 SocketChannel、ByteBuffer等。需要具备其他的额外技能：要熟悉 Java 多线程编程，因为 NIO 编程涉及到 Reactor 模式，你必须对多线程和网络编程非常熟悉，才能编写出高质量的 NIO 程序。开发工作量和难度都非常大：例如客户端面临断连重连、网络闪断、半包读写、失败缓存、网络拥塞和异常流的处理

2021-06-05 22:31:48 442 1

原创 netty入门案例

netty案例入门案例Netty 是由 JBOSS 提供的一个 Java 开源框架,所以在使用得时候首先得导入Netty的maven坐标<dependency> <groupId>io.netty</groupId> <artifactId>netty-all</artifactId> <version>4.1.42.Final</version></dependency>Net

2021-06-05 22:27:57 295

原创 Win10下 Mysql root用户密码忘记如何解决

mysql root 用户密码忘记解决方案（Win10）按下电脑键盘上的win+R快捷键打开电脑的运行窗口，之后，直接在运行窗口中输入services.msc并单击回车。在进入到电脑的服务窗口之后，找到右侧窗口中的“MySQL”，选定，将其“停止”即可，这样，MySQL Server服务就停止。接下来，需要找到MySQL在电脑中的安装位置，找到之后，会看到其文件夹中有一个ini格式的文件...

2018-04-28 15:15:38 6186 2

原创 numpy.newaxis

从字面上是插入新的维度的意思import numpy as npb = np.array([1, 2, 3, 4, 5, 6])print("b.shape:",b.shape)print("b[np.newaxis]:",b[np.newaxis])print("b[:,np.newaxis]:",b[:,np.newaxis])print("b[:,np.newaxis].shape:

2017-12-08 11:46:10 591

原创人脸关键点检测

一：目标人脸关键点检测是在人脸检测的基础上，对人脸上的特征点例如眼睛、鼻子、嘴巴等进行定位。本例是使用caffe框架实现的结果，效果如下：二：数据源的制作因为lmdb不支持多标签，所以这里使用的是hdf5格式，支持多标签。卷积神经网络可以用于分类和回归任务，做分类任务时最后一个全连接层的输出维度为类别数，

2017-12-08 11:38:30 9606 1

原创以root权限在pycharm 中运行python 文件

pycharm 中Permission denied问题解决方案系统：ubuntu16.4 1、在/usr/bin/目录下新建文件 python2.7_sudo.sh ：sudo gedit /usr/bin/python2.7_sudo.sh 在文件中写入下列代码：#! /bin/bash sudo python $* 2、给sh文件赋予权限：cd /usr/bin/ sudo

2017-12-04 17:14:26 3856

原创 ubuntu16.04 安装caffe 无GPU

https://www.cnblogs.com/go-better/p/7160615.html 此版本注意之后要将path 路径导出 export PYTHONPATH=/home/tom/caffe/python:$PYTHONPATH/home/tom/caffe/python为自己安装 caffe下的python 文件夹所在的路径安装时遇到问题解决方案： http://blog.csdn

2017-11-27 14:10:11 532

原创 ubuntu下中文文件名乱码

windows下的中文文件名拷贝到ubuntu下面以后，文件名直接变成乱码，原因为windows下的文件名以GBK编码，而Ubuntu下的文件名为utf-8编码。ubuntu下有一个工具可以用来转换文件名的编码，这个工具是convmv 。安装方法： apt-get install convmv使用方法： convmv -f GBK -t utf-8 –notest *如此可以把当前目录下的所有中

2017-11-21 11:26:21 10242 4

原创 centos7 cdh5.8使用python 的 pysh2连接hiveServer2

1.可以使用CDH自带的pip /opt/cloudera/parcels/CDH-5.8.3-1.cdh5.8.3.p0.2/lib/hue/build/env/bin/pip install pyhs22.复制cdh的hive包py到指定目录： scp -r /opt/cloudera/parcels/CDH-5.8.3-1.cdh5.8.3.p0.2/lib/hive/lib/py/*/u

2017-10-24 10:47:52 1006

转载基于python impyla，pyhs2的hive客户端

文章写的不错，再而参照官网 http://blog.csdn.net/gamer_gyt/article/details/52564335

2017-10-23 17:46:32 2586

转载 Hive修改表语句

重命名表ALTER TABLE table_name RENAME TO new_table_name;上面这个命令可以重命名表，数据所在的位置和分区都没有改变。改变列名/类型/位置/注释ALTER TABLE table_name CHANGE[CLOUMN] col_old_name col_new_name column_type[CONMMENT col_conmment][FI

2017-10-19 16:26:20 619

原创 k-近邻算法手写识别系统

机器学习习实战示例：使用k-邻近算法的手写识别系统手机数据：提供文本文件准备数据：编写函数img2vector(),将图像格式转化为分类器使用的向量格式分析数据：在Python命令提示符中检查数据，确保它符合要求。训练算法：不适合k-邻近算法测试算法：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本的区别在于测试样本是已经分类好的数据，如果预测分类

2017-10-16 20:03:12 439

原创 K邻近算法

机器学习实战本章内容：K-近邻分类算法从文本文件中解析和导入数据使用 Matplotlib创建扩散图归一化数值k-近邻算法概述原理：k-近邻算法采用测量不同特征值之间的距离方法进行分类优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高，空间复杂度高适用数据范围：数值型和标称型工作原理：存在一个样本数据集合，也称作训练要样本集合

2017-10-16 16:35:46 668

原创 python3 .6 下报错 RuntimeError: dictionary changed size during iteration

循环字典键值，删除不符合要求的键值对def createTree(dataSet, minSup=1): #create FP-tree from dataset but don't mine headerTable = {} #go over dataSet twice for trans in dataSet:#first pass counts frequency of

2017-10-15 20:04:02 6755

转载 python中set和frozenset方法和区别

先简单说一下sett.add('x') # 添加一项s.update([10,37,42]) # 在s中添加多项t.remove('H') # 删除一项len(s) # set 的长度x in s # 测试 x 是否是 s 的成员 x not in s # 测试 x 是否不是 s 的成员 s.issubset(t) s <= t # 测试是否 s 中的

2017-10-12 23:41:32 1266

原创 TypeError: unhashable type: 'matrix'解决方法以及 Python3下map函数的显示问题、 python numpy中nonzero()的用法

因为使用的Python3的缘故，所以使用《机器学习实战》里面的代码总是遇到各种问题，这次是第9章程序清单9-2回归树切分函数里的一行：for splitVal in set(dataSet[:,featIndex]): 即matrix类型不能被hash。把代码改为如下即可：for splitVal in set((dataSet[:,featIndex].T.A.tolist())[0]):

2017-10-12 17:41:12 1141 1

转载 centos7 下安装pip pip3

上一篇说过了如何在centos7 上安装python3 并与python2.7共存。这篇说一下安装python2.7 下安装的pip 以及python3 下的pip31.yum -y install epel-release2..执行成功之后，再次执行yum install python-pip3.对安装好的pip进行升级 pip install –upgrade pip到这里pip 安

2017-09-30 14:52:57 12228 4

转载 linux-Centos7安装python3并与python2共存

http://www.cnblogs.com/JahanGu/p/7452527.html 先安装相关包yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make在mv python python.bak

2017-09-30 11:07:45 715

原创 Wget：Windows下安装wget

1、下载官网：http://gnuwin32.sourceforge.net/packages/wget.html 下载地址：http://downloads.sourceforge.net/gnuwin32/wget-1.11.4-1-setup.exe2、配置系统环境变量新建变量“GNU_HOME”：GNU_HOME=C:\Program Files (x86)\GnuWin3

2017-09-26 17:29:33 2274

转载 centos7 设置下使用yum安装mysql并创建用户

CentOS7的yum源中默认好像是没有mysql的。为了解决这个问题，我们要先下载mysql的repo源下载mysql的repo源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm安装mysql-community-release-el7-5.noarch.rpm包sudo rpm -ivh mysql-c

2017-09-26 11:21:14 1327

转载更改pip源至国内镜像，显著提升下载速度

经常在使用python的时候需要安装各种模块，而pip是很强大的模块安装工具，但是由于国外官方pypi经常被墙，导致不可用，所以我们最好是将自己使用的pip源更换一下，这样就能解决被墙导致的装不上库的烦恼。网上有很多可用的源，例如豆瓣：http://pypi.douban.com/simple/ 清华：http

2017-09-24 17:30:15 2504

原创 centos7 修改默认ssh端口 22

默认ssh端口为 22，总是被人扫描登录！修改默认端口为39999的方法：修改ssh配置文件 /etc/ssh/sshd_config，将里面的 Port 22前面的注释去掉，将22修改为 2218[root@niche ~]# whereis sshssh: /usr/bin/ssh /etc/ssh /usr/share/man/man1/ssh.1.gz[root@niche ~]#

2017-09-21 10:22:28 1851

原创 'range' object doesn't support item deletion

python3 与python2 区别

2017-09-12 22:27:44 1006

原创 CDH搭建hadoop集群

目的：CDH5.8.0离线搭建hadoop环境关于CDH和ClouderaManagerCDH (Cloudera’s Distribution, includingApache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境。Cloudera Manager（本文以下简称为CM）则

2017-09-04 15:02:38 1999

原创 zstack快速安装文档

1、环境准备1.1 准备软件工具系统镜像 ZStack-x86_64-DVD-2.1.1.514.isoZstack安装包 ZStack-installer-2.1.1.514.binhttp://www.zstack.io/product_downloads/请准备以上的软件，并通过 MD5 校验工具核对校验码，以确保软件完整无损。1.2 核对硬件设备以单节点服务器作为部署案例，对服务器

2017-09-04 11:02:22 18428 1

原创 python3.6.1 打包成.exe可执行文件

环境： python3.6.1 win10 1、下载pyinstaller. 2、下载并安装pywin32 (根据自己的python版本我的对应版本pywin32-220.win-amd64-py3.6.exe) 3、进入pyinstaller文件夹执行 python pyinstaller.py会出现以下内容，说明安装成功 4、打包，选好自己的写的一个python程序( 例

2017-08-26 19:27:44 3386

原创 hadoop集群 NTP时间同步

四台centos：master slave1 slave2 slave3一：编辑/etc/ntp.conf $ sudo vi /etc/ntp.conf 同时在后面加上 server 127.127.1.0 Fudge 127.127.1.0 stratum 10至于第一个红圈写你的网段，后面时子网掩码，涉及到网络的一点知识。二：重新启动服务： service ntpd sto

2017-08-25 14:58:44 1176

原创扒一扒kylin遇到的事

前言：kylin好端端的运行两个月，突然炸了，build cube在 create table 一直出错，后排查是hbase的原因，弄了三天，终于解决，说多都是泪~~~刚开始kylin报错如下：java.lang.RuntimeException: HBase table KYLIN_DWMTH3AXKI exists! at org.apache.kylin.storage.hbase.s

2017-08-24 17:06:38 3548

原创 python 取出 Mongdb 中的数据转化成DataFrame 然后用pandas处理数据

这段时间再玩python ，数据源来源于mongdb ，数据处理方式用的是pandas刚开始是用的一个比较麻烦的转化，直接上代码：方法一：import pandas as pdfrom pymongo import MongoClientclient = MongoClient('192.168.1.5',10070)db = client.dbtestcollection=db.data_tab

2017-08-16 11:29:08 3958 1

原创 python 之 pandas 详解

一、导入库import pandas as pdimport numpy as npimport matplotlib.pyplot as plt二、创建对象 1、通过传递一个list对象来创建一个 Series,pandas会默认创建整型索引：import pandas as pdimport numpy as npimport matplotlib.pyplot as plts= pd

2017-08-09 15:51:44 1959

原创 xgboost 在 windows 上的安装

本文环境 anoconda3 + python3.6.1 + win10 一、 window上已经安装好anaconda3 ，git 二、 mingw-w64的安装（编译工具）下载地址： https://sourceforge.net/projects/mingw-w64/files/Toolchains%20targetting%20Win64/Personal%20B

2017-08-07 09:54:28 388

原创 BeautifulSoup用法

1、创建Beautiful Soup对象from bs4 import BeautifulSouphtml = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><b>The Dormouse's story</b></p><p class="stor

2017-08-01 18:03:06 367

Netty-Springboot.zip

2021-06-06

bok-Exploiting KG

知识图谱（Knowledge Graph/Vault）又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

2017-12-07

手写数字识别10000次cnn结果 (.caffemodel)

手写数字识别10000次cnn结果，后缀名称为.caffemodel的网络模型文件，已经在caffe初探3中生成了若干网络模型文件，在这里我们可以选择迭代10000次的模型文件，里面包含了网络参数。

2017-11-30

haarcascade_frontalface_default.xml

人脸识别中的默认分类器，主要用于人脸图片中的人脸轮廓的识别。

2017-11-09

haarcascade_eye.xml

人脸识别，opencv中的眼睛识别分类器。可用于各种人脸图片的眼睛识别。

2017-11-09

haarcascade_frontalface_alt_tree.xml

OpenCV支持的目标检测的方法是利用样本的Haar特征进行的分类器训练，得到的级联boosted分类器（Cascade Classification）。注意，新版本的C++接口除了Haar特征以外也可以使用LBP特征。先介绍一下相关的结构，级联分类器的计算特征值的基础类FeatureEvaluator，功能包括读操作read、复制clone、获得特征类型getFeatureType，分配图片分配窗口的操作setImage、setWindow，计算有序特征calcOrd，计算绝对特征calcCat，创建分类器特征的结构create函数。级联分类器类CascadeClassifier。

2017-11-09

opencv_python-3.3.1-cp36-none-win_amd64.whl

人脸的Haar特征分类器就是一个XML文件，该文件中会描述人脸的Haar特征值。当然Haar特征的用途可不止可以用来描述人脸这一种，用来描述眼睛，嘴唇或是其它物体也是可以的。OpenCV有已经自带了人脸的Haar特征分类器。OpenCV安装目录中的\data\ haarcascades目录下的haarcascade_frontalface_alt.xml与haarcascade_frontalface_alt2.xml都是用来检测人脸的Haar分类器。这个haarcascades目录下还有人的全身，眼睛，嘴唇的Haar分类器。关于人脸的Haar特征分类器，可以直接使用cvHaarDetectObjects。离线的人脸检测技术一般采用神经网络的方法，ColorReco就是用神经网络的思路做人脸识别的。

2017-10-31

haarcascade_frontalface_alt2.xml

2017-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人