自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(270)
  • 资源 (11)
  • 收藏
  • 关注

转载 Elasticsearch5.X进行聚合操作时提示Fielddata is disabled on text fields by default

Elasticsearch5.X聚合操作异常:Fielddata is disabled on text fields by default. Set fielddata=true on [color] in order to load fielddata in memory by uninverting the inverted index. Note that this can howev...

2018-12-04 13:42:45 3260

转载 分布式锁的几种实现方式

摘要: 目前几乎很多大型网站及应用都是分布式部署的,分布式场景中的数据一致性问题一直是一个比较重要的话题。分布式的CAP理论告诉我们“任何一个分布式系统都无法同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance),最多只能同时满足两项。目前几乎很多大型网站及应用都是分布式部署的,分布式场景中的数据一致性问题一直是一个比...

2018-11-13 21:49:06 399

转载 搞定python多线程和多进程

1 概念梳理:1.1 线程1.1.1 什么是线程线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。一个线程是一个execution context(执行上下文),即一个cpu执行时所需要的一串指令。1.1.2 线程的工作方式假设你正在读一本书,没...

2018-09-03 22:19:39 577

转载 linux awk sort 统计ip出现次数

visit.log180.153.114.199 - - [03/Jul/2013:14:44:43 +0800] GET /wp-login.php?redirect_to=http%3A%2F%2Fdemo.catjia.com%2Fwp-admin%2Fplugin-install.php%3Ftab%3Dsearch%26s%3DVasiliki%26plugin-search-inpu...

2018-09-03 07:45:06 1416

转载 Linux下的sort排序命令详解(二)

有时候学习脚本,你会发现sort命令后面跟了一堆类似-k1,2,或者-k1.2 -k3.4的东东,有些匪夷所思。今天,我们就来搞定它—-k选项!1 准备素材[root@FDMdevBI opt]# cat testsort.txt google 110 5000baidu 100 5000guge 50 3000sohu 100 4500第一个域是公司名称,第二个域是公司人数...

2018-08-31 19:36:39 469

转载 Hive Serde

序列化作用序列化是对象转换为字节序列的过程。 反序列化是字节序列恢复为对象的过程。 对象的序列化主要有两种用途:对象的持久化,即把对象转换成字节序列后保存到文件中;对象数据的网络传送。 除了上面两点, hive的序列化的作用还包括:Hive的反序列化是对key/value反序列化成hive table的每个列的值。Hive可以方便的将数据加载到表中而不需要对数据进行转换,这样在处理海量数据时可...

2018-08-27 08:27:45 3959

转载 吞吐量(TPS)、QPS、并发数、响应时间(RT)概念

开发的原因,需要对吞吐量(TPS)、QPS、并发数、响应时间(RT)几个概念做下了解,查自百度百科,记录如下:1. 响应时间(RT)   响应时间是指系统对请求作出响应的时间。直观上看,这个指标与人对软件性能的主观感受是非常一致的,因为它完整地记录了整个计算机系统处理请求的时间。由于一个系统通常会提供许多功能,而不同功能的处理逻辑也千差万别,因而不同功能的响应时间也不尽相同,甚至同一功能在不同...

2018-08-26 15:31:49 5616

转载 简单总结Python中序列与字典的相同和不同之处

共同点: 1.它们都是python的核心类型,是python语言自身的一部分核心类型与非核心类型 多数核心类型可通过特定语法来生成其对象,比如"dave"就是创建字符串类型的对象的表达式; 非核心类型需要内置函数来创建,比如文件类型需要调用内置函数open()来创建。 类也可以理解成自定义的非核心类型。2.边界检查都不允许超越索引边界? 1 2 3...

2018-08-21 12:41:45 601

转载 Python3中用什么替换commands模块的getstatusoutput()

 先翻译一段文章:https://stackoverflow.com/questions/11344557/replacement-for-getstatusoutput-in-python-3在最后的“注意”一节中,给出笔者自己的看法。 在Python 2中,经常使用commands模块来执行shell的命令,尤其是常用getstatusoutput()函数。但是在Python ...

2018-08-21 10:03:13 4125

转载 Elasticsearch创建索引和映射结构详解

前言这篇文章详细介绍了如何创建索引和某个类型的映射。下文中[address]指代elasticsearch服务器访问地址(http://localhost:9200)。1       创建索引1.1     简单创建语句curl -XPUT [address]/blog1.2     带参数的创建语句curl -XPUT [address]/blog/ -d '{ ...

2018-08-07 19:30:35 1948

转载 Elasticsearch - 短语匹配(match_phrase)以及slop参数

因为elasticsearch 里默认的IK分词器是会将每一个中文都进行了分词的切割,所以你直接想查一整个词,或者一整句话是无返回结果的设置了not_analyzed后,搜索的时候就不行了(因为没有进行分词,所以理解为精确查找)如果没有设置"index":"not_analyzed" ,也可以采用下面的查询方式  短语匹配(Phrase Matching)  就像用...

2018-08-07 19:10:47 68257 3

转载 C和C++的区别

C和C++的关系:就像是win98跟winXP的关系。C++是在C的基础上增加了新的理论,玩出了新的花样。所以叫C加加。C和C++的区别:C是一个结构化语言,它的重点在于算法和数据结构。C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进行运算处理得到输出(或实现过程(事务)控制)。 C++,首要考虑的是如何构造一个对象模型,让这个模型能够契合与之对应的问题域,这样就可以通过获取...

2018-08-01 17:22:02 8447 1

转载 Celery 框架学习笔记

在学习Celery之前,我先简单的去了解了一下什么是生产者消费者模式。生产者消费者模式在实际的软件开发过程中,经常会碰到如下场景:某个模块负责产生数据,这些数据由另一个模块来负责处理(此处的模块是广义的,可以是类、函数、线程、进程等)。产生数据的模块,就形象地称为生产者;而处理数据的模块,就称为消费者。单单抽象出生产者和消费者,还够不上是生产者消费者模式。该模式还需要有一个缓冲区处于生...

2018-07-25 15:29:48 289

转载 elasticsearch中 refresh 和flush区别

elasticsearch中 refresh 和flush区别elasticsearch中有两个比较重要的操作:refresh 和 flushrefresh操作当我们向ES发送请求的时候,我们发现es貌似可以在我们发请求的同时进行搜索。而这个实时建索引并可以被搜索的过程实际上是一次es 索引提交(commit)的过程,如果这个提交的过程直接将数据写入磁盘(fsync)必然会影响性能,所以es中设计...

2018-05-17 12:39:45 869

原创 Elasticsearch 排序

elasticsearch 聚合需字段”fielddata”: truehow to set fielddata=true in kibanahttps://stackoverflow.com/questions/38145991/how-to-set-fielddata-true-in-kibanaI am new to Kibana, have data loaded into Elastic...

2018-05-17 10:10:41 715

转载 Protocol Buffer的C++入门教程

1.protobuf简介protobuf(Protocol Buffers )是google的开源项目,官网见:click这里,源码见:github。更准确的官方描述是:protobuf是google的中立于语言,平台,可扩展的用于序列化结构化数据的解决方案。简单的说,protobuf是用来对数据进行序列化和反序列化。那么什么是数据的序列化和反序列化呢?见下文。protobuf支持目前主流的开发语...

2018-04-30 19:53:11 1080

转载 消息队列使用的四种场景介绍

消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题实现高性能,高可用,可伸缩和最终一致性架构使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ二、消息队列应用场景以下介绍消息队列在实际应用中常用的使用场景。异步处理,应用解耦,流量削锋和消息通讯四个场景2.1异步处理场景说明:用户注册后,需要发注册邮件和注...

2018-04-30 15:12:24 416

转载 今日头条 CEO 张一鸣:面试了 2000 个年轻人

正文  张一鸣算是 80 后中绝对的佼佼者。1983 年出生的张一鸣 ,在 2005 年从南开大学毕业后,至今参与创办了 5 家公司,2013 年,他先后入选《福布斯》“中国 30 位 30 岁以下的创业者”和《财富》“中国 40 位 40 岁以下的商业精英”,是目前国内互联网行业最受关注的青年领袖之一。2016 年 7 月 26 日,艾瑞发布 2016 中国独角兽企业估值榜单,今日头条以 92....

2018-04-30 14:33:30 1033

转载 Protobuf详解(.Java文件)

们在开发一些RPC调用的程序时,通常会涉及到对象的序列化/反序列化的问题,比如一个“Person”对象从Client端通过TCP方式发送到Server端;因为TCP协议(UDP等这种低级协议)只能发送字节流,所以需要应用层将Java对象序列化成字节流,数据接收端再反序列化成Java对象即可。“序列化”一定会涉及到编码(encoding,format),目前我们可选择的编码方式:    1)使用JS...

2018-04-02 10:17:42 1573

转载 图解Protobuf编码

Protobuf是Google发布的消息序列化工具。Protobuf定义了消息描述语法(proto语法)和消息编码格式,并且提供了主流语言的代码生成器(protoc)。本文仅讨论Protobuf消息编码格式,并且假定读者已经熟悉Protobuf消息描述语法(proto2或者proto3)。基本编码规则Protobuf消息由字段(field)构成,每个字段有其规则(rule)、数

2018-03-31 21:15:49 2225

转载 全面理解Python中self的用法

1 self代表类的实例,而非类。实例来说明:?1234567class Test:  def prt(self):    print(self)    print(self.__class__)  t = Test()t.prt()执行结果如下?12<__main__.Test object at 0x000000000284E080><class '__main__.Test...

2018-03-29 14:24:03 3950 1

转载 UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte s

【问题】python中已获取网页:http://blog.csdn.net/hfahe/article/details/5494895的html源码,其时UTF-8编码的。提取出其标题部分:?12345<span class="link_title"><a href="/hfahe/article/details/5494895"> 在2008 Beijing Perl 大...

2018-03-10 17:41:32 1109

转载 python编码问题

编码问题,一直是使用python2时的一块心病。几乎所有的控制台输入输出、IO操作和HTTP操作都会涉及如下的编码问题:UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xc4 in position 10: ordinal not in range(128)这究竟是是个什么东西?!有时稀里糊涂地用一坨encode(),decode()之类的...

2018-03-10 15:09:31 189

转载 xargs

学习这个xargs花了很长时间,在网上翻了很久也查了很多书关于xargs的介绍,都只是简单的介绍了它的几个用法,却没有介绍它工作的原理,man也只有简单的介绍,并没有说各个选项之间配合时的情况。所以我只能自己探索了,探索的路上确实充满了荆棘,不断的总结却不断的被实验推翻,每当以为自己得出了结论,却往往发现不够完善,所以我自己也是边测试边删改完成这篇学习记录,但是不得不说这过程充满了乐趣。我个人感觉...

2018-02-26 17:30:31 2177

转载 egrep

其实主要是正则表达式中的一些特殊语法。在网上找的几篇文章,截取相关部分贴在了下面,方便以后翻阅。参考:http://hi.baidu.com/sei_zhouyu/item/c18e1a950d2e9eb5cc80e558            http://blog.mcuol.com/User/pclli/Article/55269_1.htm还有万能的百度百科:http://baike.ba...

2018-02-26 17:28:02 430

转载 python argparse用法总结

https://www.jianshu.com/p/fef2d215b91d1. argparse介绍是python的一个命令行解析包,非常编写可读性非常好的程序2. 基本用法prog.py是我在linux下测试argparse的文件,放在/tmp目录下,其内容如下:#!/usr/bin/env python# encoding: utf-8import argparseparser =...

2018-02-26 15:48:28 550

转载 linux内存cpu信息查看

在系统维护的过程中,随时可能有需要查看 CPU 使用率,并根据相应信息分析系统状况的需要。在 CentOS 中,可以通过 top 命令来查看 CPU 使用状况。运行 top 命令后,CPU 使用状态会以全屏的方式显示,并且会处在对话的模式 -- 用基于 top 的命令,可以控制显示方式等等。退出 top 的命令为 q (在 top 运行中敲 q 键一次)。top命令是Linux下常用的性能分析工具

2018-01-18 15:32:59 683

转载 M调优总结 -Xms -Xmx -Xmn -Xss

堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制。32位系统下,一般限制在1.5G~2G;64为操作系统对内存无限制。我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m。典型设置:java -Xmx3550m -Xms3550m -Xmn2

2018-01-18 13:41:32 651

转载 Elasticsearch Optimization

Elasticsearch Optimization Checklist假设hardware 假设index/query rate假设elasticsearch用户运行elasticsearchhardware Level见 [Elasticsearch Hardware Recommendation][9]。System Leveladjust vm.swappiness [1][1]# 这是永

2018-01-18 10:43:04 520

转载 iostat -x 1 查看磁盘的IO信息

点评:Linux系统出现了性能问题,一般我们可以通过top.iostat,vmstat等命令来查看初步定位问题。其中iostat可以给我们提供丰富的IO状态数据Linux系统出现了性能问题,一般我们可以通过top.iostat,vmstat等命令来查看初步定位问题。其中iostat可以给我们提供丰富的IO状态数据。 www.jb51.net iostat结果分析 [kefu

2018-01-17 14:45:33 3157 2

转载 python2.7中文乱码

在使用selenium处理中文网页或者网页标题是中文的时候,出现UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128),1 from selenium import webdriver2 import sys3 4 print sys.

2017-12-29 14:31:46 1297

转载 python常用函数

hex()中文说明:转换一个整数对象为十六进制的字符串表示英文说明hex(...)    hex(number) -> string        Return the hexadecimal representation of an integer.           >>> hex(3735928559)       '

2017-12-12 10:41:27 622

转载 linux shell编程:/bin/bash^M bad interpreter:没有那个文件或目录解决方法

今天在Ubuntu下打开Windows下编辑的脚本文件时出现提示说/bin/bash^M bad interpreter:没有那个文件或目录百度了一下说是文件格式的问题,解决方法如下:(原文http://blog.sina.com.cn/s/blog_6825f0940101643c.html)bash: ./eth0-access: /bin/bash^M: bad

2017-11-14 10:22:22 599

转载 Azkaban3.x集群部署(multiple executor mode)

Azkaban3.x集群部署(multiple executor mode)介绍Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有三个重要组件:关系数据库(目前仅支持mys

2017-11-13 21:07:10 623

转载 函数对象与闭包详解,函数式编程

1.一切皆对象python是面向对象语言。在python中,一切皆对象,函数自然也不例外。在python中定义个最简单的函数如下:def fun(): print "hello world"12当代码执行遇到def以后,会现在内存中生成一个函数对象,这个函数对象被定义为这个函数的名字。当我们调用函数时就要指定函数的名字,通过函数名才能找到这个函数。 函数的代码段在定义时

2017-10-31 11:33:10 578

转载 python迭代工具

1 并行迭代2 按索引迭代1.并行迭代   有时候,一个程序中需要我们同事在一个for循环中迭代两个以上的集合。其中一种方法就是循环其中一个集合的索引,然后根据索引对所有集合进行循环,例如:[python] view plain copynames = ['anne','beth','george','damo

2017-10-28 20:59:25 1058

转载 HCE

hadoop概念Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!、Facebook、淘宝、中移动、百度、腾讯等公司都在借助Hadoop进行海量数据处理。Hadoop系统性能不仅取决于任务调度器的分配策略,还受到分配后实际任务执行效率的影响,任务执行常常涉及读取、排序、归并、压缩、写入等具体阶段。百度写的一篇关于Hadoop的C++扩展.pdfh

2017-10-25 20:28:22 609

转载 Java 集合系列17之 TreeSet详细介绍(源码解析)和使用示例

Java 集合系列17之 TreeSet详细介绍(源码解析)和使用示例 概要这一章,我们对TreeSet进行学习。我们先对TreeSet有个整体认识,然后再学习它的源码,最后再通过实例来学会使用TreeSet。内容包括:第1部分 TreeSet介绍第2部分 TreeSet数据结构第3部分 TreeSet源码解析(基于JDK1.6.0_45)第4部分 Tr

2017-10-14 19:15:43 284

转载 python中list,str,json,dict使用

Python中使用json.loads解码字符串时出错:ValueError: Expecting property name: line 1 column 2 (char 1)问题描述今天在解析字符串中,使用json.loads解码字符串,脚本如下:import jsonstring = "{u'lat': 61.190495, u'lng': -149.86884}"

2017-10-12 09:17:38 2670

转载 python mutilprocess

mutilprocess简介像线程一样管理进程,这个是mutilprocess的核心,他与threading很是相像,对多核CPU的利用率会比threading好的多。简单的创建进程import multiprocessingdef worker(num): """thread worker function""" print 'Worker:', num

2017-10-09 16:16:29 1626

机器学习书籍大全

书籍包括xgboost_with_python.pdf,Deep Time Series Forecasting with Python.pdf,docdownloader.com_long-short-term-memory-networks-with-python.pdf,Basics for Linear Algebra for Machine Learning Discover the Mathematical Language of Data in Python.pdf,Machine Learning Algorithms.pdf

2018-08-22

PHP和MySQL.Web开发(原书第4版)高清版

PHP和MySQL.Web开发(原书第4版)高清版

2016-08-14

java 微信公众号开发案例

微信公众号开发案例,自己摸索下就能运行了

2016-08-14

微信公众平台应用开发实战

微信公众平台应用开发实战源代码

2016-08-14

Mashout in action

mashout的经典之作

2016-05-05

大数据管理:数据集成的技术、方法与最佳实践

大数据管理:数据集成的技术、方法与最佳实践

2016-04-28

R数据可视化手册代码

本书的全部代码,没有错误

2016-04-27

R数据可视化手册

R数据可视化手册

2016-04-27

数据挖掘与R语言代码

数据挖掘与R语言代码,分享快乐,这是我在大学里下载的

2016-04-24

ggplot2数据分析与图形艺术源代码

ggplot2数据分析与图形艺术源代码,里面有一些我学习的笔记

2016-04-24

spark学习总结

我是何成俭,很高兴认识你

2016-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除