morven936-CSDN博客

原创 PySpark(二): 在IPython Notebook上使用Spark

文章目录1. 准备2. 启动3. 测试上一篇博客: PySpark(一): Hadoop SingleNode部署下Spark on yarn1. 准备1. 将Hadoop启动2. 安装:Anaconda创建虚拟环境conda create -n venv python=2.7安装Ipython Notebookconda install ipython ipython...

2019-08-22 22:24:23 490

原创 PySpark(一): Hadoop SingleNode部署下Spark on yarn

环境: MacOX系统Java: 8Scala: 2.12.4Hadoop: 2.7.7Spark: 2.4.0文章目录1. 准备工作2. 配置并启动Hadoop1. 配置3. 初始化HDFS3. 启动/停止2. Spark配置并启动1. 配置2.启动4. 遇到的问题:1. 准备工作安装Java, Scala, 并下载Spark及其相应版本的Hadoop;编辑~/.zsh...

2019-08-21 22:55:01 308 1

原创 Python2字符串编解码问题

Python2字符串编解码问题在python2中有两种类型的字符串：str和unicode。二者的转换如下： unicode字符串通过encode函数转换为str字符串，称为编码； str字符串通过decode函数转化为unicode字符串，称为解码.下面以print打印为例进行说明:当字符串为str类型时，操作系统直接将其交给终端进行显示；当字符串为unicode类型时，操作系...

2019-06-13 15:39:08 1515

原创 PG中使用索引进行模糊查询

PG中使用索引进行模糊查询现在数据库中存在一个tb_user（id, name，age）表,并且已经针对name字段创建了索引tb_user_name_idx。1. 模糊查询没有使用索引正常情况下，执行如下SQL语句：explain analyze select * from tb_user where name like '%aaa%'；发现该SQL语句在name字段上使用的是Seq...

2019-04-17 19:29:50 2994

原创使用Jenkins MultiBranch实现Docker build镜像并push到DockerHub

使用Docker部署Jenkins，并通过MultiBranch功能自动对项目进行打包并docker build和push。1. Docker部署Jenkins拉取镜像docker pull jenkinsci/jenkins:2.150.1启动docker run --name jenkins -d -p 8080:8080 -p 50000:50000 -v ~/workspa...

2018-12-29 19:14:54 2138

原创 SpringBoot(二): 使用Dokcer+SpringCloud+Consul+Fabio搭建微服务

SpringBoot: 2.1.1SpringCloud: Greenwich.M3Consul: consul:1.3.0Fabio: fabiolb/fabio:1.5.5-go1.9.2具体的pom.xml和application-dev.yml文件内容可以参考我的GitHub项目1. Consul1.1 安装docker pull consul:1.3.01.2 启动...

2018-12-21 22:19:30 1163 1

原创 SpringBoot(一): 使用Docker打包SpringBoot并Push到DockerHub

SpringBoot: 2.1.1com.spotify.dockerfile-maven-plugin: 1.4.81. Docker打包1.1 修改application.ymlspring: profiles: active: @spring.profiles.active@** @spring.profiles.active@中的pring.profiles....

2018-12-21 22:15:48 1521

原创 Spring(二):IoC

SpringBoot: 2.1.1文章目录1. IoC简介2. 装配Bean2.1 通过扫描装配Bean2.2 自定义第三方Bean3. 依赖注入(Dependency Injection, DI)3.1 注解@Autowired3.2 使用@Primary和@Qualifier消除歧义性3.3 带有参数的构造方法类的装配1. IoC简介IoC容器是Spring的核心,可以说Spring...

2018-12-21 22:10:05 157

原创 Spring(一):FastJson的使用

Springboot: 2.1.1FastJson: 1.2.47最近项目中需要使用到Springboot,因此需要边学边写边记载下.1. 替换Jackson在Springboot2中数据的序列化和反序列化默认使用的是Jackson,因此需要替换该用FastJson.package com.example.morven.config;import com.alibaba.fa...

2018-12-15 23:54:31 1271 1

翻译 Blaze(七):URI strings

URI stringsBlaze使用strings指定数据源，使用时非常简单。1. 例子与一组CSV文件或一个SQL数据库交互# coding: utf-8from blaze import *from blaze.utils import examplet = data(example('accounts_*.csv'))print(t.peek())t1 = data(...

2018-12-05 14:08:44 380

翻译 Blaze(六):Pandas与Blaze比较

Pandas与Blaze比较导入和构造# coding: utf-8import numpy as npimport pandas as pdfrom blaze import data, bydf = pd.DataFrame({'name': ['Alice', 'Bob', 'Joe', 'Bob'], 'amount': [100, 2...

2018-12-05 14:07:50 2011

翻译 Blaze(五):数据的分割-应用-组合-分组

数据的分割-应用-组合-分组分组操作将一张表切分为多个块，并对每个块进行操作。以species分组，并对petal求平均值# coding: utf-8from blaze import data, byfrom blaze.utils import exampled = data('sqlite:///{}::iris'.format(example('iris.db')))p...

2018-12-05 14:06:40 365

翻译 Blaze(四):基本查询

使用之前x下载的iris数据集CSV文件.该段代码以下所有示例都会使用到# coding: utf-8from blaze import datafrom blaze.utils import exampleiris = data(example('iris.csv'))print(iris.peek())输出: sepal_length sepal_width ...

2018-12-05 00:02:53 601

翻译 Blaze(三)：快速入门

快速入门该篇文章通过展示创建和操作Blaze Symbols快速入门。1. 与数据的交互通过嵌套的list/tuple创建简单的Blaze表达式。Blaze将推导出要使用的维度和数据类型。# coding: utf-8from blaze import *t = data([(1, 'Alice', 100), (2, 'Bob', -200), ...

2018-12-04 19:22:33 1885 9

翻译 Blaze(二)：安装

安装conda方式conda install blaze# 更多最新的构建conda install -c blaze blazepip方式pip install blaze --upgradeorpip install git+https://github.com/blaze/blaze --upgrade源码方式git clone [email protected]...

2018-12-04 18:55:49 1782

翻译 Blaze(一)：前言

前言Blaze生态系统为python用户对大数据提供了高效计算的高层接口。主要由Anaconda赞助。应用领域Blaze整合了包括Python的Pandas、NumPy及SQL、Mongo、Spark在内的多种技术，使用Blaze能够非常容易地与一个新技术进行交互。Blaze目前主要用于数据库和数组技术的分析查询。并且它在不断地整合和提供基于其它计算系统的应用接口。Blaze主要通过为数据...

2018-12-04 18:54:31 3490 1

原创使用Psycopg2高效更新数据(二)

python: 3.7pscopg2: 2.7参考文档Server side cursors当执行一个数据库查询时，Pscopg cursor通常将查询到的所有数据返回给客户端，如果返回的数据过大，则将占用客户端大量的内存。因此，psycopg提供了一种成为server side curosr机制，每次返回可控制数量的数据。Server side cursor是使用PostgreSQL...

2018-12-03 11:51:19 2620

原创使用Psycopg2高效更新数据(一)

Python: 3.7Psycopg: 2.7最近要对Postgresql数据库某表中的几百万条数据进行计算并更新某字段的值，在此期间使用过协程+aiopg，7分钟更新2000条数据，速度太慢；后来查看Psycopg2文档发现了一个高效的方法。**安装Psycopg **pip install psycopg2文档中关于高效执行的描述：Fast execution helper...

2018-11-30 16:08:13 7520

原创 Elasticsearch(十二) 利用logstash将mysql数据输出到ES

logstatsh的pipeline文件：# Sample Logstash configuration for creating a simple# Beats -> Logstash -> Elasticsearch pipeline.input { stdin { } jdbc { jdbc_connection_string =&gt...

2018-11-29 19:12:28 627

原创 Elasticsearch(十一) logstash入门

Elasticsearch: 6.4.2Logstash: 6.4.21. 执行过程Logstash事件进程管道有三个阶段：input-&gt;filter-&gt;output，其中input和output是必须的，filter是可选的；input默认为stdin，output默认为stdout。inputs：常用的有file、syslog、redis、jdbc、beats等。...

2018-11-28 19:01:02 197

1. 节点Node一个Elasticsearch实例就是一个节点。默认情况下，每个节点都可以处理Http和Transport通信，其中Transport层用于节点以及Java TransportClient间的通信，Http层用于外部REST clients。节点类型：Mater-eligible node：默认为true，表示有被选举为master节点的资格。一个集群中只有一个Master...

2018-11-23 16:16:27 504

原创 Elasticsearch(九)数据关联

Elasticsearch: 6.4.21. 索引树形结构创建简单映射PUT /categories{ "settings": { "analysis": { "analyzer": { "path_analyzer": { "tokenizer": &amp

2018-11-22 18:21:45 436

原创 Elasticsearch(八)搜索优化

1. 理解字段分析过程一个常被问到的问题是，为什么指定的文档没有被搜索到。很多情况下，这都归因于映射的定义和分析例程的配置存在问题。针对分析过程的调试，Elasticsearch提供了专用的REST API。GET /_analyze{ "analyzer": "standard", # 可以替换成自定义的analyzer "text": "crime and pu

2018-11-22 14:39:59 582

原创 Elasticsearch(七)信息检索与结果过滤

Elasticsearch: 6.4.2聚合分类：Bucketing聚合: 类似SQL中的GROUP BY；基于检索构成了逻辑文档组，满足特定规则的文档放置到一个桶里，每一个桶关联一个key; 分桶聚合可以嵌套分桶聚合。Metric聚合: 基于一组文档进行聚合。所有的文档在一个检索集合里，文档被分成逻辑的分组; 对一个数据集求最大、最小、和、平均值等指标的聚合。Matrix聚合：此功...

2018-11-16 18:32:05 2954

原创 Elasticsearch(六)过滤器

过滤器Elasticsearch: 6.4.2Bool filter有must、should、must_not三种逻辑操作;其中当仅存在should时则必须至少满足一个条件.GET /books/book/_search{ "query": { "bool": { "must": [ { "match&am

2018-11-16 00:51:52 2098

原创 Elasticsearch(五)信息检索

信息检索1. 简单检索由于自Elasticsearch6开始不再支持一个索引下存在多个类型的操作，因此也就没有了查询同一索引下多个类型的信息操作。from、size分别指定了从哪个结果开始返回、查询的结果集包含的最大文档数(默认是10)查询指定索引指定类型下的信息GET /users/user/_search?q=name:bourne查询多个或者所有索引，指定类型或多个类型...

2018-11-15 18:56:00 250

原创 Elasticsearch(四)文档索引

文档索引1. 建立索引PUT /users{ "settings": { "index": { "number_of_shards": 5, "number_of_replicas": 1 } }}2. 修改索引索引的主分片数在索引创建之后就不能再修改，默认是5；副本分片是可以随时修改的。PUT /us

2018-11-15 18:55:02 202

原创 Elasticsearch(三)使用docker-compose编排服务

docker-compose.ymlversion: '3'services: node1: image: docker.elastic.co/elasticsearch/elasticsearch:6.4.2 container_name: node1 environment: - node.name=es01 - cluster.name...

2018-11-14 19:13:39 1825

原创 Elasticsearch(二) 入门使用-索引与映射

Elasticsearch基础入门本文参照Elasticsearch: 权威指南1. 基本概念索引(名词)：一个索引类似于关系型数据库中的的一个数据库，是一个存储关系型文档的地方。它的复数词为indices或indexes.索引(动词)：索引一个文档就是存储一个文档到一个索引(名词)中以便它可以被检索和查询到。倒排索引：关系型数据库通过增加一个索引比如一个 B树（B-tree）索...

2018-11-05 18:41:00 326

原创 Elasticsearch(一) Docker集群部署—单机多容器实例

Elasticsearch 6 Docker集群部署—单机多容器实例Elasticsearch: 6.4.2环境：在Mac上搭建的单机多容器实例：1个master节点，一个slave节点1. 以Docker形式安装Elasticsearch拉去镜像：docker pull docker.elastic.co/elasticsearch/elasticsearch:6.4.22. ...

2018-11-05 18:37:56 3371 4

原创 Python之dict的setdefault用法

dict的setfault方法我们可能使用的比较少,但是一旦使用则可以减少键的查询次数,从而让程序更高效.使用setfault处理找不到的键当使用d[k]查找不正确的键k时,则会抛出异常KeyError;我们可以使用d.get(k, default)来代替d[k](当找不到键k时返回一个默认的值);但是当我们要更新键对应的值时候,使用__getitem__或get都效率比较低,此时...

2018-09-15 00:32:09 4035

原创 Python之Pipenv使用

工欲善其事,必先利其器.1. 安装2. 使用2.1 创建虚拟环境2.2 activate与deactivate2.3 安装包3. 常用命令Pipenv: Python Development Workflow for Humans1. 安装pip install pipenv2. 使用2.1 创建虚拟环境添...

2018-09-04 14:23:23 9752

原创 Python之else用法

else经常与if语句成对出现,有if ... else ...,if ... elif ... else ...等形式;本文会介绍一些不常见的else用法.1. if … else …if ... elif ... else ...形式与if ... else ...在用法是没有区别的.a = 1b = 2if a > b: print('%s >...

2018-08-27 18:02:37 13354

翻译 Python之abc模块

abc：Abstract Base Classes 作用：在代码中定义和使用抽象基类进行API检查。1. 为什么使用abc？ Abstract base classes由一组接口组成，检查比hasattr()更严格。通过定义一个抽象基类，可以为一组子类定义一个通用的API。这对于第三方为应用提供插件等非常有用，另外当您在一个大型的团队中工作或在一个大型的代码库中，...

2018-08-23 16:40:48 23301 1

原创 Python之UTC和Local转换

好记性不如烂笔头.from dateutil import tzfrom dateutil.tz import tzlocalfrom datetime import datetime# get local time zone nametz_name = datetime.now(tzlocal()).tzname() # UTC Zonefrom_zone = t...

2018-08-23 10:40:25 2512

原创 Python之celery使用

RabbitMQ 是一个由 erlang 开发的基于 AMQP（Advanced Message Queue）协议的开源实现,是当前最流行的消息中间件之一.1、安装1.1、添加签名私钥wget -O - 'https://dl.bintray.com/rabbitmq/Keys/rabbitmq-release-signing-key.asc' | sudo apt-key...

2018-08-10 19:23:07 833

原创 Python错误集(二)之MongoClient opened before fork警告

今天在使用Python连接MongoDB的过程中日志出现了如下的warning： UserWarning: MongoClient opened before fork. Create MongoClient only after forking. See PyMongo’s documentation for details: http://api.mongodb.org/python/...

2018-08-08 15:09:33 6747 4

原创 Python错误集(一)之SSLError

python: 2.7 requests: 2.19.1最近需要向第三方发送https请求爬取数据,需要绕过SSL,但是在此过程中发生了如下错误: requests.exceptions.SSLError: (“bad handshake: SysCallError(-1, ‘Unexpected EOF’)”,)原因:Requests已经移除对3DES str...

2018-07-26 23:31:07 19607 1

原创 Python之元类

python: 2.7元类的一个重要作用是用于类验证.。如果一个类必须遵循特定的接口，元类将是强制使其符合规范的有效方式。例如：一个类需要设置两个属性中的一个，但是不需要两个属性都设置。使用元类的方式，代码如下：class FooOrBar(type): def __new__(cls, name, bases, attrs): if 'foo' i...

2018-07-20 14:59:46 228

原创 Python之Pandas(一)

1、基本统计特征函数统计特征函数主要用于计算数据的均值、方差、标准差、分位数、相关系数和协方差等，这些特征能反映出数据的整体分布。方法名函数功能 sum() 计算数据样本的总和(按列计算) mean() 计算数据样本的算数平均数 var() 计算数据样本的方差 std() 计算数据样本的标准差 corr() 计算...

2018-06-26 11:57:26 1217

空空如也

空空如也