自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

转载 调用sklearn的各个算法

# coding=gbkimport timefrom sklearn import metricsimport pickle as pickleimport pandas as pdimport syssys.path.append(r'C:/Users/Documents/6、play/')import xlwt##实现对'NB', 'KNN', 'LR', 'RF',...

2019-02-28 17:49:46 815

原创 KNN实现手写数字分类---Kaggle

#!/usr/bin/python# coding=utf-8from numpy import *import operatorimport pandas as pdimport sysimport KNNsys.path.append(r'C:/Users/Documents/6、play/')import xlwt##导入训练集:def load_data():...

2019-02-27 14:57:18 352

原创 PCA总结

PCA假设1. 变量符合高斯分布(正太分布)2. 变量之间的影响是线性的,也就是可以通过线性变化将数据还原成主要因数3. 协方差最大的元素对应的转换向量越重要4. 转换矩阵是正交的PCA的整个推导过程都是遵循上面的四条假设,如果违反了这些假设,PCA可能作用不大,甚至有反作用,所以使用PCA时需要谨慎。  ...

2018-08-17 19:10:44 281

原创 mysql 通过Python导入clickhouse 行数对于完成速度的影响(数据文件无压缩)

第一步:Mysql导入数据到Python第二步:python在clickhouse建表及数据处理,准备导入第三步:数据导入(数据文件无压缩)from clickhouse_driver import Clientimport types import time,datetimefrom datetime import dateimport pymysqlimport warningsi...

2018-03-23 11:46:29 10926 1

原创 python 通过csv插入数据到clickhouse

第一步:连接clickhouse第二步:读取CSV第三步:转换成与clickhouse相匹配的数据第四步:插入,3万行耗时2.3sfrom clickhouse_driver import Clientimport types import time,datetimefrom datetime import dateimport csvclient = Client(host='1...

2018-03-23 10:10:50 13436 2

原创 Python爬取豆瓣 看过的书

直接附上python代码:#coding=utf-8import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonimport xlwtimport xlrddef get_one_page(url): headers = { 'Host':'b...

2018-03-20 16:05:26 598

原创 Python爬取豆瓣 看过的电影

直接附上Python代码:#coding=utf-8import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonimport xlwtimport xlrddef get_one_page(url): try: response = re...

2018-03-20 16:01:23 962

原创 clickhouse与mysql查询速度对比

数据准备工作:    MySQL创建准备对比的表Bigtable并建立索引CREATE TABLE Bigtable (consumption_id VARCHAR(255),member_id INT(11),fans_id INT(11),bill_date DATE,money VARCHAR(255),people_num INT(8),dish_name VARCHAR(2...

2018-03-20 15:43:47 15777 2

原创 mysql表通过csv复制到clickhouse

如何将Mysql里的表数据通过csv格式移到clickhouse    第一步,mysql导出数据到CSV    第二步,将csv文件发送到clickhouse所在的服务器    第三步,将csv文件导入到clickhouse    服务器上连接mysql:mysql -uroot -S /home/mysql/mysql_3306/mysql_3306.sock -p123456 -D00017...

2018-03-20 11:09:54 9928

原创 ClickHouse Functions

至少有两种类型的函数——常规函数和聚合函数。这些是完全不同的概念。常规函数的工作方式就好像它们分别应用于每一行(对于每一行,函数的结果不依赖于其他行)。聚合函数从各行中积累一组值(也就是说,它们依赖于整组行)所有的函数都返回一个单一的返回值(不是几个值,而不是零值)。结果的类型通常仅由参数的类型定义,而不是由值定义arithmetic functions算数函数:对于所有的算术函数,如果有这样的类...

2018-03-16 16:02:04 13452 2

原创 clickhouse Table engines

Table enginestable engine 决定:数据存储的方式和地点:将数据写入何处,以及从何处读取数据支持哪些查询,如何支持的并发数据访问 如果存在索引,使用是否可以执行多线程请求数据复制当读取数据时,引擎只需要提取必要的列集。但是,在某些情况下,查询可能在表引擎中部分处理注意,对于大多数重要任务,应该使用来自MergeTree家族的引擎TinyLog最简单的表引擎,它将数据存储在磁盘...

2018-03-15 17:08:45 12031

原创 ClickHouse Syntax 句法

系统中有两种类型的解析器:完整的SQL解析器(递归下行解析器)和数据格式解析器(快速流解析器)。在所有情况下,除了INSERT查询之外,只使用完整的SQL解析器。插入查询使用两个解析器Spaces空格,在语法结构之间可能有许多空间符号(包括查询的开始和结束)。空间符号包括空格、制表符、换行符、CR和表单提要。Comments注释:支持SQL-style和c样式的注释。sql风格的注释:从-到这一行...

2018-03-15 14:49:20 7738

原创 clickhouse SQL查询语句 【译自Github 英文文档】

内容有缩减,原文请点击这里创建数据库CREATE DATABASE [IF NOT EXISTS] db_name创建表CREATE TABLE可以有几种形式。创建一张表,最好指定引擎结构CREATE [TEMPORARY] TABLE [IF NOT EXISTS] [db.]name [ON CLUSTER cluster]( name1 [type1] [DEFAULT|MATER...

2018-03-14 17:24:21 35085

原创 clickhouse功能一览

1.真正的面向列的DBMS在一个真正的面向列的DBMS中,没有任何“垃圾”存储在值中。例如,必须支持定长数值,以避免在数值旁边存储长度“数字”。例如,十亿个UInt8类型的值实际上应该消耗大约1 GB的未压缩磁盘空间,否则这将强烈影响CPU的使用。由于解压缩的速度(CPU使用率)主要取决于未压缩的数据量,所以即使在未压缩的情况下,紧凑地存储数据(没有任何“垃圾”)也是非常重要的。因为有些系统可以单...

2018-03-14 15:29:18 13726

原创 列存储与行存储的区别

写入:行存储的写入是一次完成,数据的完整性因此可以确定。列存储需要把一行记录拆分成单列保存,写入次数明显比行存储多。行存储在写入上占有很大的优势数据修改:行存储是在指定位置写入一次,列存储是将磁盘定位到多个列上分别写入。行存储在数据修改也是占优的数据读取:行存储通常将一行数据完全读出,如果只需要其中几列数据,就会存在冗余列列存储每次读取的数据是集合中的一段或者全部。由于列储存的数据是同质的,这种情...

2018-03-14 15:24:30 12469

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除