- 博客(39)
- 收藏
- 关注
原创 浅学Flink
1 . Apache Flink就是近些年来在社区中比较活跃的分布式处理框架;Flink相对简单的编程模型加上其高吞吐、低延迟、高性能以及支持exactly-once语义的特性,让它在工业生产中较为出众。2 . Flink 主页在其顶部展示了该项目的理念:“**Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架**”。3 . Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。
2023-04-06 20:07:47 265
原创 ES的基础概念
为此,Elasticsearch允许你创建一个或多个拷贝,你的索引分片进入所谓的副本或称作复制品的分片,简称Replicas。例如,可以为客户数据提供索引,为产品目录建立另一个索引,以及为订单数据建立另一个索引。例如,您可以为单个客户提供一个文档,单个产品提供另一个文档,以及单个订单提供另一个文档。在这个索引中,您可以为用户数据定义一种类型,为博客数据定义另一种类型,以及为注释数据定义另一类型。在索引中,可以定义一个或多个类型。请注意,尽管文档物理驻留在索引中,文档实际上必须索引或分配到索引中的类型。
2022-11-29 17:06:37 2832
原创 【无标题】
每次调用该函数,就会自动在工作区创建一个datasets/housing目录,然后下载tgz文件,并解压到该目录。快速了解数据类型的方法是绘制每个数值属性的直方图。
2022-09-23 11:27:16 89
原创 力扣
岛屿数量数组方向的移动给定一个由 ‘1’(陆地)和 ‘0’(水)组成的的二维网格,计算岛屿的数量。一个岛被水包围,并且它是通过水平方向或垂直方向上相邻的陆地连接而成的。你可以假设网格的四个边均被水包围。**那么每一次进行 “深度优先遍历” 或者 “广度优先遍历” 的条件就是:1、这个格子是陆地 1,如果是水域 0 就无从谈论 “岛屿”;2、这个格子不能是之前发现 “岛屿” 的过程中执...
2020-03-19 17:01:10 151
原创 Spark数据处理与特征工程
sklearn在中小型数据集上,在工业界是在使用的xgboost、lightgbm在工业界的实用度非常的高工业界数据体量真的达到上亿或者十亿这样的规模用sklern处理起来是比较吃力的,可借助于大数据的工具,比如spark来解决现在可以用spark来做大数据上的数据处理,比如数据工程、监督学习、无监督学习模型的构建,只要计算资源够就OK。【大数据底层做分布式处理】注意:spark基于R...
2020-02-17 18:29:16 559
原创 sklearn与LightGBM配合使用
LightGBM建模,sklearn评估# coding: utf-8import lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import GridSearchCV# 加载数据print('加载数据...')...
2020-02-17 16:41:10 7591
原创 LightGBM用法速查表
内置方式建模1.要把数据读取成Dataset格式2.lgb.train去训练# coding: utf-8import jsonimport lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_error# 加载数据集合print('加载数据...')df_train = pd...
2020-02-17 16:39:12 902 1
原创 预估器建模方式
1.Xgboost建模,sklearn评估2.网格搜索交叉验证找最优参数3.early-stop早停止4.特征重要度5.并行训练加速#预估器建模方式:sklearn与XGboost配合使用#xgboost建模,sklearn评估import pickleimport xgboost as xgbimport numpy as npfrom sklearn.model_sele...
2020-02-17 16:34:05 249
原创 Xgboost内置建模方式详解二
只用前n棵树进行预测#内置建模方式:交叉验证与高级功能#添加预处理的交叉验证,自定义损失函数和评估准则,#!/usr/bin/pythonimport warningswarnings.filterwarnings("ignore")import numpy as npimport pandas as pdimport pickleimport xgboost as xgbfr...
2020-02-17 13:50:36 158
原创 Xgboost内置建模方式详解一
内置建模方式的特点1.交叉验证2.添加预处理的交叉验证3.自定义损失函数与评估准则4.只用前n棵树预测#内置建模方式:交叉验证与高级功能#添加预处理的交叉验证,自定义损失函数和评估准则,#!/usr/bin/pythonimport warningswarnings.filterwarnings("ignore")import numpy as npimport pandas...
2020-02-17 13:49:29 359
原创 Xgboost预估器建模方式使用方法
与前两篇内置建模方式的不同点:预估器建模:初始化模型:xgb_classifier=xgb.XGBClassifier(参数)拟合模型:xgb_classifier.fit(x,y)使用模型预测:xgb_classifier.predict(test_x)内置方式建模:参数设定:param = {‘max_depth’:5, ‘eta’:0.1, ‘silent’:1, ...
2020-02-17 13:14:41 450
原创 Xgboost使用方法详解二
'''配合pandas DataFrame格式数据建模'''import pandas as pdimport numpy as npimport pickleimport xgboost as xgbfrom sklearn.model_selection import train_test_split#基本例子,从csv文件中读取数据,做二分类#用pandas读入数据dat...
2020-02-17 12:04:23 584
原创 Xgboost使用方法详解一
'''内置建模方式1.xgb.train训练方式2.DMatrix数据形态,不是DataFrame'''import numpy as npimport scipy.sparseimport pickleimport xgboost as xgbdtrain = xgb.DMatrix('data/agaricus.txt.train')dtest = xgb.DMatrix(...
2020-02-17 12:03:16 873
原创 pip出现错误
pip安装pyspark时出现pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host=‘files.pythonhosted.org’, port=443): Read timed out.原因分析在下载python库的时候,由于国内网络原因,python包的下载速度非常慢,查看pip 文档,...
2020-01-17 12:15:49 478
原创 Zookeeper安装文档
1.下载Zookeeper安装包https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.10/2.zookeeper集群规划主机名称 IP 部署软件node01 192.168.183.100 zookeepernode02 192.168.183.101 zookeepernode03 192.168.1...
2020-01-16 17:03:56 135
原创 CDH中MySQL的作用
CM底层自动部署安装数据库进行系统配置、schema等并进行相应管理。同时CM也支持使用外部数据库作为系统配置、数据表结构等的底层存储,具体支持的数据库包括:MySQL:5.1、5.5、5.6、5.7PostgreSQL:8.1、8.3、8.4、9.1、9.2、9.3、9.4Oracle:11gR2、12c一般来说外部元数据库都会采用系统自带的MySQL服务。 确保以下配置:...
2020-01-15 11:05:59 1130 1
原创 Spark基础简介
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;容...
2020-01-09 15:26:54 197
原创 Spark_DataFrame vs SQL
Spark DataFrame vs SQL 的小练习a.初始化Spark Sessionimport findsparkfindspark.init()from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName("Python Spark SQL") \ .con...
2020-01-05 14:46:37 121
原创 Spark_DataFrame
总览Spark SQL 是 Spark 处理结构化数据的一个模块, 与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset API.当使用相同执行引擎进行计算时, 无论使用哪种 API / 语...
2020-01-05 14:36:08 108
原创 Spark_RDD的练习
1.在spark中用reduce计算10!用reduce()操作一个字符串,内容是前边练习中所哟以M开头的名字,list以逗哈分隔 。有一个很有用的操作,有时候我们需要重复使用某个RDD结果,但一遍遍重复计算显然是要开销的,所以我们可以通过一个叫cache()的操作把它杂事存储在内存中import numpy as npnumRDD = sc.parallelize(np.linesapc...
2020-01-05 12:03:03 302
原创 Spark_RDD
RDD弹性分布式数据集,就像Numpy array和Pandas Series,可以看作是一个有序的item集合,只不过这些item被分隔为多个partitions,分布在不同的机器上,1.请简述RDD的含义,并写出针对RDD的两类操作(transformation与action),每类下至少三种的操作。RDD(Resilient Distributed Datasets),弹性分布式数...
2020-01-04 13:06:48 128
原创 大数据发展
大数据vs人工智能人工智能需要有大数据支撑人工智能主要有三个分支:1.基于规则的人工智能;2.无规则,计算机读取大量数据,根据数据的统计、概率分析等方法,进行智能处理的人工智能;3.基于神经网络的深度学习。基于规则的人工智能,在计算机内根据规定的语法结构录入规则,用这些规则进行智能处理,缺乏灵活性,不适合实用化。因此,人工智能实际上的主流分支是后两者。而后两者都是通过“计算机读取大量...
2019-12-24 00:05:18 143
原创 python读写json文件
Json是一种轻量级的数据交换格式。1.json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串)json.dumps()函数 将 Python 对象编码成 JSON 字符串(字典–》字符串)【编码】json.loads()函数 将已编码的 JSON 字符串解码为 Python 对象(字符串----》字典)【解码】语法json.dum...
2019-12-20 10:12:56 143
原创 python统计消费kafka数据量
from pykafka import KafkaClientfrom pykafka.common import OffsetTypeimport datetimeimport pdb'''提升点: 1. 学会用pdb打断点调试 2. 学会利用datetime.timedelta()控制程序执行的时间长度'''def KafkaDownloader(host_, topic_...
2019-12-06 18:42:14 1155
原创 招聘分析
# 加载包import pandas as pd# 练习2 - 招聘分析 - 加载数据'''drop_duplicates:参数 subset: 列标签,可选 keep: {‘first’, ‘last’, False}, 默认值 ‘first’ first: 删除第一次出现的重复项。 last: 删除重复项,除了最后一次出现。 False: 删除所有重复项。 inpl...
2019-12-04 20:10:37 149
原创 总统大选
加载数据#加载包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom pandas import Series, DataFrame#读取数resulr_df=pd.read_cse('data/2016-us-ge-by-county.csv')删除某列或者某行–用drop函数d...
2019-12-04 19:45:47 120
原创 机器学习与回归类算法
线性回归(linear regression)逻辑回归(logistic regression):用于分类机器学习:1. 监督学习(有标签)a. 分类:根据数据样本上抽取的特征,判定其属于有限的类别【离线值】 > 辣鸡邮件识别 > 文本情感褒贬分析 > 图像内容识别 b.回归:根据数据样本上抽取出的特征,预测**连续值**结...
2019-12-01 21:39:59 280
转载 java面试宝典
java面试宝典20191、 meta标签的作用是什么2、 ReenTrantLock可重入锁(和synchronized的区别)总结3、 Spring中的自动装配有哪些限制?4、 什么是可变参数?5、 什么是领域模型(domain model)?贫血模型(anaemic domain model)和充血模型(rich domain model)有什么区别?6、 说说http,http...
2019-11-28 19:13:41 457
转载 git的基本使用
1. git clone与git pull的区别1、clone 是本地没有 repository 时,将远程 repository 整个下载过来2、pull 是本地有 repository 时,将远程 repository 里新的 commit 数据(如有的话)下载过来,并且与本地代码merge。2.Git常用命令速查表3. 文字整理:git config - - 可以配置git...
2019-11-28 14:33:51 67
原创 更多数据结构
字符串字符串变量定义s = “hello” 或者’hello’组合字符串的方式“+”号格式化符号通过下标获取指定位置字符string_name[index]切片string_name[起始:结束:步长]字符串方法文档添加链接描述字符串的方法巧用自动补全、使用dirislover():判断字符串是否为小写split():切分字符串...
2019-11-16 23:13:22 141
原创 python控制流
判断语句if条件判断if 条件: 逻辑代码else: 其他逻辑代码#多判断条件if 条件: 逻辑代码elif 条件: 逻辑代码else: 其他逻辑代码for循环for语法for 临时变量 in 序列: 序列中存在待处理元素则进入循环体执行代码执行流程每次循环判断for中的条件,从序列的零脚标开始,将序列中的元素赋值给临时变量,进入循环体执行代码,执行完之...
2019-11-13 22:33:00 90
原创 数学
众数、中位数、均值1.正态分布均值=中位数=众数2.正偏(右偏)一般分布情况:众数【峰值位置】<中位数<均值【数据数值的分布】3.负偏*(一般分布:均值<中位数<众数'''三个函数求列表均值、中位数、众数'''def grade_mean(list): grade_sum=0 for i in list: grade_sum ...
2019-11-11 23:42:24 251
原创 Mapreduce的进阶
Mapreduceshuffle过程:每个map task把输出结果写到环形缓冲区内,环形缓冲区的大小默认为100M.当内存环形缓冲区写入的数量达到一定的阈值时,后台线程会将数据溢写到磁盘(阈值默认为80) 根据partitioner,把数据写入到不同的partition 对每个partition的数据进行排序随着Map Task的不断运行,磁盘上的溢出文件会越来越多 ...
2019-11-11 18:34:53 207
原创 Python基础
安装PythonAnacondapython的全家桶,包含大量专门数据科学的库和软件分发版本Numpy、Pandas、Matplotlib..自带数据工作者常用的IDE工具spyder以及jupyter可设置不同环境,在不同的Python版本中切换IED:spyder、python的执行方法1.命令行执行python ****.pyIDEJupyter noteboo...
2019-11-10 23:11:19 152
原创 Python概述
@Python概述Python概述第一次写博客,希望之后可以一直坚持特点一种面向对象的解释型计算机程序设计语言具有丰富且强大的内置库和第三方库语法简介灵活开源、跨平台解释型:是指我们在使用python的过程中,先将用户编写的代码生成中间代码,然后再由一个解释器对中间代码进行执行,最终完成用户所编写的代码逻辑。与C语言这样编译型的语言是有区别的,省去了编译的过程。正是因为这种便捷使...
2019-11-10 23:10:56 104
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人