JackLi_csdn-CSDN博客

原创 connect-mirror-maker.properties

【代码】connect-mirror-maker.properties。

2024-03-19 16:43:41 102

原创 kafka connect

一个连接器是源连接器，读取输入文件发送到kafka，另一个是接收连接器，读取kafka的消息发送到文件test.sink.txt中。offset.storage.file.filename - standalone中独有的配置。config.storage.topic:用于存储连接器和任务配置的主题,配置成删除。offset.storage.topic:用于存储偏移量的主题，配置成压缩。status.storage.topic：用于存储状态的主题。connector.class：连接器的java 类。

2024-03-19 16:41:36 444

转载开发人员必知的5个CI/CD工具

CI/CD工具

2022-08-11 18:29:07 4399

原创 HBASE

1、配置hbase-env.sh2、DML

2022-01-12 14:02:00 961

原创 JVM

java.lang.OutOfMemoryError:GC overhead limit exceededjstack -l 26833 > error.log[root@localhost software]# jmap -heap 26833Attaching to process ID 26833, please wait...Debugger attached successfully.Server compiler detected.JVM version is 25.22

2020-12-09 11:04:01 168

原创 kafka命令

#列出所有的topic，包括__consumer_offsetsbin/kafka-topics.sh --zookeeper hadoop1:2181 --list# 列出topic的详情，包括bin/kafka-topics.sh --zookeeper hadoop1:2181 --describe --topic test#消费者bin/kafka-console-consumer.sh --bootstrap-server hadoop1:9056 --topic test#生产者

2020-12-09 10:07:02 161

原创 hadoop timeout

hdfs.xmlkeyvalue描述fs.s3a.connection.establish.timeout5000Socket connection setup timeout in milliseconds.fs.s3a.connection.timeout200000Socket connection timeout in milliseconds.ipc.client.connect.timeout20000Indicates the number of

2020-10-28 13:56:49 407

原创 spark相比MapReduce的优势

1、引入了新的ANSI SQL解析器，并支持子查询功能。 Spark 2.0可以运行所有99个TPC-DS查询（需求SQL：2003中的很多功能支持）。 2、简化了API：参考： http://f.dataguru.cn/thread-629612-1-1.html http://lxw1234.com/archives/2016/05/666.htm

2020-09-05 23:46:15 1590

原创大规模数据处理架构

Lambda架构Lambda 架构结合了批处理和流处理的架构思想，将进入系统的大规模数据同时送入这两套架构层中，分别是批处理层Batch Layer）和速度层（Speed Layer），同时产生两套数据结果并存入服务层。lambda不足：维护很复杂。Kappa 架构（Kappa Architecture）第一步，部署 Apache Kafka，并设置数据日志的保留期（Retention ...

2020-09-05 23:46:02 109

原创 mysql 索引

1.添加PRIMARY KEY（主键索引）mysql>ALTER TABLE table_name ADD PRIMARY KEY ( column )2.添加UNIQUE(唯一索引)mysql>ALTER TABLE table_name ADD UNIQUE (column)3.添加INDEX(普通索引)mysql>ALTER TABLE table_name ADD INDEX index_name ( column )4.添加FULLTEXT(全文索引)mysql

2020-05-09 15:27:50 139

原创 spark 问题和优化

Spark遇到的问题https://www.jianshu.com/p/2b544e51140f–num-executors数量受到Container数量限制，executor的数量+1不能超过Container数量

2020-05-07 23:59:22 223

原创 hadoop 集群配置

yarn-site.xmlyarn.nodemanager.resource.memory-mb 默认8gyarn.nodemanager.resource.cpu-vcores 默认8个Hadoop集群参数和常用端口

2020-05-07 17:14:00 182

原创 es api

1、乐观锁基于版本号，增删改，都会对版本号增加，意味着删除也是增加版本号，标记为删除，如果再插入同一个id，版本号会继续增加es主从的同步是异步多线程，而且也是基于版本号同步2、pom3、api4、spring boot配置类测试参数异步查询...

2020-05-06 16:45:32 216

原创 es 使用

增加索引put /索引名删除索引delete /索引查看所有索引get /_cat/indices?v查看集群状态get /_cat/health?v

2020-05-05 23:05:03 179

原创 elastic

Logstash、beats：类似flume，Kibana：可视化es:json，restful，倒排索引、全文检索数据分布，分片机制平行节点，内部交互副本机制核心概念：1、索引：包含一堆相似结构的文档数据，类似于表配置查看集群状态...

2020-05-05 22:40:32 190

原创 spark 命令行

1、启动spark-shellbin/spark-shell --master spark://search01:7077 yarn-client2、使用val nowWeekPathList=List("hdfs://cluster1/data/preHandle/ioc/20200327","hdfs://cluster1/data/preHandle/ioc/20200325")...

2020-04-16 08:07:49 534

原创 spark sql

groupbyorg.apache.spark.sql.AnalysisException: expression 'page_click.`time`' is neither present in the group by, nor is it an aggregate function. Add to group by or wrap in first() (or first_value) ...

2020-04-15 18:36:50 635

原创线性回归--特征缩放

特征缩放是把数据 (各个特征) 变换到同一个尺度。两种常见的缩放方法：标准化归一化标准化标准化是对列中的每个值减去均值后再除以方差，即数据被转换为均值为0，标准差为1。在Python中，假设在 df 中有一列叫 height。可以用以下语句，创建一个标准化的高度：df["height_standard"] = (df["height"] - df["height"].mean()) /...

2020-04-12 00:47:16 603

原创线性回归-正则化

正则化练习sklearn中有一些类帮助将线性回归正则化。你将练习怎样实现将线性回归正则化。在附件的数据文件 (data.csv)中，你将看到一组数据点，包括6个预测器变量和1个结果变量。使用sklearn 的 Lasso 类，根据这些数据拟合一个线性回归模型，同时还使用L1正则化来控制模型的复杂性。执行以下步骤：1.加载数据数据保存在 ‘data.csv’ 文件中。注意数据文件没有标题行。...

2020-04-12 00:43:16 325

原创多元线性回归和多项式回归

1、多元线性回归n 个预测器变量，那么模型可以用以下方程表示：波士顿房价数据集。该数据集包含 506 座房子的 13 个特征，均值为 $1000。你将用一个模型拟合这 13 个特征，以预测房价from sklearn.linear_model import LinearRegressionfrom sklearn.datasets import load_boston# Load t...

2020-04-12 00:41:16 1463

原创网络搜索-多个超参数如何选择

1.导入 GridSearchCVfrom sklearn.model_selection import GridSearchCV2.选择参数：现在我们来选择我们想要选择的参数，并形成一个字典。在这本字典中，键 (keys) 将是参数的名称，值（values) 将是每个参数可能值的列表。parameters = {'kernel':['poly', 'rbf'],'C':[0.1,...

2020-04-12 00:27:19 332

原创验证

1、欠拟合（underfitting）高偏差模型过度简化问题，在训练集上效果不好2、过拟合（overfitting）高方差模型过度复杂化问题，在训练集效果太好，在测试集效果不好3、交叉验证4、K折交叉验证，为了不把一些重要的数据放在测试集中，把所有的数据分为K份，做K次训练，测试，其中K份数据中的一部分作为训练，另一部分作为测试5、学习曲线train_sizes, train_...

2020-04-12 00:21:52 195

原创模型-训练集，测试集

1、训练集和测试集0.24539,0.81725,00.21774,0.76462,00.20161,0.69737,00.20161,0.58041,00.2477,0.49561,00.32834,0.44883,00.39516,0.48099,00.39286,0.57164,00.33525,0.62135,00.33986,0.71199,00.34447,0.8...

2020-04-11 23:46:24 751

原创评估回归模型

与优化均方误差相比，优化平均绝对误差可能会导致不同的“最优模型”。然而，与优化 R2 值相同，优化均方误差将总是导致相同的“最优”模型。同样，如果你选择具有最佳 R2 分数（最高）的模型，它也将是具有最低均方误差（MSE）的模型。1、平均绝对误差(MAE)，不利于使用梯度下降当你要预测的数据遵循偏斜分布时，这是一个很有用的指标。在这些情况下，对绝对值做优化特别有用，因为与使用均方误差一样，异...

2020-04-11 23:42:05 331

原创评估分类模型

1、训练集和测试集0.24539,0.81725,00.21774,0.76462,00.20161,0.69737,00.20161,0.58041,00.2477,0.49561,00.32834,0.44883,00.39516,0.48099,00.39286,0.57164,00.33525,0.62135,00.33986,0.71199,00.34447,0.8...

2020-04-11 23:21:51 389

原创集成算法

1、bagging（bootstrap aggregating 自助聚集）比如做回答问题，答案是真假，让每个人都回答问题，然后投票，选择票数最多的就是答案boosting（提升算法）adaboost比如做回答问题，答案是真假，让每个人回答自己擅长的问题，即回答的是整体问卷的一部分，然后综合答案决策树是一个“弱”学习器。实际上，大多数集成方法都默认使用sklearn中的决策树。找到一个拟合...

2020-04-11 22:30:42 253

原创分类-支持向量机

1、不仅仅分类，还要距离两边最大，即margin要尽可能没有错误的点，而且要距离要大

2020-04-11 00:48:45 177

原创分类-朴素贝叶斯

1、朴素贝叶斯是一种概率算法，基于条件概率，应用于自然语言处理，应用于垃圾邮件2、贝叶斯

2020-04-11 00:07:34 176

原创分类-决策树

1、通过问一系列问题，通过答案进行预测2、推荐3、

2020-04-10 22:56:06 259

原创分类--感知算法

1、感知算法（神经网络的基础）2、xor 异或，多层，也就是神经网络3、移动的技巧

2020-04-10 22:36:04 1182

原创线性回归

1、绝对值2、3、平均绝对值误差4、均方误差到目前为止，我们已经见过两种线性回归方法。（1）逐个地在每个数据点应用均方（或绝对）误差，并重复这一流程很多次。（2）同时在每个数据点应用均方（或绝对）误差，并重复这一流程很多次。具体而言，向数据点应用均方（或绝对）误差时，就会获得可以与模型权重相加的值。我们可以加上这些值，更新权重，然后在下个数据点应用均方（或绝对）误差。或者同时...

2020-04-09 23:07:45 200

原创机器学习和深度学习

机器学习分类：监督学习、非监督学习、强化学习监督学习：根据标注的数据，判断未标注的数据。主要分为分类、回归。分类返回数据属于什么什么种类，比如是否垃圾邮件、狗的种类等；回归返回数据的数值，比如房屋的价格，人的身高等。非监督学习：直接从未标注的数据中进行判断预测，比如数据集的特征提取、聚类、推荐系统强化学习：在与外界的交互中（奖励或者惩罚），通过学习策略，得到利益最大化，比如自动驾驶、游戏AI...

2020-04-07 20:02:34 234

原创假设检验

α水平：5%，1%，0.1%Z临界值（Z*，置信区间）：1.65 , 2.33，3.08双尾检验零假设H0：无法证明是真的，只能拒绝对立假设Ha：拒绝零假设，表明接受对立假设，即样本均值在临界区域之内，样本均值的 Z 值大于 Z 临界值，得到样本均值的概率小于α 水平...

2020-04-02 09:40:51 295

原创 Python矩阵图表

1、多个变量，一起展示，形成n*n矩阵2、默认情况下，PairGrid 只能展示数值变量g = sb.PairGrid(data = df, vars = ['num_var1', 'num_var2', 'num_var3'])#直方图放在对角线g.map_diag(plt.hist)#其余的放置散点图g.map_offdiag(plt.scatter)3、对于其他关系，Pai...

2020-03-21 17:28:46 624

原创 python 三个变量-其他可视化图

1、两个分类变量和一个数值变量ax = sb.barplot(data = df, x = 'cat_var1', y = 'num_var2', hue = 'cat_var2')ax.legend(loc = 8, ncol = 3, framealpha = 1, title = 'cat_var2')2、“hue” 参数也可以在函数 boxplot, violinplot 和 p...

2020-03-21 16:59:41 2821

原创 python 三个变量-分面

g = sb.FacetGrid(data = df, col = 'cat_var1', size = 4)g.map(sb.boxplot, 'cat_var2', 'num_var2')g = sb.FacetGrid(data = df, col = 'cat_var2', row = 'cat_var1', size = 2.5,margin_titles = True)g.m...

2020-03-20 23:44:08 208

原创 Python 三个变量

如果一个图表需要展示三个变量，那么将会有以下四种情况：（1）三个变量都是数值变量（2）两个是数值变量，一个是分类变量（3）一个是数值变量，两个是分类变量（4）三个都是分类变量如果三个变量中至少有两个是数值型的，用散点图画出数值变量，然后使用非位置编码的方式可视化第三个变量。非位置的编码方式主要有三种：形状，大小，颜色1、形状对于无序分类变量，形状是一个很好的编码方式。每一个类别，可...

2020-03-20 18:52:59 2105

原创 Python 折线图

1、作用描绘一个数值变量相对于第二个数值变量的变化趋势，在折线图中，每个唯一 x 值或 x 值的分组区间仅绘制一个点（就像直方图一样）。如果一个 x 分组区间中有多个观测值，那么该点在折线图中绘制的 y 值将为该数据点在分组中的概括统计值（例如均值或中位数）。绘制的点用线条连接起来，强调 x 值的顺序或相连特性。2、如果 x 变量表示时间，则数据的折线图通常称之为时间序列图表3、# set...

2020-03-19 00:14:05 536

原创 Python 分面

1、作用分类变量和数值变量2、绘制bin_edges = np.arange(-3, df['num_var'].max()+1/3, 1/3)g = sb.FacetGrid(data = df, col = 'cat_var')g.map(plt.hist, "num_var", bins = bin_edges)g.set_titles('{col_name}')3、每行几个...

2020-03-18 21:08:07 204

原创 Python 分组条形图

1、作用两个分类变量之间的关系2、绘制sb.countplot(data = df, x = 'cat_var1', hue = 'cat_var2')

2020-03-18 20:30:20 1483

空空如也

空空如也