自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (24)
  • 收藏
  • 关注

原创 jcifs.smb.SmbAuthException: Access is denied.正解

最近在研究smb,在尝试基于java实现smb在windows和linux之间上传和下载功能,在做研究下载功能时,我碰到了以下异常: **jcifs.smb.SmbAuthException: Access is denied** 看了很多博客,五花八门说什么都有,但是我都没尝试成功,后来查看一下**/etc/samba/smb.conf**配置文件: ![在这里插入图片描述](https...

2019-07-18 09:06:53 4559 5

原创 linux上安装cliff框架

首先安装epel扩展源yum -y install epel-release再安装pipyum -y install python-pip如果报错,请升级pippip install --upgrade pip安装python-develyum -y insatll python-devel要是还不好使,就执行下面的命令yum install build-essential au...

2019-04-24 09:54:14 369

原创 Sparksql中插入数据时,如果记.录不存在则insert,如果存在则update

最近在写项目的时候,碰到了需要通过Sparksql对数据库数据根据主键进行存在即覆盖,不存在则追加的操作,记得在以前的使用2.1.0版本的spark的时候,我是使用了replace into完成了这种操作,但现在公司项目是2.3.1版本,replace into不被支持了,很郁闷,在网上找了很多相关操作的博客,都没有我想要的结果,最后干脆用代码解决问题!先上代码:Dataset<Row&...

2019-04-19 10:11:14 3344 3

原创 Flink入门

1.基本概念:Flink是一个面向分布式数据流处理和批处理数据的开源计算平台,能够基于同一个flink运行,可以提供流处理和批处理两种类型的功能.提供的SLA(Service-Level-Aggreement)是不同的:流处理一般需要支持低延迟,Exactly-once保证 ,输入数据流是无界的批处理支持高吞吐,高效处理.输入的数据流是有界的.2):flink程序是由Stream和T...

2018-10-24 14:48:10 577

原创 以Java调用R,并进行画图

上代码package com.fandatsys.dams.core.profiling.types;import com.fandatsys.dams.core.profiling.DatasetColumnChartingProfileType;import com.fandatsys.dams.core.profiling.ProfilingType;import org.apac...

2018-10-23 10:50:55 1373 1

原创 Kafka面试题参考

1.Kafka的设计时什么样的呢?Kafka将消息以topic为单位进行归纳将向Kafka topic发布消息的程序成为producers.将预订topics并消费消息的程序成为consumer.Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker.producers通过网络将消息发送到Kafka集群,集群向消费者提供消息2.数据传输的事物定义有哪三种?...

2018-10-23 10:22:50 25421

原创 使用Sparksql计算数据库表中某一列字段的中位数

该方法是基于Sparksql内置函数进行计算我先上代码:dataset和columnName最为参数,columnName是字段名,dataset是什么不说了,首先通过得到columnName字段在dataset中的下标位置,再通过withColumn在dataset表最后添加一列"tmpRowNumber",该列是通过row_number().over(Window.orderBy(col...

2018-10-22 16:16:17 4217

原创 使用Sparksql求数据库表中单列字段中出现次数最高的值,以及出现的次数

该方法是基于Sparksql的内置函数进行计算我先上代码:dataset和columnName作为参数,dataset是什么就不说了,columnName就是我要执行的字段名首先通过dataset.groupBy(columnName)对该字段进行分组,再count(dataset.col(columnName))进行聚合,count中的参数必须是Column类型的,然后通过alias()...

2018-10-22 15:11:55 2298

原创 [Ljava.lang.Object; cannot be cast to [Ljava.lang.String;

在做java的jdbc的时候,我需要将ResultSet的结果保存到集合中,再将集合转换为数组,但是转换为数组后,数组类型变成了Object类型,我需要得到String类型的数组,所以我将它强制类型转换了一下:String[] array = (String[]) areaList.toArray();此时执行就报了[Ljava.lang.Object; cannot be cast to [...

2018-09-18 13:58:29 11340 4

原创 kafka性能优化详解

KAFKA Cluster模式最大的优点:可扩展性和容错性。下图是关于Kafka集群的结构图:一、Kafka Broker个数决定因素二、操作系统优化大部分Linux发布版本默认的内核参数配置能让大部分应用工作的相当好。但对于实际的Kafka broker场景来说,做稍些改变会提升broker性能。主要涉及的配置:虚拟内存、网络和磁盘挂载(用来存储log segment),一般在 /et...

2018-09-18 12:53:04 1823

原创 Spark性能优化详解

Spark性能优化详解1.对集群分配更多的资源 在提交任务时,在–total-executor-cores,–executor-memory,–driver-memory参数上分配 分配cpu core,memory 给executor分配更多的内存,能够减少executor频繁gc,因为一旦发生频繁gc,spark的性能会马上下降 给executor分配更多的内存,会将尽量多的rdd...

2018-08-10 10:32:47 1133

ojdbc14-10.2.0.4.0.jar

引入下面依赖失败 <dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc14</artifactId> <version>10.2.0.4.0</version> </dependency> 提示:Cannot resolve com.oracle:ojdbc14:10.2.0.4.0 把上面压缩包加压后放到maven本地库后,再重新reload即可

2022-09-27

Python机器学习基础教程

本书是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法应用到文本数据上,还介绍了一些文本特有的处理方法。 前言  ix 第1章 引言  1 1.1 为何选择机器学习  1 1.1.1 机器学习能够解决的问题  2 1.1.2 熟悉任务和数据  4 1.2 为何选择Python  4 1.3 scikit-learn  4 1.4 必要的库和工具  5 1.4.1 Jupyter Notebook  6 1.4.2 NumPy  6 1.4.3 SciPy  6 1.4.4 matplotlib  7 1.4.5 pandas  8 1.4.6 mglearn  9 1.5 Python 2与Python 3的对比  9 1.6 本书用到的版本  10 1.7 第一个应用:鸢尾花分类  11 1.7.1 初识数据  12 1.7.2 衡量模型是否成功:训练数据与测试数据  14 1.7.3 要事第一:观察数据  15 1.7.4 构建第一个模型:k近邻算法  16 1.7.5 做出预测  17 1.7.6 评估模型  18 1.8 小结与展望  19 第2章 监督学习  21 2.1 分类与回归  21 2.2 泛化、过拟合与欠拟合  22 2.3 监督学习算法  24 2.3.1 一些样本数据集  25 2.3.2 k 近邻  28 2.3.3 线性模型  35 2.3.4 朴素贝叶斯分类器  53 2.3.5 决策树  54 2.3.6 决策树集成  64 2.3.7 核支持向量机  71 2.3.8 神经网络(深度学习)  80 2.4 分类器的不确定度估计  91 2.4.1 决策函数  91 2.4.2 预测概率  94 2.4.3 多分类问题的不确定度  96 2.5 小结与展望  98 第3章 无监督学习与预处理  100 3.1 无监督学习的类型  100 3.2 无监督学习的挑战  101 3.3 预处理与缩放  101 3.3.1 不同类型的预处理  102 3.3.2 应用数据变换  102 3.3.3 对训练数据和测试数据进行相同的缩放  104 3.3.4 预处理对监督学习的作用  106 3.4 降维、特征提取与流形学习  107 3.4.1 主成分分析  107 3.4.2 非负矩阵分解  120 3.4.3 用t-SNE进行流形学习  126 3.5 聚类  130 3.5.1 k 均值聚类  130 3.5.2 凝聚聚类  140 3.5.3 DBSCAN  143 3.5.4 聚类算法的对比与评估  147 3.5.5 聚类方法小结  159 3.6 小结与展望  159 第4章 数据表示与特征工程  161 4.1 分类变量  161 4.1.1 One-Hot编码(虚拟变量)  162 4.1.2 数字可以编码分类变量  166 4.2 分箱、离散化、线性模型与树  168 4.3 交互特征与多项式特征  171 4.4 单变量非线性变换  178 4.5 自动化特征选择  181 4.5.1 单变量统计  181 4.5.2 基于模型的特征选择  183 4.5.3 迭代特征选择  184 4.6 利用专家知识  185 4.7 小结与展望  192 第5章 模型评估与改进  193 5.1 交叉验证  194 5.1.1 scikit-learn中的交叉验证  194 5.1.2 交叉验证的优点  195 5.1.3 分层k 折交叉验证和其他策略  196 5.2 网格搜索  200 5.2.1 简单网格搜索  201 5.2.2 参数过拟合的风险与验证集  202 5.2.3 带交叉验证的网格搜索  203 5.3 评估指标与评分  213 5.3.1 牢记最终目标  213 5.3.2 二分类指标  214 5.3.3 多分类指标  230 5.3.4 回归指标  232 5.3.5 在模型选择中使用评估指标  232 5.4 小结与展望  234 第6章 算法链与管道  236 6.1 用预处理进行参数选择  237 6.2 构建管道  238 6.3 在网格搜索中使用管道  239 6.4 通用的管道接口  242 6.4.1 用make_pipeline方便地创建管道  243 6.4.2 访问步骤属性  244 6.4.3 访问网格搜索管道中的属性  244 6.5 网格搜索预处理步骤与模型参数  246 6.6 网格搜索选择使用哪个模型  248 6.7 小结与展望  249 第7章 处理文本数据  250 7.1 用字符串表示的数据类型  250 7.2 示例应用:电影评论的情感分析  252 7.3 将文本数据表示为词袋  254 7.3.1 将词袋应用于玩具数据集  255 7.3.2 将词袋应用于电影评论  256 7.4 停用词  259 7.5 用tf-idf缩放数据  260 7.6 研究模型系数  263 7.7 多个单词的词袋(n元分词)  263 7.8 高级分词、词干提取与词形还原  267 7.9 主题建模与文档聚类  270 7.10 小结与展望  277 第8章 全书总结  278 8.1 处理机器学习问题  278 8.2 从原型到生产  279 8.3 测试生产系统  280 8.4 构建你自己的估计器  280 8.5 下一步怎么走  281 8.5.1 理论  281 8.5.2 其他机器学习框架和包  281 8.5.3 排序、推荐系统与其他学习类型  282 8.5.4 概率建模、推断与概率编程  282 8.5.5 神经网络  283 8.5.6 推广到更大的数据集  283 8.5.7 磨练你的技术  284 8.6 总结  284 关于作者  285 关于封面  285 (学习交流实用,如有版权问题请联系)

2018-11-28

大数据面试问题

总结国内各大公司面试问题,以及问题详细分析 总结国内各大公司面试问题,以及问题详细分析 总结国内各大公司面试问题,以及问题详细分析

2018-09-20

大数据面试汇总

大数据面试汇总

2018-09-20

kafka调优(工作学习必备)

kafka调优

2018-09-18

Spark大数据处理:技术、应用与性能优化 (大数据技术丛书)

Spark大数据处理:技术、应用与性能优化 (大数据技术丛书).rar

2018-09-14

Spark核心技术与高级应用+,于俊等著+

Spark核心技术与高级应用+,于俊等著+,[email protected] Spark核心技术与高级应用+,于俊等著+,[email protected] Spark核心技术与高级应用+,于俊等著+,[email protected]

2018-09-14

SQL必知必会 第三版

SQL必知必会.pdf

2018-09-14

Oracle10gDBA两日速成经典教程完整版

Oracle10gDBA两日速成经典教程完整版.pdf

2018-08-31

《大数据之路:阿里巴巴大数据实践》

最新版《大数据之路:阿里巴巴大数据实践》.pdf

2018-08-31

机器学习中入门必备

机器学习中入门必备

2018-08-23

Oracle10gDBA两日速成经典教程

Oracle10gDBA两日速成经典教程

2018-08-23

hive进阶强化必备

个人总结的hive快速提升能力的快捷训练方式供参考

2018-08-23

java核心技术整理

电子版看着更好,嘻嘻,我这里就要你一分

2018-08-23

kafka面试题参考

kafka面试题参考,kafka面试题参考,kafka面试题参考,kafka面试题参考,kafka面试题参考,kafka面试题参考

2018-08-10

Hbase底层剖析结构

Hbase底层剖析结构,Hbase底层剖析结构,Hbase底层剖析结构

2018-08-10

spark性能优化小结

spark优化,spark优化,spark优化,spark优化,spark优化

2018-08-10

spark性能优化手册

spark优化,spark优化,spark优化,spark优化,spark优化

2018-08-10

Jvm入门必备手册

Jvm入门,Jvm入门,Jvm入门,Jvm入门,Jvm入门,Jvm入门

2018-08-10

Oracle10gDBA两日速成经典教程 (1)

Oracle10gDBA两日速成经典教程 (1) Oracle10gDBA两日速成经典教程 (1) Oracle10gDBA两日速成经典教程 (1)

2018-07-27

Spark性能优化指南——高级篇

Spark性能优化指南——高级篇 Spark性能优化指南——高级篇

2018-07-27

Spark性能优化指南——基础篇 -.pdf

Spark性能优化指南——基础篇 -.pdf Spark性能优化指南——基础篇 -.pdf Spark性能优化指南——基础篇 -.pdf

2018-07-27

Spark容错机制

Spark容错机制Spark容错机制Spark容错机制Spark容错机制Spark容错机制Spark容错机制

2018-07-27

kafka入门必备手册

kafka入门:简介、使用场景、设计原理、主要配置及集群搭建 kafka入门:简介、使用场景、设计原理、主要配置及集群搭建 kafka入门:简介、使用场景、设计原理、主要配置及集群搭建

2018-07-27

curl-7.47.1.tar.gz

curl-7.47.1.tar.gz curl-7.47.1.tar.gz curl-7.47.1.tar.gz curl-7.47.1.tar.gz curl-7.47.1.tar.gz curl-7.47.1.tar.gz

2018-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除