自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

nxcjh321的专栏

原创【CDGP】如何识别主数据？

主数据是有关业务实体（如雇员、客户、产品、金融结构、资产和位置等）的数据，这些实体为业务交易和分析提供了语境信息。并且主数据应该代表与关键业务实体有关的权威的、最准确的数据。个人和组织，以及他们所扮演的角色，如客户、公民、病人、厂商、供应商、代理商、商业伙伴、竞争者、雇员或学生等。（如果是短期使用，一般不作为主数据。财务体系，如合同、总账、成本中心、利润中心。产品和服务，包括内部和外部的产品及服务。哪些数据被用来描述人、组织、地点和事物。哪些角色、组织、地点和事物被反复引用。这一点非常非常重要！...

2022-08-31 11:32:05 535 1

原创 Spark读取CSV文件（Scala）

header: 是否指定首行作为schema。format: 指定读取的文件格式：csv。schema: 指定数据字段的格式。

2022-08-12 18:08:36 4823

原创 ElasticSearch客户端操作

ES客户端操作入门手册

2022-06-10 14:56:14 423

原创使用ES-Hadoop进行Hive和ES数据同步

创建Hive映射ElasticSearch表，实测跑通，梳理各种问题。

2022-06-09 17:35:18 780

原创 Pandas: 数据合并

1.记录合并记录合并是指将两个结构相同的数据框合并成一个数据框，也就是在一个数据框中追加另一个数据框的数据记录。1.1 concat 函数函数说明：concat方法相当于数据库中的全连接（union all），它不仅可以指定连接的方式（outer join 或 inner join），还可以指定按照某个轴进行连接。与数据库不同的是，它不会去重，但可以使用drop_duplicates方法达到去重的效果。命令格式：concat([dataFrame1, dataFrame2,…], in

2021-04-29 02:06:00 1104 6

原创【数据仓库】-多问数仓

Q1:对于数据仓库的理解，数据仓库解决什么问题？1. 数据仓库可以理解为一个大的数据集合，它的功能是面向数据分析和决策支持；2. 数据仓库不生产数据，它所有的数据都是同步自业务系统，而众多业务系统数据会面临着分散，异构，多源性等问题，不便于进行数据分析，所以就需要数据仓库来对生产数据进行整合、处理后再对用户进行提供，提升用户对数据的提取效率；3. 从数据仓库定义来看，它是一个面向主题的，集成的，相对稳定和反应历史变化的数据集合，也较好的说明了数据仓库的特点和对分析场景的支持；Q2:...

2021-04-26 10:42:35 228

原创一个真实的数仓项目总结

背景1.公司业务整合，指标管理混乱，数据不一致问题严重，另外指标的开发和迭代效率也比较低；2.举措：进行集团指标认证，数据指标重新开发；建设前面临的问题1.指标非常多，业务复杂，变化快；2.人少，排期紧张，如果提高开发效率；3.核心诉求满足：数据一致性；数据开发效率高，响应快；用户理解使用效率高；入手点1.面向需求，采用维度建模；2.参考OneData方法论进行指标设计思考，解决指标一致性问题（同名同义，异名异义）3.参考OneModel规范定义的思考..

2021-03-18 13:09:12 1596

原创【数据仓库】- 数据分层

目录一. 数据分层的原因二. 数据分层的意义三. 如何设计数据分层四. 数据分层的思考一. 数据分层的原因首先从宏观上来讲，数据分层是为了更好的去组织、管理、维护和使用数据。为了达到以上目的，采用了数据解耦的方式来实现，而数据分层就是解耦的方式之一，另外一种方式就是主题域划分。数据分层不是为了分层而分层，分层是为了解决ETL任务及工作流的组织、数据的流向、读写权限的控制、不同场景满足等各类实际问题的。越上层的模型，聚合程度越高，对数据应用越友好，但可理解程度就越低。越偏近底层

2021-03-10 18:21:02 1596 1

原创【模型评审】- 模型记分卡

知识关键点√ 数据模型记分卡是一种积极，有效的数据模型质量评价方法。√ 在数据建设初期使用记分卡可以有效降低返工几率，即便一些新手也可以对数据模型提出改进意见。√ 记分卡并非专用性技术，可以在任何项目中加以应用。在数据质量管理中经常容易被忽略的一个问题就是数据模型的质量。在项目开发过程中，我们经常以数据库设计为单一目标，而进行快速的数据模型构建，然而数据模型的意义却是深远，持久的。数...

2019-06-04 09:20:57 1581

原创数据分析-ARIMA方法建模步骤总结

ARIMA模型适用于非平稳时间序列数据，其中的I表示差分的次数，适当的差分可使原序列成为平稳序列后，再进行ARIMA模型的建模。其建模步骤与ARMA模型类似，分为5个步骤：平稳: 通过差分的手段，对非平稳时间序列数据进行平稳操作。定阶: 确定ARIMA模型的阶数p, q。估计: 估计未知参数。检验: 检验残差是否是白噪声过程。预测: 利用模型预测。对应的，在商业领域，时间序列预测...

2019-05-06 08:29:07 22687

原创聚类分析

聚类常用于数据探索或挖掘前期，在没有做先验经验的背景下做的探索性分析，也适用于样本量较大情况下的数据预处理工作。例如针对企业整体的用户特征，在未得到相关只是或经验之前先根据数据本身特点进行用户分群，然后针对不同群体做进一步分析；例如对连续数据做离散化，便于后续做分类分析应用。常用的聚类算法分为基于划分，层次，密度，网格，统计学，模型等类型的算法，典型算法包括K均值（经典的聚类算法），DB...

2019-04-20 17:40:05 4024

原创数据分析：有关相关性分析的混沌

相关分析是指对多个具备相关关系的变量进行分析，从而衡量变量间的相关程度或密切程度。相关性可以应用到所有数据的分析过程中，任何事物之间都存在一定的联系。相关性用R(相关系数)表示，R的取值范围是[-1,1]相关和因果的差异相关性不等于因果，用x1和x2作为两个变量逆行解释，相关意味着x1和x2是逻辑上的并列相关关系，而因果联系可以解释为因为x1所以x2（或因为x2所以x1）的逻辑关系，二...

2019-04-20 10:14:55 602

原创 Matplotlib可视化

2019-04-18 00:32:02 118

原创 Pandas：数据分析与处理

1. 分组分析分组分析是指根据分组字段将分析对象划分成不同的部分，以对比分析各组之间差异性的一种分析方法。常用的统计指标有：计数，求和，平均值。常用命令形式如下：df.groupby(by=['分类1','分类2',...])['被统计的列'].agg({列名1:统计函数1, 列名2:统计函数2,...})参数说明： * by 表示用于分组的列 * [] 表示用于统计...

2019-04-17 23:28:29 640

原创 Pandas：基本统计分析

基本统计分析又叫描述性统计分析，一般统计某个变量的最小值，第一个四分位值，中值，第三个四分位值以及最大值。描述性统计分析函数为describe，该函数返回值有均值，标准差，最大值，最小值，分位数等。括号中可以带一些参数，如percentitles=[0.2,0.4,0.6,0.8]就是指定只计算0.2， 0.6， 0.8 分位数，而不是默认的1/4， 1/2， 3/4分位数。describe...

2019-04-17 23:07:07 2603

原创数据预处理：解决运营数据的共线性问题

所谓共线性（又称多重共线性）问题指的是输入的自变量之间存在较高的先行相关度。共线性问题会导致回归模型的文档行和准确性大大降低，另外，过多无关的维度参与计算也会浪费计算资源和时间。共线性问题是否常见取决于具体业务场景，常见的具有明显的共线性的维度或变量包括如下：访问量和页面浏览量页面浏览量和访问时间订单量和销售额订单量和转化率…导致出现变量间共线性的原因可能包括：数据样本不...

2019-04-17 21:15:52 2201

原创数据预处理：将分类和顺序数据转换为标志变量

分类数据和顺序数据是常见的数据类型。Python标志转换示例说明：在本示例中，将模拟有两列数据分别出现分类数据和顺序数据的情况，并通过自定义代码以及sklearn代码分别进行标志转换。import pandas as pd from sklearn.preprocessing import OneHotEncoder # 导入OneHotEncoder# 生成数据df = pd.D...

2019-04-14 10:10:54 851

原创数据清洗：缺失值，异常值和重复值的处理

在数据清洗过程中，主要处理的是缺失值，异常值和重复值。所谓清洗，是对数据进行丢弃，填充，替换，去重等操作，实现去除异常，纠正错误，补足缺失的目的。1. 数据列缺失的4种处理方法数据缺失分为2种：行记录的缺失，这种情况又称为数据记录丢失；数据列值的丢失，即由于各种原因导致的数据记录种某些列的值缺失。这里重点讨论数据列类型缺失值的处理，通常有4种处理思路：丢弃补全相对于丢弃而...

2019-04-14 08:11:25 10753

原创数据统计分析（4）：数据的离散程度描述

极差极差又被称为范围差或全距（Range），以R表示，是用来表示统计资料中的变异量数，其最大值与最小值之间的差距，即最大值减最小值后所得之数据。它是标志值变动的最大范围，它是测定标志变动的最简单的指标。移动极差是其中一种。极差不能用做比较，单位不同，方差能用做比较，因为都是个比率。计算公式：最直接也是最简单的方法，即最大值－最小值（也就是极差）来评价一组数据的离散度。这一方法在日常...

2019-04-09 23:53:29 54531 1

转载 11步转行数据科学家 (送给数据员/ MIS / BI分析师)

数据科学作为一个专业领域迅速崛起，吸引了来自各种职业背景的人。工程师、计算机科学家、市场和金融毕业生、分析师、人力资源人员——每个人都想尝一块 “数据科学馅饼”。Analytics Vidhya (一个专门针对“分析与数据科学”的社区网站 ) 发布了一篇文章《为初学者迈入数据科学规划的全面学习路径》。A comprehensive Learning path to become a...

2019-04-09 21:00:42 251

转载机器学习与统计学的差异

【导读】统计学和机器学习的真正差别。统计学和机器学习在很多情况下是被混淆的，大部分人其实并不能很好的区分二者。介于此，本文详解的讲解了二者实际的差异，非常有指导意义。很多人并不能很好的区分统计学和机器学习，因为之间确实有太多的相同之处。目前流行的一种说法是，机器学习和统计学之间的主要区别在于它们的目的：机器学习模型旨在使最准确的预测成为可能；统计模型被设计用于推断变量之间的关系。这...

2019-04-09 20:30:25 1164

原创数据统计分析（3）：数据的集中趋势描述

数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值，这个代表值或中心值可以很好反映事物目前所处的位置和发展水平，通过对事物集中趋势指标的多次测量和比较，还能够说明事物的发展和变化趋势。数据的集中趋势描述的形式主要有如下几种：1.算数平均值算术平均值是最常用的数据集中趋势指标，可以分为简单算术平均值和加权算术平均值。算...

2019-04-09 07:49:25 20289

原创数据统计分析（1）：数据分析流程

首先，数据分析能力是一项综合性的能力。数据分析过程如下：1.明确分析目的和思路1.1 明确分析目的做任何事情都有一个目标，数据分析也不例外。如果目的明确，所有问题都可以迎刃而解。所以在开展数据分析之前，要想清楚：为什么要开展数据分析？通过这次数据分析我要解决什么问题？只有明确数据分析的目标，数据分析才不会偏离方向，否则得出的数据分析结果不仅仅没有指导意义，甚至可能将决策者...

2019-04-08 16:44:38 5388

原创 Pandas 的Merge总结

Pandas Mergepandas 的merge方法提供了一种类似于SQL的内存链接操作，官网文档提到它的性能会比其他开源语言的数据操作（例如R）要高效。MergeMerge的参数on: 列名，join用来对齐的那一列名字，用到这个参数的时候一定要保证坐表和右表用来对齐的那一列都有相同的列名。left_on: 坐标对齐的列，可以是列名，也可以是和dataframe同样长度的array...

2019-04-01 18:29:32 1685

原创对自己狠一点，开始写作，以及如何开始写作

早上来到公司看了码农翻身公众号，有关于写作的，发现有写年头已经没有系统化的对知识进行梳理并记录了，所以仔细阅读了老刘的两篇文章，把一些学习点记录下来，以备徐徐图之。时常会有这样的感觉，自己心里觉得对一个技术已经掌握了，但是当我试图给别人讲述的时候，发现并不能轻松自如，深入浅出地讲出来。这就说明了一个问题：自认为掌握了，其实并没有真正掌握，大脑...

2019-03-12 10:18:38 231

原创 jQuery-事件与动画

2018-04-23 10:15:55 239

原创 jQuery-DOM操作大总结

2018-04-23 10:14:09 237

原创 jQuery选择器大总结

2018-04-23 10:12:33 131

原创 ali Interview guide

https://yq.aliyun.com/articles/28400https://yq.aliyun.com/articles/67000

2017-02-27 10:32:29 472

转载 Anaconda使用总结

序Python易用，但用好却不易，其中比较头疼的就是包管理和Python不同版本的问题，特别是当你使用Windows的时候。为了解决这些问题，有不少发行版的Python，比如WinPython、Anaconda等，这些发行版将python和许多常用的package打包，方便pythoners直接使用，此外，还有virtualenv、pyenv等工具管理虚拟环境。个人尝试了很多类似的发行版，

2017-02-10 09:47:33 1069

原创使用load data local infile 导入文本文件到MySQL乱码问题

命令:mysql -h localhost -uroot -proot test -e "load data local infile '/Users/xiaomai/workspace/python/pachong/de3.txt' into table dz_ershoufang character set 'utf8' fields terminated by '\t'"

2017-02-07 17:15:34 4970

转载 python 匹配文本全角转半角字符

在对文本进行处理的时候经常会遇见要对括号和标点进行匹配常见的英文(半角)符号如( ) 直接用正则匹配即可但是遇见全角字符(中文括号、标点)，直接用正则匹配会存在问题：因为编码通常为为utf8，若直接匹配，中文括号的3字节编码会和一些中文的字节编码重复，产生意想不到的结果若用decode转为unicode编码，则可避免产生错误结果，但也无法直接用正则匹配到经过试验，发现一个看上去

2017-02-07 16:00:48 3422

原创解决UnicodeEncodeError: 'ascii' codec can't encode characters in position问题

异常: UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: ordinal not in range(128)解决方法: 在开头添加上:import sysreload(sys)sys.setdefaultencoding("utf-8")

2017-02-07 15:57:31 490

原创 Spark 异常集锦

1. Spark2. Spark Streaming2.1 No output streams registered, so nothing to execute异常原因: 没有触发 DStream需要的 action解决方法: 使用以下方法之一触发:print()foreachRDD()saveAsObjectFiles()saveAsTextFiles

2017-01-22 18:17:39 402

原创 Kafka-0.10.1.0 简单安装部署

1. 下载地址: http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.10.1.0/kafka_2.10-0.10.1.0.tgz2. 解压,配置环境变量,配置server.properties.配置项如下:broker.id=0(前面设置的本机id)port=9092host.name=10.11.111.11(本机IP)

2017-01-18 17:43:03 902

原创 Spark1.6.2 源码编译

步骤1: 源码下载地址: http://spark.apache.org/downloads.html下载1.6.2 版本源码 tar 包.步骤二: 解压 tar 包, 进入,执行如下命令:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M-XX:ReservedCodeCacheSize=512m"mvn -Pyarn -Dhad

2017-01-18 15:31:45 552

原创使用 sshpass 用于非交互的 ssh 密码验证登录

sshpass是用于非交互的 ssh 密码登录验证. 它允许使用 -p 参数指定明文密码, 然后直接登录远程服务器. 它支持密码从命令行, 环境变量中读取.sshpass 安装源码下载地址: http://sourceforge.net/projects/sshpass/tar -zxvf sshpass-1.05.tar.gzcd sshpass-1.05./conf

2017-01-18 15:25:58 473

原创阿里云Maven中央仓库配置

配置方法1: 在 $MAVEN_HOME/conf 下的 settings.xml 的标签中添加如下配置: alimaven aliyun maven http://maven.aliyun.com/nexus/content/groups/public/ central 配置方法2: 在 pom.xml 中直

2017-01-18 10:43:40 28959

原创 HBase/Hadoop 安装之前需要注意的配置问题

资源限制命令 : ulimit 和 noproc HBase 和其他的数据库软件一样会同时打开很多个文件. Linux默认的ulimit值是1024, 这对HBase来说太小了. 当使用诸如bulkload这种工具批量导入数据的时候会得到这样的异常信息: java.io.IOException:Too many open files.这里我们需要改变这个值, 注意, 这是对

2017-01-08 10:27:01 1624

原创 IDEA Spark 程序报错: NoClassDefFound : Scala/xml/metadata

错误现象:

2016-12-28 10:29:37 2260 1

jQuery 选择器整理

jQuery 选择器 XMind整理, 包含基本选择器,层级选择器, 过滤选择器

2018-04-24

java 监控线程

java 监控线程

2014-06-27

java 决策树Demo2

java 决策树Demo2

2014-06-27

java 决策树Demo1

java 决策树 Demo1

2014-06-27

kafka0.8 storm0.9 pom.xml

kafka-storm 0.9版本 pom.xml

2014-05-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除