自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

转载 HDFS存储架构剖析以及读写流程

HDFS存储架构主要由三部分组成:NameNode,DataNode,ClientNameNodeNamenode 是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。 文件操作,NameNode 负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问它跟那个DataNode联系,否则NameNode会成为系统的瓶颈。 副本存放在哪些DataNode上...

2020-10-16 18:53:05 313

转载 什么是Kafka——分布式消息系统

What’s is Kafka:Apache Kafka是分布式发布-订阅消息系统。他最初由Linkedln公司开发,之后成为Apache项目的一部分。Kafka是一种快速,可拓展的,设计内在就是分布式的,分区的和可复制的提交日志服务Apache Kafka与传统消息系统相比,有以下不同:: 它被设计为一个分布式系统,易于向外拓展; 它同时为发布和订阅提供吞吐量; 它支持多订阅者,当失败时能自动平衡消费者; 它将消息持久化到磁盘,因此可用于批量消费,例如ETL以及实时应用程序。

2020-10-16 18:46:44 413

转载 什么是Zookeeper——动物管理员?

What’s is ZooKeeper:一个开源的分布式的,为分布式应用提供协调服务的Apache项目。功能包括::配置维护,名字服务,分布式同步,组服务等 目标:封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper特点:最终一致性:为客户端展示同一视图,这是 ZooKeeper 最重要的性能。 可靠性:如果消息被一台服务器接受,那么它将被所有的服务器接受。 实时性:ZooKeeper 不能保证两个客户端同时得到刚更新的数据,如果需要最

2020-10-16 18:45:19 1789

转载 MapReduce编程模板及shuffle过程简介

MapReduce运行流程(7步):作业启动>>>作业初始化>>>任务调度(Yarn)>>>map>>>shuffle>>>reduce>>>作业完成MapReduce将整个并行计算过程抽象到两个函数: Map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行。 Reduce(化简):对一个列表的元素进行合并。 一个简单的MapReduce程序只需要指定m

2020-10-16 18:39:12 202

转载 什么是Hive——大数据仓库Hive基础

Hive是什么:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;其本质是将HQL转化成MapReduce程序。 构建在Hadoop之上的数据仓库: 使用HQL作为查询接口 使用HDFS存储 使用MapReduce计算 灵活性和扩展性比较好:支持UDF,自定义存储格式等: 适合离线数据处理 Hive体系结构:Hive的数据存储基于HDFS,其没有专门的数据存储格式,主要的存储结构主要包括:数据库,

2020-10-16 18:17:43 422

转载 shell常用命令

Shell常用命令总结1ls命令:列出文件ll-la列出当前目录下的所有文件和文件夹ll a*列出当前目录下所有以a字母开头的文件ll -l*.txt列出当前目录下所有后缀名为txt的文件ll -rt 按时间倒序列出当前目录下所有的文件2cp命令:复制cpa.txtb.txt:把文件a的内容复制到b文件cpa.txt./test:把文件a复制到text目录下cp-atesttest2:递归的把目录test下所有文件(包括隐藏的文件...

2020-10-09 17:40:53 442

原创 hue中融合的一些技术框架简介

hue的demo点击调整到hue的demo。直接登录查看HDFS文件浏览器HUE可以很方便的浏览HDFS中的目录和文件,并且进行文件和目录的创建、复制、删除、下载以及修改权限等操作。HDFS实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。但,用户身份机制对HDFS本身来说只是外部特性。HDFS并不提供创建用户身份、创建组或处理用户凭证等功能。 使用HU

2020-10-09 10:39:20 224

原创 hue的简介及基本原理

hue定义:HUE=Hadoop User Experience个人理解:可视图的webui界面,方便大数据技术之间的CRUD操作。 官方定义:Hue是一个能够与Apache Hadoop交互的Web应用程序。一个开源的Apache Hadoop UI。 特性:一个HDFS的文件浏览器,一个MapReduce/YARN的Job浏览器,一个 HBas的浏览器,Hive,Pig,Cloudera Impala 和 Sqoop2 的查询编辑器。它还附带了一个Oozie的应用程序,用于创建和监控工作流程

2020-10-09 09:57:49 11202

转载 Python 输入多个经纬度坐标,找出中心点

根据工作需要,将多个坐标点的中心点找出,在stackoverflow中发现了一个解决方法,也有人提供了Python版本,但运行之后的结果却是几个带负号的小于1的小数,再观察其他版本的例子时发现需要将经纬度进行转化,将角度化为弧度就需用角度乘以π/180,反之就除以(π/180),所以在C#版本中就有//角度转弧度var latitude = geoCoordinate.Latitude * Math.PI / 180;var longitude = geoCoordinate.Longitude

2020-08-31 11:37:00 5154 1

原创 python计算两个坐标点之间的距离

背景:有几个门店和大厦,看看这几个门店和大厦旁边有没有快递柜数据:门店和大厦只有地址数据,快递柜系统有地址数据和经纬度数据类似的需求应该比较多,这里的核心点是关于两个坐标点之间距离的计算,之前没用过这个东西,刚好今天有个这样的需求,记录下。import requestsimport psycopg2import pandas as pdfrom math import radians, cos, sin, asin, sqrt #返回地址的坐标def get_address_co

2020-08-26 17:19:17 14565

原创 常用的的数据挖掘算法概览

数据挖掘技术的基本任务主要体现在分类与回归、聚类,关联规则发现,时序模式,偏差检测等五个方面。一、主要的分类和回归算法二、主要的聚类算法三、主要的时序算法数据挖掘应用流程...

2020-08-26 10:34:34 316

原创 python批量将word、ppt转化为pdf(极简版)

日将将PPT和word批量转成pdf的需求还是比较普遍的。下列两段代码中,word转pdf的有时候会出现莫名奇妙的报错,跑了两次由于顺利将工作完成了,也没继续研究原因,有需要的使用时得注意下。

2020-08-24 17:42:07 1360 1

原创 explain语句字段解析

explain select * from t_date_inrease id: SELECT识别符。这是SELECT的查询序列号 select_type:指明各“单位select 查询”的查询类型: PRIMARY :子查询中最外层查询 SUBQUERY : 子查询内层第一个SELECT,结果不依赖于外部查询 DEPENDENT SUBQUERY:子查询内层第一个SELECT,依赖于外部查询 UNION :UNION语句中第.

2020-08-24 14:37:01 275

转载 5个好用的Excel技巧,一秒钟完成一个功能

本文说明俗话说:“技多不压身”。我们学会更多的技巧,不管是学习、还是工作,都会起到事半功倍的效果。有时候你可能会说:这个技术目前我用不上。不要紧,你先学着,等以后用得上的时候就会有用,难道你学习的高等代数、线性代数、解析几何,天天在用?本文就是告诉你一些excel处理工作的小技巧,希望对你有用,本文的大纲如下。1.F11快速生成图表如果有这样一批数据,如何使用快捷键,一次性生成一张图表呢?当然一键生成后,我们再对图表进行格式的调节,是不是就方便得多第一步:选中整个数据区域;第二步:按电脑

2020-08-24 09:37:23 167

原创 白帽seo的基本优化逻辑

网站seo是比较玄学的东西,因为没人能保证自己做的所谓的优化能得到怎样的一个量化的结果。所以很多时候做优化成了过程导向的东西,而非结果导向。从关键词,到图片,到网站url,到域名,外链,一通操作。目标不是“优化”,而是对所有理论可能的因素做实践。可以说是一种无脑的努力。说没用吧,有点用,说有用吧,可控性同样很低。

2020-08-21 15:28:43 638

转载 Tomcat 与 Nginx,Apache的区别

一、定义:1. ApacheApache HTTP服务器是一个模块化的服务器,可以运行在几乎所有广泛使用的计算机平台上。其属于应用服务器。Apache支持支持模块多,性能稳定,Apache本身是静态解析,适合静态HTML、图片等,但可以通过扩展脚本、模块等支持动态页面等。(Apche可以支持PHPcgiperl,但是要使用Java的话,你需要Tomcat在Apache后台支撑,将Java请求由Apache转发给Tomcat处理。)缺点:配置相对复杂,自身不支持动态页面。2. Tomcat

2020-08-20 16:07:50 149

原创 python根据excel内容批量生成合同模板

from docx import Documentfrom openpyxl import load_workbook# 利用os模块建立文件夹,用于存放生成的合同import os# 给定合同模板和汇总表所在的文件夹路径,方便复用path = r'C:\Users\james\Desktop\合同数据'# 结合路径判断生成文件夹,规避程序报错而终止的风险if not os.path.exists(path + '/' + '全部合同'): os.mkdir(path + ...

2020-08-19 15:52:38 1520 1

原创 docx模块出现Import Error: No module named ‘exceptions‘

通过anaconda安装docx三方库,通过pip 命令直接安装的时候比较顺利,没有任何报错,但是在import的时候却出现了一些问题。Import Error: No module named 'exceptions'后来找资料发现是python3的兼容问题。那找一个能兼容的包安装就可以了!https://www.lfd.uci.edu/~gohlke/pythonlibs/找到python_docx-0.8.6-py2.py3-none-any.whl,点击下载到本地,然后通过pip进

2020-08-19 15:08:22 442

原创 不用vba如何利用excel搭建一套运营分析系统

不少公司是没有复杂的报表系统或是BI系统的,很多时候数据是来源于日常的手动收集或是erp系统的导出excel。都需要运营人员或是财务人员做二次加工处理,正常来说绝大部分的这种处理都是机械性重复的,怎样降低这种机械性的数据清洗工作就尤为重要。如果不能从这种繁杂无意义的工作中抽身出来,成长进步都会是空谈。

2020-08-16 12:11:51 527

原创 excel作图如何取最近一段时间的数据

背景:写周报月报的时候会有一种需求,就是在自己excel图表已经做好了,每周可能在你原有的数据源往后加一列或是一行,你希望你的图表就直接引用你最新加上来的这行或是这一列,一直保持最近4周,或是最近6个月的数据源,这样你就不用一直调整图表了,能花更多时间用来分析上。解决这个问题,首先应该了解一个功能和一个函数,名称管理器和offset函数,也了解下图表的结构,就有思路解决了。举例:直接在名称款这里给选中的区域一个名称,中英文都可以,这时候其实就是在名称管理器里面给一个区域创建了名称。

2020-08-16 10:39:53 1487

原创 kettle的环境变量配置及连接8.0mysql报错解决方案

a).打开我的电脑--属性--高级--环境变量b).新建系统变量JAVA_HOME和CLASSPATH变量名:JAVA_HOME变量值:C:\Program Files\Java\jdk1.8.0_211[具体路径以自己本机安装目录为准]

2020-08-13 16:58:31 872

原创 python定时邮件发送_正文添加图片_添加附件_循环发送多人

实现功能:从数据库中获取前一天订单数据,分区域生成汇总文件(.csv)和明细文件(.csv)保存,将文件保存到指定目录下 生成汇总文件内容截图,绘制产品分布饼图截图,保存两个截图,将文件保存到指定目录下 通过邮件将每日各区域所需的两个文件及两个截图在每日早上8点准时发送及抄送各区域指定人员...

2020-08-12 20:43:56 1047

原创 python实战|利用openpyxl制作订单统计报表

刚开始学习openpyxl,试下利用openpyxl制作平时常用的统计报表,发现功能还是挺实用的,对包不熟悉,代码应该还有很多优化的空间,好几个循环都应该可以优化下,增加可读性~ 最终试验做成的报表如下,比较贴近日常用的报表格式了。代码如下一、连接数据库,导入订单明细数据#①连接数据库并获取维表数据及清洗conn = psycopg2.connect(database="database", user="root", .

2020-08-06 15:30:56 1059

原创 多级列索引出现 ‘MultiIndex‘ object has no attribute ‘labels‘

在做一份分析报表的时候,所生产的DataFrame的列是多级索引的列,通过dataframe_to_rows将DataFrame转化为ws对象的时候,发现出现了数据的报错for r in dataframe_to_rows(df, index=False, header=True): ws.append(r)报错内容如下: 'MultiIndex' object has no attribute 'labels'通过源码,发现源码是这么写的,但是自己试了一下,发现我的版本并没与.

2020-08-05 15:26:55 4039

原创 python实战|表格拆分,邮件发送,回收表格合并统计

背景:运维每周会给到一份全国‘失联’快递柜的数据,作为分析人员。需要知道每台柜子的失联原因。需要做的事:将这份快递柜的数据拆分成全国6个大区,对应的6个文件,在每个文件的最后新增一个字段,添加数据有效性,让运维同事选择原因,然后回收6份数据,将数据汇总合并,统计失联原因的分布。第一步:数据拆分,将文件拆解成6份import osimport pandas as pdimport numpy as npfrom openpyxl import Workbookfrom openpyxl

2020-08-03 20:06:48 1308

原创 kettle工具原理

kettle基础介绍kettle,ETL工具的一种,现在kettle改名了,叫Pentaho Data Integration(PDI),但更多时候大家还是习惯用之前的名字kettle。Kettle是一款国外开源的ETL工具,纯java编写(依赖jdk),可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle中有两种脚本文件,transformation(.ktr)和job(.kjb)transformation:完成针对数据的基础转换 job:则完成

2020-07-29 16:33:00 4060

原创 python基础笔记(六)_数据清洗及建模

数据特征分析分布分析研究数据的分布特征和分布类型 定量数据 极差 : max - min 通过直方图直接判断分组组数 简单查看数据分布,确定分布组数 一般8-16即可 求出分组区间 pd.cut(x, bins, right) 按照组数对x分组,且返回一个和x同样长度的分组dataframe right:是否包含右边,默认为True 通过groupby查看不同组的数据频率分布 求出目标字段下频率分布的其他统计量 → 频数,频率,累计频率

2020-07-20 10:55:11 1044

原创 python基础笔记(五)_Bokeh基础语法

交互式图表:Bokeh绘图空间基本设置创建空间 notebook中创建 from bokeh.plotting import figure,show 导入图表绘制、图标展示模块 from bokeh.io import output_notebook 导入notebook绘图模块 output_notebook() notebook绘图命令 非notebook中创建 from bokeh.plotting import show,figure,output_fil

2020-07-17 19:06:39 1057

原创 python基础笔记(四)_seaborn基础语法

图表数据可视化:seaborn整体风格设置对图表整体颜色、比例等进行风格设置,包括颜色色板等 sns.set();seaborn默认设置风格 sns.set_style();风格选择包括:"white", "dark", "whitegrid", "darkgrid", "ticks" sns.despine() 设置图表坐标轴 top, right, left, bottom:布尔型,为True时不显示 默认只显示左边和下边坐标轴 sns.axes_style() 设置局部图表风

2020-07-17 18:11:05 1172

原创 python基础笔记(三)_Matplotlib基础语法

图表绘制工具:Matplotlib概念一个python版的matlab绘图接口 以2D为主 支持python、numpy、pandas基本数据结构 有较丰富的图表库图表窗口plt.show() : 直接生成图表 % matplotlib inline : 魔法函数(常用)==》魔法函数,不需要 plt.show() % matplotlib notebook : 弹出可交互的matplotlib窗口 % matplotlib qt5 : 弹出matplotlib控制台图表基本元.

2020-07-17 17:25:35 1248 1

原创 python基础笔记(二)_pandas的基础语法

数据分析工具包:Pandas基础序列一维数组:Series Series 是带有标签的一维数组,可以保存任何数据类型,轴标签统称为索引 .index查看series索引,类型为rangeindex .values查看series值,类型是ndarray 创建方法 由字典创建,字典的key就是index,values就是values 数组创建(一维数组),默认index是从0开始,步长为1的数字 由标量创建,如果data是标量值,则必须提供索引。该值会重复,来匹

2020-07-17 15:38:47 539

原创 python基础笔记(一)_numpy的基础语法

科学计算工具包:Numpy高级数值编程工具强大的N维数组对象:ndarray 对数组结构数据进行运算(不用遍历循环) 随机数、线性代数、傅里叶变换等功能基础数据结构数组的属性 ar.ndim:输出数组维度的个数(轴数),或者说‘秩’ ar.shape:输出数组的维度,对于n行m列的数组,shape为(n,m) ar.size:输出数组中元素的个数 type(ar),ar.dtype:输出数组的类型以及其中元素的类型 ar.itemsize:输出数组中每个元素的字节大小,

2020-07-17 14:26:20 427

转载 matplotlib绘图入门详解

matplotlib是受MATLAB的启发构建的。MATLAB是数据绘图领域广泛使用的语言和工具。MATLAB语言是面向过程的。利用函数的调用,MATLAB中可以轻松的利用一行命令来绘制直线,然后再用一系列的函数调整结果。matplotlib有一套完全仿照MATLAB的函数形式的绘图接口,在matplotlib.pyplot模块中。这套函数接口方便MATLAB用户过度到matplotlib包文章目录一、import matplotlib.pyplot as plt 二、配置参数 三、线条

2020-07-07 16:20:54 294

原创 MYSQL 5.7报错 Error Code: 1290. The MySQL server is running with the --secure-file-priv option so it..

用MySQL 5.7导出数据的时候出现报错,报错内容:Error Code: 1290. The MySQL server is running with the --secure-file-priv option so it cannot execute this statement根据错误找了相关资料,发现是secure-file-priv会指定文件夹作为导出文件存放的地方,那我们可以先找出这...

2020-07-07 09:32:59 3516

原创 Mysql零碎知识点记录

char(100) 型,在字段建立时,空间就固定了, 不管是否插入值(NULL也包含在内),都是占用 100个字符的空间的。varchar这样的变长字段, null 不占用空间。 尽可能的使用 varchar/nvarchar 代替 char/nchar ,因为首先变长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。...

2020-06-29 11:20:37 228

原创 MySQL中的.ibd、.frm、.MYD、.MYI文件及恢复

mysql的data文件夹下能看到很多格式的文件,并非每个文件都代表了数据库的数据。有一些是代表了数据库的表结构等信息。类型如果是通过MyIsAM建立的表,则一张表的数据文件有3个,分别是xxx.frm 表结构文件xxx.MYD 数据文件xxx.MYI 索引文件如果是通过InnoDB(默认),则一张表有 2 个数据文件,分别是xxx.frm 表结构文件xxx.ibd 数据和索引文件/*InnoDB引擎开启了独立表空间(my.ini中配置innodb_file_pe..

2020-06-29 10:17:43 2214

原创 Mysql查询优化(二):数据库及表查询配置优化

除了SQL语句的优化,从开发和运维层面来讲,硬件配置、MySQL配置、数据表设计、索引优化才是数据查询优化的重要手段。业务查询通常会要求将查询时间控制到0.5s之内,但是实际作为分析师来讲,“慢查询”是常态,但是也得尽量了解数据库优化原理,降低查询速度,也能提升产出效率。

2020-06-28 21:57:10 237

原创 表的truncate,drop和delte区别

日志记录delete:删n行,并将删除操作作为事务记录在日志,以便回滚。truncate:删除所有数据,并不将删除操作记录在日志。速度快

2020-06-28 21:48:34 319

原创 Mysql查询优化(一):SQL语句优化

查询速度的优化有大致有三个考虑方向,一是硬件层面的优化,二是数据库“配置”优化,三是SQL语句优化。大部分搞数据分析的其实只有查询访问的权限,甚至建临时表的权限都没有,那这时候就专注在SQL本身的优化就行了。慎用否定查询常用的否定查询:!=,<>,not in...

2020-06-27 22:39:20 140

转载 SaaS Metrics 2.0 – A Guide to Measuring and Improving what Matters

原文地址:https://www.forentrepreneurs.com/saas-metrics-2/“If you cannot measure it, you cannot improve it” – Lord KelvinThis article is a comprehensive and detailed look at the key metrics that are needed to understand and optimize a SaaS business. It is a

2020-06-24 10:32:58 1699

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除