FlizhN-CSDN博客

转载 HDFS存储架构剖析以及读写流程

HDFS存储架构主要由三部分组成：NameNode，DataNode，ClientNameNodeNamenode 是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。文件操作，NameNode 负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟那个DataNode联系，否则NameNode会成为系统的瓶颈。副本存放在哪些DataNode上...

2020-10-16 18:53:05 313

转载什么是Kafka——分布式消息系统

What’s is Kafka：Apache Kafka是分布式发布-订阅消息系统。他最初由Linkedln公司开发，之后成为Apache项目的一部分。Kafka是一种快速，可拓展的，设计内在就是分布式的，分区的和可复制的提交日志服务Apache Kafka与传统消息系统相比，有以下不同：：它被设计为一个分布式系统，易于向外拓展；它同时为发布和订阅提供吞吐量；它支持多订阅者，当失败时能自动平衡消费者；它将消息持久化到磁盘，因此可用于批量消费，例如ETL以及实时应用程序。

2020-10-16 18:46:44 413

转载什么是Zookeeper——动物管理员？

What’s is ZooKeeper：一个开源的分布式的，为分布式应用提供协调服务的Apache项目。功能包括：：配置维护，名字服务，分布式同步，组服务等目标：封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper特点：最终一致性：为客户端展示同一视图，这是 ZooKeeper 最重要的性能。可靠性：如果消息被一台服务器接受，那么它将被所有的服务器接受。实时性：ZooKeeper 不能保证两个客户端同时得到刚更新的数据，如果需要最

2020-10-16 18:45:19 1789

转载 MapReduce编程模板及shuffle过程简介

MapReduce运行流程(7步)：作业启动>>>作业初始化>>>任务调度(Yarn)>>>map>>>shuffle>>>reduce>>>作业完成MapReduce将整个并行计算过程抽象到两个函数： Map(映射)：对一些独立元素组成的列表的每一个元素进行指定的操作，可以高度并行。 Reduce(化简)：对一个列表的元素进行合并。一个简单的MapReduce程序只需要指定m

2020-10-16 18:39:12 202

转载什么是Hive——大数据仓库Hive基础

Hive是什么：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能；其本质是将HQL转化成MapReduce程序。构建在Hadoop之上的数据仓库：使用HQL作为查询接口使用HDFS存储使用MapReduce计算灵活性和扩展性比较好：支持UDF，自定义存储格式等：适合离线数据处理 Hive体系结构：Hive的数据存储基于HDFS，其没有专门的数据存储格式，主要的存储结构主要包括：数据库，

2020-10-16 18:17:43 422

转载 shell常用命令

Shell常用命令总结1ls命令：列出文件ll-la列出当前目录下的所有文件和文件夹ll a*列出当前目录下所有以a字母开头的文件ll -l*.txt列出当前目录下所有后缀名为txt的文件ll -rt 按时间倒序列出当前目录下所有的文件2cp命令：复制cpa.txtb.txt:把文件a的内容复制到b文件cpa.txt./test:把文件a复制到text目录下cp-atesttest2：递归的把目录test下所有文件（包括隐藏的文件...

2020-10-09 17:40:53 442

原创 hue中融合的一些技术框架简介

hue的demo点击调整到hue的demo。直接登录查看HDFS文件浏览器HUE可以很方便的浏览HDFS中的目录和文件，并且进行文件和目录的创建、复制、删除、下载以及修改权限等操作。HDFS实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者（owner）和一个组（group）。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。但，用户身份机制对HDFS本身来说只是外部特性。HDFS并不提供创建用户身份、创建组或处理用户凭证等功能。使用HU

2020-10-09 10:39:20 224

原创 hue的简介及基本原理

hue定义：HUE=Hadoop User Experience个人理解：可视图的webui界面，方便大数据技术之间的CRUD操作。官方定义：Hue是一个能够与Apache Hadoop交互的Web应用程序。一个开源的Apache Hadoop UI。特性：一个HDFS的文件浏览器，一个MapReduce/YARN的Job浏览器，一个 HBas的浏览器，Hive，Pig，Cloudera Impala 和 Sqoop2 的查询编辑器。它还附带了一个Oozie的应用程序，用于创建和监控工作流程

2020-10-09 09:57:49 11202

转载 Python 输入多个经纬度坐标，找出中心点

根据工作需要，将多个坐标点的中心点找出，在stackoverflow中发现了一个解决方法，也有人提供了Python版本，但运行之后的结果却是几个带负号的小于1的小数，再观察其他版本的例子时发现需要将经纬度进行转化，将角度化为弧度就需用角度乘以π/180,反之就除以(π/180)，所以在C#版本中就有//角度转弧度var latitude = geoCoordinate.Latitude * Math.PI / 180;var longitude = geoCoordinate.Longitude

2020-08-31 11:37:00 5154 1

原创 python计算两个坐标点之间的距离

背景：有几个门店和大厦，看看这几个门店和大厦旁边有没有快递柜数据：门店和大厦只有地址数据，快递柜系统有地址数据和经纬度数据类似的需求应该比较多，这里的核心点是关于两个坐标点之间距离的计算，之前没用过这个东西，刚好今天有个这样的需求，记录下。import requestsimport psycopg2import pandas as pdfrom math import radians, cos, sin, asin, sqrt #返回地址的坐标def get_address_co

2020-08-26 17:19:17 14565

原创常用的的数据挖掘算法概览

数据挖掘技术的基本任务主要体现在分类与回归、聚类，关联规则发现，时序模式，偏差检测等五个方面。一、主要的分类和回归算法二、主要的聚类算法三、主要的时序算法数据挖掘应用流程...

2020-08-26 10:34:34 316

原创 python批量将word、ppt转化为pdf（极简版）

日将将PPT和word批量转成pdf的需求还是比较普遍的。下列两段代码中，word转pdf的有时候会出现莫名奇妙的报错，跑了两次由于顺利将工作完成了，也没继续研究原因，有需要的使用时得注意下。

2020-08-24 17:42:07 1360 1

原创 explain语句字段解析

explain select * from t_date_inrease id： SELECT识别符。这是SELECT的查询序列号 select_type：指明各“单位select 查询”的查询类型： PRIMARY :子查询中最外层查询 SUBQUERY : 子查询内层第一个SELECT，结果不依赖于外部查询 DEPENDENT SUBQUERY:子查询内层第一个SELECT，依赖于外部查询 UNION :UNION语句中第.

2020-08-24 14:37:01 275

转载 5个好用的Excel技巧，一秒钟完成一个功能

本文说明俗话说：“技多不压身”。我们学会更多的技巧，不管是学习、还是工作，都会起到事半功倍的效果。有时候你可能会说：这个技术目前我用不上。不要紧，你先学着，等以后用得上的时候就会有用，难道你学习的高等代数、线性代数、解析几何，天天在用？本文就是告诉你一些excel处理工作的小技巧，希望对你有用，本文的大纲如下。1.F11快速生成图表如果有这样一批数据，如何使用快捷键，一次性生成一张图表呢？当然一键生成后，我们再对图表进行格式的调节，是不是就方便得多第一步：选中整个数据区域；第二步：按电脑

2020-08-24 09:37:23 167

原创白帽seo的基本优化逻辑

网站seo是比较玄学的东西，因为没人能保证自己做的所谓的优化能得到怎样的一个量化的结果。所以很多时候做优化成了过程导向的东西，而非结果导向。从关键词，到图片，到网站url，到域名，外链，一通操作。目标不是“优化”，而是对所有理论可能的因素做实践。可以说是一种无脑的努力。说没用吧，有点用，说有用吧，可控性同样很低。

2020-08-21 15:28:43 638

转载 Tomcat 与 Nginx，Apache的区别

一、定义：1. ApacheApache HTTP服务器是一个模块化的服务器，可以运行在几乎所有广泛使用的计算机平台上。其属于应用服务器。Apache支持支持模块多，性能稳定，Apache本身是静态解析，适合静态HTML、图片等，但可以通过扩展脚本、模块等支持动态页面等。（Apche可以支持PHPcgiperl,但是要使用Java的话，你需要Tomcat在Apache后台支撑，将Java请求由Apache转发给Tomcat处理。）缺点：配置相对复杂，自身不支持动态页面。2. Tomcat

2020-08-20 16:07:50 149

原创 python根据excel内容批量生成合同模板

from docx import Documentfrom openpyxl import load_workbook# 利用os模块建立文件夹，用于存放生成的合同import os# 给定合同模板和汇总表所在的文件夹路径，方便复用path = r'C:\Users\james\Desktop\合同数据'# 结合路径判断生成文件夹，规避程序报错而终止的风险if not os.path.exists(path + '/' + '全部合同'): os.mkdir(path + ...

2020-08-19 15:52:38 1520 1

原创 docx模块出现Import Error: No module named ‘exceptions‘

通过anaconda安装docx三方库，通过pip 命令直接安装的时候比较顺利，没有任何报错，但是在import的时候却出现了一些问题。Import Error: No module named 'exceptions'后来找资料发现是python3的兼容问题。那找一个能兼容的包安装就可以了！https://www.lfd.uci.edu/~gohlke/pythonlibs/找到python_docx-0.8.6-py2.py3-none-any.whl，点击下载到本地，然后通过pip进

2020-08-19 15:08:22 442

原创不用vba如何利用excel搭建一套运营分析系统

不少公司是没有复杂的报表系统或是BI系统的，很多时候数据是来源于日常的手动收集或是erp系统的导出excel。都需要运营人员或是财务人员做二次加工处理，正常来说绝大部分的这种处理都是机械性重复的，怎样降低这种机械性的数据清洗工作就尤为重要。如果不能从这种繁杂无意义的工作中抽身出来，成长进步都会是空谈。

2020-08-16 12:11:51 527

原创 excel作图如何取最近一段时间的数据

背景：写周报月报的时候会有一种需求，就是在自己excel图表已经做好了，每周可能在你原有的数据源往后加一列或是一行，你希望你的图表就直接引用你最新加上来的这行或是这一列，一直保持最近4周，或是最近6个月的数据源，这样你就不用一直调整图表了，能花更多时间用来分析上。解决这个问题，首先应该了解一个功能和一个函数，名称管理器和offset函数，也了解下图表的结构，就有思路解决了。举例：直接在名称款这里给选中的区域一个名称，中英文都可以，这时候其实就是在名称管理器里面给一个区域创建了名称。

2020-08-16 10:39:53 1487

原创 kettle的环境变量配置及连接8.0mysql报错解决方案

a).打开我的电脑--属性--高级--环境变量b).新建系统变量JAVA_HOME和CLASSPATH变量名：JAVA_HOME变量值：C:\Program Files\Java\jdk1.8.0_211[具体路径以自己本机安装目录为准]

2020-08-13 16:58:31 872

原创 python定时邮件发送_正文添加图片_添加附件_循环发送多人

实现功能：从数据库中获取前一天订单数据，分区域生成汇总文件（.csv）和明细文件（.csv）保存，将文件保存到指定目录下生成汇总文件内容截图，绘制产品分布饼图截图，保存两个截图，将文件保存到指定目录下通过邮件将每日各区域所需的两个文件及两个截图在每日早上8点准时发送及抄送各区域指定人员...

2020-08-12 20:43:56 1047

原创 python实战|利用openpyxl制作订单统计报表

刚开始学习openpyxl，试下利用openpyxl制作平时常用的统计报表，发现功能还是挺实用的，对包不熟悉，代码应该还有很多优化的空间，好几个循环都应该可以优化下，增加可读性~ 最终试验做成的报表如下，比较贴近日常用的报表格式了。代码如下一、连接数据库，导入订单明细数据#①连接数据库并获取维表数据及清洗conn = psycopg2.connect(database="database", user="root", .

2020-08-06 15:30:56 1059

原创多级列索引出现 ‘MultiIndex‘ object has no attribute ‘labels‘

在做一份分析报表的时候，所生产的DataFrame的列是多级索引的列，通过dataframe_to_rows将DataFrame转化为ws对象的时候，发现出现了数据的报错for r in dataframe_to_rows(df, index=False, header=True): ws.append(r)报错内容如下： 'MultiIndex' object has no attribute 'labels'通过源码，发现源码是这么写的，但是自己试了一下，发现我的版本并没与.

2020-08-05 15:26:55 4039

原创 python实战|表格拆分，邮件发送，回收表格合并统计

背景：运维每周会给到一份全国‘失联’快递柜的数据，作为分析人员。需要知道每台柜子的失联原因。需要做的事：将这份快递柜的数据拆分成全国6个大区，对应的6个文件，在每个文件的最后新增一个字段，添加数据有效性，让运维同事选择原因，然后回收6份数据，将数据汇总合并，统计失联原因的分布。第一步：数据拆分，将文件拆解成6份import osimport pandas as pdimport numpy as npfrom openpyxl import Workbookfrom openpyxl

2020-08-03 20:06:48 1308

原创 kettle工具原理

kettle基础介绍kettle，ETL工具的一种，现在kettle改名了，叫Pentaho Data Integration（PDI），但更多时候大家还是习惯用之前的名字kettle。Kettle是一款国外开源的ETL工具，纯java编写（依赖jdk），可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kettle中有两种脚本文件，transformation（.ktr）和job（.kjb）transformation：完成针对数据的基础转换 job：则完成

2020-07-29 16:33:00 4060

原创 python基础笔记（六）_数据清洗及建模

数据特征分析分布分析研究数据的分布特征和分布类型定量数据极差： max - min 通过直方图直接判断分组组数简单查看数据分布，确定分布组数一般8-16即可求出分组区间 pd.cut(x, bins, right) 按照组数对x分组，且返回一个和x同样长度的分组dataframe right:是否包含右边,默认为True 通过groupby查看不同组的数据频率分布求出目标字段下频率分布的其他统计量 → 频数，频率，累计频率

2020-07-20 10:55:11 1044

原创 python基础笔记（五）_Bokeh基础语法

交互式图表：Bokeh绘图空间基本设置创建空间 notebook中创建 from bokeh.plotting import figure,show 导入图表绘制、图标展示模块 from bokeh.io import output_notebook 导入notebook绘图模块 output_notebook() notebook绘图命令非notebook中创建 from bokeh.plotting import show,figure,output_fil

2020-07-17 19:06:39 1057

原创 python基础笔记（四）_seaborn基础语法

图表数据可视化：seaborn整体风格设置对图表整体颜色、比例等进行风格设置，包括颜色色板等 sns.set()；seaborn默认设置风格 sns.set_style()；风格选择包括："white", "dark", "whitegrid", "darkgrid", "ticks" sns.despine() 设置图表坐标轴 top, right, left, bottom：布尔型，为True时不显示默认只显示左边和下边坐标轴 sns.axes_style() 设置局部图表风

2020-07-17 18:11:05 1172

原创 python基础笔记（三）_Matplotlib基础语法

图表绘制工具：Matplotlib概念一个python版的matlab绘图接口以2D为主支持python、numpy、pandas基本数据结构有较丰富的图表库图表窗口plt.show() ：直接生成图表 % matplotlib inline ：魔法函数（常用）==》魔法函数，不需要 plt.show() % matplotlib notebook ：弹出可交互的matplotlib窗口 % matplotlib qt5 ：弹出matplotlib控制台图表基本元.

2020-07-17 17:25:35 1248 1

原创 python基础笔记(二)_pandas的基础语法

数据分析工具包：Pandas基础序列一维数组：Series Series 是带有标签的一维数组，可以保存任何数据类型,轴标签统称为索引 .index查看series索引，类型为rangeindex .values查看series值，类型是ndarray 创建方法由字典创建，字典的key就是index，values就是values 数组创建(一维数组)，默认index是从0开始，步长为1的数字由标量创建，如果data是标量值，则必须提供索引。该值会重复，来匹

2020-07-17 15:38:47 539

原创 python基础笔记(一)_numpy的基础语法

科学计算工具包：Numpy高级数值编程工具强大的N维数组对象：ndarray 对数组结构数据进行运算（不用遍历循环）随机数、线性代数、傅里叶变换等功能基础数据结构数组的属性 ar.ndim：输出数组维度的个数（轴数），或者说‘秩’ ar.shape：输出数组的维度，对于n行m列的数组，shape为（n,m） ar.size：输出数组中元素的个数 type(ar),ar.dtype：输出数组的类型以及其中元素的类型 ar.itemsize：输出数组中每个元素的字节大小，

2020-07-17 14:26:20 427

转载 matplotlib绘图入门详解

matplotlib是受MATLAB的启发构建的。MATLAB是数据绘图领域广泛使用的语言和工具。MATLAB语言是面向过程的。利用函数的调用，MATLAB中可以轻松的利用一行命令来绘制直线，然后再用一系列的函数调整结果。matplotlib有一套完全仿照MATLAB的函数形式的绘图接口，在matplotlib.pyplot模块中。这套函数接口方便MATLAB用户过度到matplotlib包文章目录一、import matplotlib.pyplot as plt 二、配置参数三、线条

2020-07-07 16:20:54 294

原创 MYSQL 5.7报错 Error Code: 1290. The MySQL server is running with the --secure-file-priv option so it..

用MySQL 5.7导出数据的时候出现报错，报错内容：Error Code: 1290. The MySQL server is running with the --secure-file-priv option so it cannot execute this statement根据错误找了相关资料，发现是secure-file-priv会指定文件夹作为导出文件存放的地方，那我们可以先找出这...

2020-07-07 09:32:59 3516

原创 Mysql零碎知识点记录

char(100) 型，在字段建立时，空间就固定了，不管是否插入值（NULL也包含在内），都是占用 100个字符的空间的。varchar这样的变长字段， null 不占用空间。尽可能的使用 varchar/nvarchar 代替 char/nchar ，因为首先变长字段存储空间小，可以节省存储空间，其次对于查询来说，在一个相对较小的字段内搜索效率显然要高些。...

2020-06-29 11:20:37 228

原创 MySQL中的.ibd、.frm、.MYD、.MYI文件及恢复

mysql的data文件夹下能看到很多格式的文件，并非每个文件都代表了数据库的数据。有一些是代表了数据库的表结构等信息。类型如果是通过MyIsAM建立的表，则一张表的数据文件有3个，分别是xxx.frm 表结构文件xxx.MYD 数据文件xxx.MYI 索引文件如果是通过InnoDB（默认），则一张表有 2 个数据文件，分别是xxx.frm 表结构文件xxx.ibd 数据和索引文件/*InnoDB引擎开启了独立表空间(my.ini中配置innodb_file_pe..

2020-06-29 10:17:43 2214

原创 Mysql查询优化（二）：数据库及表查询配置优化

除了SQL语句的优化，从开发和运维层面来讲，硬件配置、MySQL配置、数据表设计、索引优化才是数据查询优化的重要手段。业务查询通常会要求将查询时间控制到0.5s之内，但是实际作为分析师来讲，“慢查询”是常态，但是也得尽量了解数据库优化原理，降低查询速度，也能提升产出效率。

2020-06-28 21:57:10 237

原创表的truncate，drop和delte区别

日志记录delete：删n行，并将删除操作作为事务记录在日志，以便回滚。truncate：删除所有数据，并不将删除操作记录在日志。速度快

2020-06-28 21:48:34 319

原创 Mysql查询优化（一）：SQL语句优化

查询速度的优化有大致有三个考虑方向，一是硬件层面的优化，二是数据库“配置”优化，三是SQL语句优化。大部分搞数据分析的其实只有查询访问的权限，甚至建临时表的权限都没有，那这时候就专注在SQL本身的优化就行了。慎用否定查询常用的否定查询：!=，<>，not in...

2020-06-27 22:39:20 140

转载 SaaS Metrics 2.0 – A Guide to Measuring and Improving what Matters

原文地址：https://www.forentrepreneurs.com/saas-metrics-2/“If you cannot measure it, you cannot improve it” – Lord KelvinThis article is a comprehensive and detailed look at the key metrics that are needed to understand and optimize a SaaS business. It is a

2020-06-24 10:32:58 1699

空空如也

空空如也