数据小鱼Rexa-CSDN博客

原创数据分析师必备技能（一）：SQL

在实际的数据分析场景，数据分析师的首要任务除了理解任务和获取指标，最重要的就是取数了。取数分为大致三种，一是从日常的文档中取数，二是数据库取数，三是在线导入数据。其中数据库取数在企业中最常见，因此SQL是数据分析师必备技能。如图所示，列举sql大部分都的关键词，这些对于数据分析师是必须掌握的，至于其他的比如sql存储、sql删除等操作大公司会有dba去操作或者etl工程师操作。所以数据分析师只要对于“取”精通就好，就能够应付大部分的场景了。...

2021-07-27 22:22:17 796

原创 Keras回归与分类

Keras 回归与分类思维导图使用Dense层进行操作二分类、多分类和回归预测。

2021-04-08 19:57:53 241

原创 Problem: MLPClassifier:ConvergenceWarning: Stochastic Optimizer: Maximum iterations (200) reached

MLPClassifier:ConvergenceWarning: Stochastic Optimizer: Maximum iterations (200) reached**Background:**Accourding to the description of this problem, it means that this model can not be the best state for trainning data.Solution: When you see warning, as

2021-03-05 20:13:55 1251 1

原创 Problem: how does install the “Xgboost“ in Mac OS ?

How to install XGBoost in Mac OS?You should check where the homebrew is. If you have installed this application, you could skip this step or update your homebrew. If not, you should download this application by offical website or other resources. There

2021-03-04 21:03:09 127 1

原创 Problem: OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized

OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initializedBackground: This problem has appeared many times when i run the example code of Keras in Jupyter notebook, which could lead the kernel died.Solutuons: There are thre

2021-03-03 20:49:04 114

原创 2-25 技术总结

成功解决：DataConversionWarning: A column-vector y was passed when a 1d array was expected.问题遇到此警告一般检查y_train的格式，如果是array则使用“.ravel()”解决，如果使用Dataframe或者Series格式，则使用“.values.ravel()”解决。向量拆分问题：reshape（a,b）函数其中a参数代表需要拆成多少段，b参数代表每段需要多少字符或者元素。将单维数组拆分成二维与三维。..

2021-02-25 19:05:21 86

原创读书笔记：数据分析思维（3）

数据分析思维5W2H分析法：基础的产品经理思维法what：产品是什么？when：产品是么时候上线？where：产品在哪里上线？why：用户为什么需要它？who：它是为谁设计的？how：产品怎么运作的？how much：它有什么付费功能？如何变现？当看到一个产品可以利用5W2H来具体分析，然后制作产品周期计划。...

2021-02-02 19:11:08 185

原创读书笔记：数据分析思维（2）

选择指标的两大准则对于非百分比数据，将其转化为百分比数据，单个数据占总数据的比重，更能反应数据的变化与信息根据业务重点寻找，北极星指标（即当前业务的核心指标，核心指标通过业务分析可以得出）构建指标体系构建体系大致分为4步：明确具体部门或者业务的KPI，寻找一级指标（一级指标可以多个）了解最基本的业务情况，寻找二级指标（建立二级指标与一级指标的联系）梳理业务流程，精细化业务规范，寻找三级指标（建立三级指标和二级指标的关系）通过报表监控指标，并不断迭代更新指标体系...

2021-01-30 19:42:28 166

原创读书笔记：数据分析思维（1）

1.用户数据指标大体可以分为：日新增用户，活跃率和留存率日新增用户：即某一产品单人增加的用户数量活跃率：可以分为日活跃，周活跃和月活跃。其中活跃率=活跃用户/总用户，日周月对应时间节点留存率：新用户在之后使用的数量占新用户的比重。可分为1日l留存率，3日留存率，7日留存率和30日留存率。2.行为数据指标：PV、UV、转化率、转发率和K因子PV：访问次数，一个网页一天内被访问的次数UV：访问人数，一个网页一天内被访问的人数，一个用户可以一天多次访问同一网站，PV会增加但，UV只会加1转发...

2021-01-29 18:58:24 331 1

原创 01-25 工作&技能总结

基础能力目前文本编辑能力精进很多：虽然之前英文论文写作和中文论文写作有不同，但是我还是尽自己最大的努力适应中文写作。沟通能力有待加强：在英国的时候，沟通的目的是解决问题（没有过多考虑他人感受哈），如今深入职场，过直的言语会导致，某些人的反感（也是正常，毕竟人情社会）。面对专业知识和自己不在一个水平线的人，要求自己尽量不反驳他，大家开开心心最好了，不要浪费时间在不必要的人身上，有心就帮助他补充知识，嫌麻烦也属实正常。告诫自己说话先过脑，在中国，人比事重要！英语能力：退化严重，最近仍在听bbc6分钟和t

2021-01-25 20:19:42 231 2

原创 2021-1-13 技术总结

关于sklearn包中GridSearchCV的使用方法具体参数参考：https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html?highlight=gridsearchcv#sklearn.model_selection.GridSearchCV调度GridSearchCV的方法可以使用from sklearn.model_selection import GridSear

2021-01-13 20:36:56 188

原创 01-05 工作&技能总结

基础能力会议记录能力有待加强;以前作为当局者关注自己所做的那部分（很基础但是也很重要），现在工作要求你还要关心其他的项目（我不参与的），以学生的心态做好自己负责的那部分就够了，完美主义最好，现在可能人手不够吧，公司要全能，只能努力提升自己啦。沟通能力有待加强：和自己知识在同一水平线上的同学沟通无障碍，都能理解对方所说的点和痛处,但是最主要的能力是和不知道这个项目或者没有这方面知识的人沟通顺畅才可以，如果这方面能力提升，相信我是一个好的产品经理或者项目经理了哈哈。专业能力基础工具使用顺畅，pyt

2021-01-05 19:11:28 158 1

原创 CDA level1 Part1 易错易混概念总结

数据分析的层次：常规报表、即席查询、多维分析、警报、统计分析、预报、预测性建模、优化。crisp-dm方法论：业务理解、数据理解、建模、模型评估、模型发布。semma方法论：探索-修改-建模-评估-抽样-探索形成闭环。分类变量检查其众数、分类取值的百分比间的差别。连续变量检查其中心水平、离散程度、偏度、峰度4个方面。正态分布中，均值=中位数=众数。正态分布中，变量取值距离均值2倍标准差内出现的概率师95%，即该变量出现大于或者小于2倍标准差的概率约为2.5%。从一个均值和方差的一定的总体.

2020-12-26 21:03:48 376 1

原创 CDA level 1 Part2概念及实操

SQL 基础复习（数据分析师–>注重查询）基础从某些表中查询字段 select name, id from xxxxxwhere 是限定条件，比如限定name为tom的行 `select name from xxxx where name='tom'`like 是详细限定，比如查询限定name中有t开头的行，%是可以指带很多字符select name from xxxx where name ='t%'...

2020-12-25 14:38:32 276

原创 CDA level1 Part4概念总结

主成分分析保留前k个主成分累计能够解释80%以上的变异，且最后一个主成分对应的λ不应小于1.因子分析是常用的连续变量降维并进行维度分析的方法，才用主成分分析法作为因子载荷矩阵的估计方法，在特征向量的方向上，使用特征值的平方根进行加权，最后通过因子旋转，使变量的权重在不同的因子上更加两极分化。...

2020-12-25 14:37:59 279

原创 CDA1级习题复习（3）

非概率抽样缺点：样本统计量的分布不是确定的，无法用样本的结果对总体的相应参数作出推断。非概率抽样的优点：适合探索性研究。概率抽样的优缺点：缺点是调查成本高，优点是样本统计量的分布是确定的。根据简单随机抽样的样本公式，样本误差降低50%，那么样本量扩大到4倍。（反比，平方）根据客户的需求，找准需求中的限定点，然后比对选项中的限定词，选出合理的抽样方法。...

2020-12-20 20:57:58 452 1

原创 CDA level 1 Part3 概念总结

一手数据的优点：相关性强，准确度高，理解准确。二手数据的优点：成本低，时间短，清洗工作少。

2020-12-14 17:07:41 280

原创 2020-12-10 技术总结

关于python的读取文件如果我们想让python读取一个文件夹中的所有文件，我们可以用OS包中的listdir函数dirname=os.listdir("文件夹名")出来的结果以list形式输出，所以我们读入的时候可以直接for循环读取关于r的问题，r其实是防止文件名有/t 等特殊字符，在读取的时候会被转译。也就是加r可以最大限度的保证读取的是目标文件data=pd.read_csv(r'文件名地址等等')在读取文件的时候，engine参数需要设成“python”，因为默认是c，

2020-12-10 17:44:44 118

原创数据分析：数据预处理之Pearson相关系数

Pearson相关系数corr()函数是python中pandas包的集成函数，返回的是相关系数矩阵我们假设data是DataFrame格式data.corr() 返回的就是每一个属性对另一个属性的相关系数data.corr()["房价"]即显示房价和其他因素的相关系数data["工资"].corr()["房价"]即显示工资和房价的相关系数。...

2020-12-08 08:45:47 1030

原创 Pandas预处理数据总结

将用户所自己填写或者爬虫爬下来的日期数据转化为DataFrame中的日期格式data1["日期"]=pd.to_datetime(data1["日期"])将日期属性变为主要排序索引，然后可以利用loc进行以日期为单位的数据查询data1.set_index(pd.to_datetime(data1["日期"]),inplace= True)iloc是按照真正的行数来取数据，并不管当时数据的index到底是多少a=data.iloc[1:,:]获取2018年中每月月初数据.

2020-12-07 17:48:00 499

原创数据分析：数据预处理之随机森林特征筛选

随机森林特征筛选关于的特征的筛选，可以利用皮尔逊系数，如果是分类的变量的话可以用卡方检验，这些都是再用具体算法跑之前所做的数据处理。我们还可以用一个算法先跑，然后看数据属性的特征，也就是选择主要的属性。from sklearn.model_selection import cross_val_score, ShuffleSplitfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.pipeline import Pipelin

2020-12-07 17:20:37 3605

原创 2020-12-03技术总结

3号：关于pandas在python中运用当出现错误“Missing optional dependency ‘xlrd’. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.”这个时候是因为我们缺少一个包，xlrd，安装后python的pandas就可以读出excel文件了。...

2020-12-04 09:10:37 66

原创 2020-12-02 技术总结

2号：关于自己过于执着于表的处理的反思这几天对于表的处理过于执着，导致了很多代码重复且枯燥，遇到不会的复杂表，更是捉襟见肘，所以应当平稳下心，专注于代码和表的本身，跳出单表处理的思维，上升到高度然后总体分类表的类别，然年后按类处理。对于单表处理，尽量先去重data.drop_duplicates()然后将日期转化为datetime 格式pd.to_datetime(data["日期"])...

2020-12-03 08:52:50 66

原创数据分析：数据预处理之灰度关联分析

灰度相关这个算法其实就是检测其他属性对于主要测的属性的相关性分析，其中最后值在[0,1]之间。首先需要进行获取数据，利用pandas就可以读取csv或者excel，甚至用数据库导入就可以获取数据其次进行无量纲化，即标准化，可以用均值法，Z-score，max-min等等方法进行标准化然后选取主测列和其他列，分析主测列与其他列关系依据算法带入公式根据算法的结果形成一个数列Series，然后查看一一对应，选取较大关系的属性，可以以0.8或者0.7为阈值，这个阈值视情况而定，不同项目需求不相同阈值

2020-11-30 16:33:15 2494

原创 2020-11-30技术总结

30号: 关于以日期截取数据然后在连接源数据找寻结果Groupby如果以单一元素为排列，会直接生成Series，不好操作，所以要直接转化为DataFramedata_min_2018=data_2018.groupby(data_2018.index.month)["日期"].min()data_min_2018=pd.DataFrame(data_min_2018)data_min_2018.reset_index(drop=True)通过merge来连接，其中left_on 指左表的连

2020-11-30 16:24:44 67

原创 2020-11-27技术总结

27号:关于Pandas在Python中的运用矩阵转置可以用XXXXX.T来完成转置操作x=x.iloc[:,1:].Tpandas切片，可以用正常的list切片操作，也可以用[：，：]，前者操作行，后者操作列，即可操作多维度的表ck=x.iloc[1,:]cp=x.iloc[0:1,:]cp=cp.append(x.iloc[2:,:])若有2个Series要合并，可以用DataFrame强制转换2个Series，然后用merge函数进行表合并，其中参数设置left_index

2020-11-27 17:25:34 196

原创 2020-11-26 技术总结

26号：关于Pandas在Python中的应用List item

2020-11-26 21:34:41 111

原创 2020-11-25 技术总结

25号：关于Pandas在python中的应用技术总结将用户所自己填写或者爬虫爬下来的日期数据转化为DataFrame中的日期格式。`data1["日期"]=pd.to_datetime(data1["日期"])将日期属性进行排序data1.sort_values(by="日期",inplace= True)将日期属性变为主要排序索引，然后可以利用loc进行以日期为单位的数据查询data1.set_index(pd.to_datetime(data1["日期"]),inplace

2020-11-26 09:02:54 95

原创 CDA1级习题复习（2）

SQL中，inner join连接，结果是2张表的共同信息。SQL中，full join连接，结果是2张表的全部信息。row number() over(partition by) 是oracle数据库的高级函数。主成分分析算法认为，数据的信息包含在方差之中。相关系数矩阵是随机变量标准化的协方差矩阵，它仅保留了指标间的相关性。协方差矩阵适合研究单个指标的方法对于结果的影响。在因子分析中，我们可以使用因子旋转来使得最终得到的因子具有解释性。对应分析中，由于进行降维展示，因此原来的信息会受到一定的.

2020-11-04 09:24:13 467

原创 CDA1级习题复习（1）

数据分析：包括业务理解，数据采集，数据清洗，数据探索，数据可视化，数据建模，模型可视化，分析结果。数据挖掘：是在大型数据集中运用人工智能，机器学习，统计学发现模式的过程。数据分析八个层次：常规报表，即席查询，多维分析，警报，统计分析，预报，预测性建模和优化。CRISP-DM方法论：业务理解，数据理解，数据准备，建模，模型评估和模型发布。...

2020-10-29 19:06:13 3505

原创 Text analytics(1): Text Preprocessing

Pipeline Model of Text InterpretationThe steps of text preprocessing1.Language identification2.Tokenization3.Morphological analysis (simplest form: stemming)4.Sentence splitting5.Part of speech...

2020-01-23 00:20:40 317

原创 OpenFlow Flowtable

Flow tableMatch Fields：匹配域，可能包含ingress port、数据包头信息以及前继Flow Table传过来的Metadata值域等Priority：匹配优先级Counters：计数器，统计与该Flow Entry成功匹配的包数量Instructions：指令集，应用到与该Flow Entry成功匹配的数据包Timeouts：在该Flow Entry过期前的最...

2020-01-15 00:19:43 986

原创 OpenFlow Switch

The picture of OpenFlow Switchopenflow 架构分为2层，一个是控制器层，一个是switch 层。中间是由openflow protocal进行连接的，负责传输指令与数据。switch分为3大块，第一是openflow channe，他是负责向控制器传输数据集和指令。第二是group table，第三是pipeline，其中pipeline是flowtabl...

2020-01-14 03:54:25 461

原创 Machine learning(9): Quiz 9

Correct answer : bAnalysis:Analysis:Correct answer: DAnalysis:Analysis:

2019-12-10 04:27:14 117

原创 Machine learning(9): Regularisation

Feature selectionRegularisation: general ideaStructural risk minimizationSVMs and structural risk minimisationL2 and L1 penalizationThe pictures of L1 and L2 penalizationBias and var...

2019-12-10 04:16:57 178

原创 Machine learning(9): Bias-variance tradeoﬀ

Consequences of noiseAlleviate eﬀect of noiseThe example of linear regressionThe summary of these picturesThe trend of Bias and variance in model complexityThe trend of Bias and varian...

2019-12-10 03:45:50 152

原创 NLP(7): Earley Parsing

Earley ParsingPrevirous attributesThe processing of EarleyThe code of Earley

2019-12-05 01:11:50 248

原创 NLP(7): Word Sense Disambiguation and CKY

WordNetSynsetsThe difference of Top-Down and Bottom-UpCKY ParsingThe method of CKYThe processing of CKYThe idea of CKY in code

2019-12-05 01:03:41 233

原创 Machine learning(8): Quiz8

Correct answer: a2Analysis:Correct answer: bAnalysis:Analysis:Correct answer:bAnalysis:Analysis:Correct answer:bAnalysis:

2019-12-04 03:53:07 164

原创 Machine Learning(8): Reinforcement learning algorithm

Model-based learningValue iterations exampleThe difference of two methodsDeterministic Model-Free learningSome examples

2019-12-04 03:37:36 187

空空如也

空空如也