lili_wuwu-CSDN博客

原创 python 实现类似excel的vlookup功能

使用map在python中实现类似excel的vlookup功能

2022-11-02 11:12:14 705

原创 python merge on 左连接问题

实现两个df 左连接，之前用 df3=pd.merge(df1,df2,on='id',how='left') 得到的结果是innerjoin的结果，正确写法df3=df1.merge(df2,on='id',how='left')

2022-07-14 15:38:13 1788 1

原创 python中iloc、loc的使用

python中iloc、loc的使用

2022-06-30 15:16:43 1482

原创 Anaconda安装后Jupyter launch 没反应&网页打开运行没执行

Anaconda安装后Jupyter launch 没反应&网页打开运行没执行

2022-06-28 17:52:38 7544 2

参考：https://bbs.huaweicloud.com/blogs/167519ortools是google的开源求解器，支持线性规划、整数规划，可以方便的求解Routing、Bin packing（装箱问题）、Network flows、Assignment、Scheduling等问题。OR-Tools中内置了一些第三方的开源求解器(SCIP, GLPK) 及商用求解器( Gurobi , CPLEX)‘’‘1.Bin packing：装箱问题中，不同体积的物品必须被打包到有限数量的箱子（bi

2022-06-13 13:15:07 2246 1

原创 Mac系统下安装MySQL和Navicat

mac系统安装mysql和navicat

2022-05-27 18:44:28 4164

原创 MAC系统 Anaconda下配置pycharm 虚拟环境

pycharm

2022-05-20 12:07:15 3169 1

原创 gitlab客户端安装及使用

gitlab客户端下载链接：https://pan.baidu.com/s/1_wdU7XTRNZEaA29vuGBpqg提取码：xxnd1. 配置免密登录，生成公钥秘钥①双击git-bash.exe，在弹出的对话框中输入ssh-keygen -t rsa -C “[email protected]” 命令。 #“用户名@邮箱”②连续3次回车③复制本地pub到账户客户端2. 配置全局账户信息①git config --global user.n...

2022-05-09 15:18:08 3108 1

原创多个版本的Python，安装对应的包

当本地有多个版本的Python时，如何将包安装到对应的版本呢？这里提供两种方式（推荐第一种方法）一、在PyCharm下安装对应的包1.在PyCharm中配置对应版本的Python环境2.选择左下角Terminal ，输入：pip install -i 路径\第三方包名，即可完成安装，例如...\PycharmProjects\pythonProject> pip install -i pandas==1.1.0如果没有反应，添加下路径，输入：pip install -i https:/

2021-12-03 14:45:17 1075

转载笔记-数据中台

数据中台学习笔记数据中台简单来讲就是提取各个业务的数据，统一标准和口径，通过数据计算和加工为用户提供数据服务。对于一家企业来说，想要构建一个数据中台，需包含：数据模型存储、数据资产管理、对外提供数据服务、数据更深层次的分析挖掘等各方面过程。这便是广泛意义上的数据中台，其核心就是构建一个共享数据服务体系。1.数据中台和数仓的区别2.数据中台的架构新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

2021-11-24 13:52:35 123

转载 Python 多线程 start()和run()方法的区别（转）

转自：https://www.cnblogs.com/i-honey/p/8043648.html在实例调用的函数中加入打印当前线程的名字，分别用start()方法和run()方法启动线程检查有什么区别：start()方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

2021-04-12 12:00:37 328

原创 windows Python3 安装&环境变量配置

Python安装1、安装Python1）官网下载Python安装包：https://www.python.org/downloads/2）通过Anaconda安装Python，详见：https://blog.csdn.net/lili_wuwu/article/details/826321622、配置环境变量我的电脑右键属性—高级系统设置—高级—环境变量，系统path下：1）添加Python环境变量添加Python的安装路径：eg：C:\AppData\Local...

2020-10-20 09:14:56 2324

原创 Python——随机森林原理

随机森林（Random Forest）算法原理1.随机森林原理、决策树、集成学习决策树决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。用树的结构构件分类模型，每个非叶子结点表示一个特征属性上的测试，每个叶子结点表征着一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择直到到达叶子节点，将叶子节点存放的类别作为决策结果。...

2019-06-15 21:52:28 1018

原创 Python入门笔记-4 Python运算符

Python运算符1.Python算数运算符a=10 b=30运算符描述实例+加：两个对象相加a+b 输出结果 40-减：负数或两个数相减a-b 输出结果 -20*乘：两个数相乘或者是返回一个被重复若干次的字符串a*b 输出结果 300/除：两个数相除b/a 输出结果 3%模除：返回除法的余数b%a 输出结果 0**幂...

2019-06-13 23:32:56 264

原创 python——k-means聚类算法

k-means聚类算法k-means算法属于无监督学习的一种聚类算法，其目的为：在不知数据所属类别及类别数量的前提下，依据数据自身所暗含的特点对数据进行聚类。对于聚类过程中类别数量k的选取，需要一定的先验知识，也可根据“类内间距小，类间间距大“（一种聚类算法的理想情况）为目标进行实现。需要用到sklearn库，scikit-learn是Python的一个开源机器学习模块，它建立在NumPy，S...

2019-06-10 23:34:15 4005 2

原创 Python入门笔记-3 Python常用内置函数

查看对象的类型：type()查看对象的内存：id()字符和其对应编码的转换：ord()和chr()查看长度：len()最值：max(list)/min(list)绝对值：abs()求和（list元素的和）：sum(list)排序：sorted(list)获取指定位数的小数，round(a,b)生成一个a到b的数组,左闭右开：range(a[,b])我使用的版...

2019-06-10 19:39:20 124

原创 Python入门笔记-2数据类型

数据类型Number字符串列表元组字典1.标准数据类型：Number用于存储数值python支持四种不同的数值类型1). 整型(int)：通常被称为是整型或整数，是正或负整数，不带小数点。幂运算：pow() 和 **类型转换：1>.转为二进制：bin()2>.转为八进制：oct()3>. 转为十六进制：hex()其他进制或仅包含数字的字符串转...

2019-06-08 00:04:07 206

原创 Python入门笔记-1语法规则

语法规则1.python标识符python标识符由：字母、数字、下划线组成单下划线开头：不能直接访问的类属性，_foo双下划线开头：私有属性, __foo双下划线开头和结尾：代表特殊方法，如_int_() 类的构造函数标识符区分大小写2.行和缩进语句之间断行代码块之间使用缩进表示代码层次关系一行写多条语句时使用；分开3.Python引号多行注释使用三引号可以使...

2019-06-07 23:23:39 141

原创如何评估模型好坏

模型的好坏评估，对于不同的模型，不同的用途，有不同的模型评价标准。回归：MSE（均方误差）—— 判定方法：值越小越好。真实值-预测值然后平方之后求和平均 RMSE（均根方误差）——判定方法：值越小越好。MSE开根号 R squared/拟合优度 —— 判定方法：值越接近1模型表现越好分类：这部分之前的博客写过ROC ——判定方法：ROC曲线应尽量偏离参考线（ROC曲线离...

2019-06-05 20:47:47 7484

原创 hive排序

order by全局排序在严格模式下必须使用limit限定条件，因为如果数据量特别大的话会出现无法输出结果的情况，如果进行limit n限定，那么只有 (n * map number)条记录进行处理。与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错。select * fromtab_sc...

2019-06-05 20:10:09 180

原创 linux查看文件中的某几行

显示一个文件的某几行(中间几行)用head&tail命令从第300行开始，显示100行（即显示300~399行）cat filename | tail -n +300| head -n 100 显示100行到300行 cat filename| head -n ...

2019-06-05 19:42:58 10156

原创 linux统计关键字

查找关键字grep 单个字符串：grep -o Str_1file_name| wc -l 多个字符串：grep -o 'Str_1\|Str_2\|Str_3……' file_name | wc -l 注：必须加引号（单双都可）awk awk -v RS="@#$j" '{pri...

2019-06-05 19:35:28 2734

原创 Hive存储格式

Hive的四种存储格式；TextFile、SequenceFile、RCFile、Parquet基于行存储:TextFile和SequenceFile 基于列存储：Parquet 基于行列混合的思想：RCFile——先按行把数据划分成N个row group，在row group中对每个列分别进行存储列式存储和行式存储的比较优点缺点行式存储...

2019-06-05 11:08:51 1904

转载 hive优化

转载自：https://www.cnblogs.com/sandbank/p/6408762.htmlhive之于数据民工，就如同锄头之于农民伯伯。hive用的好，才能从地里（数据库）里挖出更多的数据来。用过hive的朋友，我想或多或少都有类似的经历：一天下来，没跑几次hive，就到下班时间了。hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark...

2019-05-27 16:12:18 196

原创二分类问题评价指标

二分类问题评价指标评价指标准确率精确率召回率F1值ROCAUC评价指标二分类问题评价指标的相关整理，持续更新。评价指标是针对同样的数据，输入不同的算法，或者输入相同的算法但参数不同而给出这个算法或者参数好坏的定量指标。二类分类问题常用的评价指标是精准度（precision）、召回率（recall）、F1值通常以关注的类为正类，其他类为负类，混淆矩阵表示如下：TP—将正类预测为正类数...

2019-05-05 17:14:20 12711 2

原创 shell 时间

#-- *********************************************#-- 内容：#-- 开发人员：#-- 开发日期：#-- 版本：V#-- 修改时间：#-- 修改人：#-- **********************************************#!/bin/bashsource /etc/profilelog=/LOG/...

2018-11-19 14:12:40 915

原创机器学习算法整理

2018-10-09 17:35:22 155

原创 hive多脚本统一调度

这个方法适用于存在多个hql脚本，想要统一调度，或者多个hql存在依赖关系的场景逻辑简述：四类文件 1、pkg.sh文件（1个pkg.sh文件），用来调度rpt.sh文件，在linux crontab -e 调度中添加这个文件，用于调度可同时调度多个rpt.sh文件 2、rpt.sh文件（n个rpt.sh文件），用来调度.q文件，并在.q文件执行成功后，自动生成执行log文件...

2018-10-08 16:22:45 2365

转载 spark与storm的对比

转载自https://www.cnblogs.com/yaohaitao/p/5703288.htmlspark与storm的对比对比点 Storm Spark Streaming 实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个...

2018-09-18 11:46:42 184

转载 SPARK RDD

转载自：https://www.cnblogs.com/jechedo/p/5732951.html官方介绍　　弹性分布式数据集。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。问题只要你敢问度娘RDD是什么，包你看到一大片一模一样的答案，都是说这样的概念性的东西，没有任何的价值。我只想...

2018-09-18 11:12:22 135

原创 Python——ARIMA

from statsmodels.tsa.stattools import adfullerfrom statsmodels.tsa.seasonal import seasonal_decomposefrom statsmodels.tsa.stattools import acf,pacffrom statsmodels.tsa.arima_model import ARIMA...

2018-09-12 13:43:13 5027 1

原创 ES推数

1.创建你想要的索引：curl -XPUT http://host:9200/dy_business_map2.创建mapping3.删除索引 curl -XDELETE http://host:9200/business_chancecurl -XPUT 'http://host9200/库名/table_es/_mapping?pretty' -d '{"table_es": {...

2018-09-12 13:42:10 437

原创遇到的一些hive字符串处理汇总

持续更新。。。--取第一个顿号前面的所有字符 split(new_occupy,'、')[0] as new_occupy --替换regexp_replace(occupy,',','、') --hive不识别英文分号，输入报错问题用\073select cons_name,split(cons_name,'\073')[0] from WLH_TABLE_M1...

2018-09-12 13:42:01 1314

原创 Python——Xgboost

xgboost中比较重要的参数objective [ default=reg:linear ] 定义学习任务及相应的学习目标，可选的目标函数如下：“reg:linear” –线性回归。 “reg:logistic” –逻辑回归。 “binary:logistic” –二分类的逻辑回归问题，输出为概率。 “binary:logitraw” –二分类的逻辑回归问题，输出的结果为wTx。...

2018-09-11 20:38:49 409

原创 python-绘图，loc函数，enumerate() 函数

1.数据处理：导入需要用的包和数据取文件中需要用到的几列列重命名将日期字段转为datetime，筛选时间范围做sum2.loc函数根据列中的元素，选取对应元素的数据集根据元素的选取条件来选取对应的数据集根据元素的选取条件来来选取对应的数据集，并在符合条件的数据行添加flage标签import osimport sysimport pandas as ...

2018-09-11 20:34:22 1268

原创 SCP

scp用于在两台电脑之间进行数据的传输： scp [-r] username@host:发送路径接收路径需要输入密码 [-r]：如果传输的是文件夹需要加 -r username@host：远程电脑的用户名@IP 发送路径：远程电脑上要传输的文件（夹）路径接收路径：本机接收路径例：将110主机上的文件夹 table_t3 传到本机的/data/log_d...

2018-09-11 20:31:37 683

原创 HIVE like和rlike

like与rlike的区别：like不是正则，是通配符。这个通配符可以看一下SQL的标准，例如%代表任意多个字符。rlike是正则，正则的写法与java一样。'\'需要使用'\\',例如'\w'需要使用'\\w' --NAME中包含数字的select name from wlh_dm_sz_3 where rlike (name,'[0-9]') limit 100sele...

2018-09-11 20:31:07 7213

原创 python学习笔记

杂乱无章的学习记录,持续更新1、map() 、str转元组data1=map(lambda d:tuple(d.replace('\n','').split(',')),data)map()是 Python 内置的高阶函数，它接收一个函数 f 和一个 list，并通过把函数 f 依次作用在 list 的每个元素上，得到一个新的 list 并返回例如，对于list [1, 2, 3,...

2018-09-11 20:30:13 267

空空如也

空空如也