求知者_123-CSDN博客

原创 pyecharts之数据可视化

import pyecharts# print(pyecharts.__version__) 查看版本from pyecharts.charts import Barbar = Bar()bar.add_xaxis(["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"])bar.add_yaxis("商家A", [5, 20, 36, 10, 75, 90])# render 会生成本地 HTML 文件，默认会在当前目录生成 render.html 文件# 也可以传.

2021-08-15 21:12:45 461

原创 Pandas DataFrame重置索引

Pandas DataFrame重置索引import pandas as pdimport numpy as npa=pd.DataFrame(np.random.randint(1,10,20).reshape(4,5))print(a)0 1 2 3 40 1 3 2 7 61 8 2 2 7 22 2 6 6 2 53 4 1 6 8 9b=a.sort_values(by=4)print(b) 0 1 2 3 41

2021-08-03 16:54:16 349

转载 Python re正则表达式模块及其用法

实际上，掌握 Python 的正则表达式并不难，无非就是几个简单的函数。在 Python 的交互式解释器中先导入 re 模块，然后输入 re.all 命令，即可看到该模块所包含的全部属性和函数：>>> re.__all__['match', 'fullmatch', 'search', 'sub', 'subn', 'split', 'findall', 'finditer'...

2019-12-10 21:50:04 599

原创 pandas基本操作 python 排序

https://blog.csdn.net/chichoxian/article/details/53160301print(data)print(data[0]) ### 这种方法只能取一列数据print(data[[0,1]]) ###这样可以取多列数据print(data[0:3]) ### 取3行数据 0 1 2 3a ...

2019-12-09 14:49:40 291

原创 pandas之groupby

import pandas as pdpath = 'https://raw.githubusercontent.com/HoijanLai/dataset/master/PoliceKillingsUS.csv'data = pd.read_csv(path,index_col=None)data.head()`` name date race ...

2019-11-20 17:58:48 336

原创 pandas之删除函数drop()

import pandas as pdimport numpy as npdf=pd.DataFrame(np.arange(12).reshape(3,4),index=list('EFJ'),columns=list('ABCD'))`#### 删除列（方法一）df.drop(columns=list('AB'))`` C DE 2 3 F 6 7 J 10 11 ### ...

2019-11-19 17:51:37 478

原创 pandas之read_csv

import pandas as pd### 默认 header=0,第一行作为表头table=pd.read_csv('D:/test.csv',encoding="gbk")table.head() 序号部门职务姓名工作日期基本工资奖金住房基金保险费实发工资0 1 办公室主任陈鹏 2002/9/1 7000.0 3700.0 130.0 100.0 10470....

2019-11-19 11:30:50 250

转载 SQL中NVL函数使用

SQL中NVL函数使用空值判断函数1、NVL（表达式A，表达式B）如果表达式A为空值，NVL返回值为表达式B的值，否则返回表达式A的值。该函数的目的是把一个空值（null）转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式A和表达式B的数据类型必须为同一个类型。例：nvl(clue_num,0)：如果clue_num为空，则返回0；否则返回clue_num的值2、...

2019-10-21 23:34:41 895

原创 lambda匿名函数

1、匿名函数：没有函数名字，用lambda声明2、匿名函数的格式：lambda arg1,arg2,…argn:expression　冒号是分隔符，冒号前是函数的参数，冒号后是一个表达式3、匿名函数不需要用return，后面的表达式就是返回值4、调用方法：将匿名函数赋值给一个变量，然后这个变量就可以像一个正常的函数一样使用###常规自定义函数def mul(x,y):...

2019-01-06 23:11:00 1921

转载朴素贝叶斯理论推导与三种常见模型

转载地址：https://blog.csdn.net/u012162613/article/details/48323777

2018-12-31 23:28:28 272

转载数据库常用查询语句

select语句单表查询1.简单查询1.1查询所有字段1.2查询指定字段2.按条件查找2.1 带关系运算符的查询2.2 带in关键字的查询2.3 带between and 关键字的查询2.4 空值查询2.5 带DISTINCT关键字的查询2.6 带like关键字的查询2.7 带and关键字的多条件查询2.7 带or关键字的多条件查询3.高级查询3.1 聚合函数cou...

2018-12-19 09:39:21 1870

原创 python中[-1]、[:-1]、[::-1]、[n::-1]使用方法

import numpy as npa=np.random.rand(5)print(a)[ 0.64061262 0.8451399 0.965673 0.89256687 0.48518743]print(a[-1]) ###取最后一个元素[0.48518743]print(a[:-1]) ### 除了最后一个取全部[ 0.64061262 0.84513...

2018-12-18 23:30:35 95973 20

原创 python正则表达式

正则表达式是一个很强大的字符串处理工具，它能帮助我们方便的检查一个字符串是否与某种模式匹配，re 模块使 Python 语言拥有全部的正则表达式功能...

2018-12-18 17:36:26 220

原创 python数组和列表相互转化

from numpy import randomimport numpy as npa=random.randn(4,3)print(a)[[ 0.2139132 0.36365012 -0.9751154 ] [ 0.76894169 1.86987747 1.73042723] [ 0.18305323 0.87851851 -0.22883282] [-0.4227...

2018-12-18 15:40:20 9762

原创 python列表和字典相互转化

列表转换成字典注：列表不能直接使用dict转换成字典。方法一：使用zip()函数a = ['a1','a2','a3','a4']b = ['b1','b2','b3']d = zip(a,b)print(dict(d)) # {'a1': 'b1', 'a2': 'b2', 'a3': 'b3'}将a和b两个列表内的元素两两组合成键值对。当两个列表的长度不一致时，多...

2018-12-18 00:01:01 6686

转载使用CSDN-markdown编辑器

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-12-17 14:07:12 172

原创 pandas之DataFrame类型文件保存

详细官网文档：https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html

2018-12-16 22:37:39 5541

原创 python字符串分割

通过split分割后，会返回list列表str4=('www.baidu.com')print(str4.split('.')) ### split做简单的分割，一种模式['www', 'baidu', 'com']import restr5='http:@localhost:8888/notebooks/python' print(re.split(':|/',str5)) ...

2018-12-15 23:44:42 1458

原创 python字符串的切片

str3='The flower is so beautiful'print(str3[0:10]) ### 取从0至9的字符串print(str3[-5:]) ### 取从倒数第五至结尾的字符串print(str3[::]) ### 复制字符串

2018-12-15 23:18:26 266

原创 python字符串的连接与合并

日常使用python经常要对文本进行处理，无论是爬虫的数据解析，还是大数据的文本清洗，还是普通文件的处理，都是要用到字符串. Python对字符串的处理内置了很多高效的函数，非常方便功能很强大.下面是经常用的操作方法。...

2018-12-15 22:36:56 721

转载 python 实现knn分类

1、KNN分类算法 KNN分类算法（K-Nearest-Neighbors Classification），又叫K近邻算法，是一个概念极其简单，而分类效果又很优秀的分类算法。他的核心思想就是，要确定测试样本属于哪一类，就寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后看这K个样本大部分属于哪一类，那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的K个样本来投票...

2018-12-11 16:52:42 16129 2

原创使用scikit-learn进行DecesionTree分类

from sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsimport pandas as pd## print(lo...

2018-12-10 21:28:50 273

原创使用scikit-learn进行bayes分类

from sklearn import datasetsimport numpy as npimport pandas as pdiris_data=datasets.load_iris()iris_data.datairis_1=pd.DataFrame(iris_data.data)a=iris_1## print('a:\n',a)## print(type(a))iri...

2018-12-10 21:21:17 446

转载使用sklearn进行K-Means文本聚类

K-Means算法：中文名字叫做K-均值算法，算法的目的是将n个向量分别归属到K个中心点里面去。算法首先会随机选择K个中心向量，然后通过迭代计算以及重新选择K个中心向量，使得n个向量各自被分配到距离最近的K中心点，并且所有向量距离各自中心点的和最小。步骤一：在输入数据集里面随机选择k个向量作为初始中心点。步骤二：将每个向量分配到离各自最近的中心点，从而将数据集分成了K个类。步骤三：计算...

2018-12-10 21:16:13 3811

原创 10种常用数据分析方法

道家强调四个字，叫“道、法、术、器”。层次区别： “器”是指物品或工具，在数据分析领域指的就是数据分析的产品或工具，“工欲善其事，必先利其器”； “术”是指操作技术，是技能的高低、效率的高下，如对分析工具使用的技术（比如用Excel进行数据分析的水平）； “法”是指选择的方法，有句话说“选择比努力重要”； “道”是指方向，是指导思想，是战略。在数...

2018-12-07 16:15:57 18671

原创 pandas中DataFrame类型转成numpy中array类型

import pandas as pdimport numpy as npdf=np.array([[1,2,3],[4,5,6],[7,8,9]])dfdf1=pd.DataFrame(df)df1 0 1 20 1 2 31 4 5 62 7 8 9df1.valuesarray([[1, 2, 3], [4, 5, 6]...

2018-11-26 17:46:01 1407

原创 KNN分类（K近邻）与K-Means聚类（K均值）的区别

KNN K-Means 目的是为了确定一个点的分类目的是为了将一系列点集分成k类 KNN是分类算法 K-Means是聚类算...

2018-11-25 22:59:47 11221 1

原创 oracle 中模糊查询 like

oracle中模糊查询用like与通配符%实现1、字段 like ‘%关键字%’字段包含”关键字”的记录2、字段 like ‘关键字%’字段以”关键字”开始的记录3、字段 like ‘%关键字’字段以”关键字”结束的记录如果要找出一个字段中既有“关键字1”又有“关键字2”，可以用and条件如果要找出一个字段中既有“关键字1”或“关键字2”，可以用or条件ora...

2018-09-17 17:38:13 33006 1

原创 linux 清空文件内容方法

1、用echo命令清空文件内容 echo > 文件名2、用 truncate 命令清空文件内容 truncate -s 0 文件名3、用 cat 命令清空文件内容 cat /dev/null > 文件名4、用 cp 命令清空文件内容 cp /dev/null 文件名5、重定向到 null 来清空文件内容 ...

2018-09-10 15:04:23 252

原创 oracle中substr函数用法

substr作用是截取字符串，用法如下：substr（字符串，截取起始位置，截取长度） substr(字符串，-m，n) ### 从倒数第m个开始往后取n个字符substr（字符串，n） ###从第n个开始，截取后面所有字符 ...

2018-08-16 17:31:58 1048

原创 oracle中trunc函数用法

trunc通常可以截取数值（number）和日期（date）1、截取数值（number）### 截取整数部分SQL> select trunc(1111.222)from dual;TRUNC(1111.222)--------------- 1111### 小数点后面保留2位SQL> select trunc(1111.222,2)fro...

2018-08-16 16:18:23 1270

转载机器学习--GBDT实战

参考： sklearn.ensemble.GradientBoostingClassifier：官网https://louisscorpio.github.io/2018/01/19/代码实战之GBDT/#尝试用sklearn进行GBDT实战，选择模型最优参数，而后介绍GradientBoostingClassifier实现类GBDT代码实战 sklearn之GradientB...

2018-07-30 15:04:00 633

转载随机森林 sklearn实现

一简介随机森林是一种比较有名的集成学习方法，属于集成学习算法中弱学习器之间不存在依赖的一部分，其因为这个优点可以并行化运行，因此随机森林在一些大赛中往往是首要选择的模型。随机森立中随机是核心，通过随机的选择样本和选择特征，降低了决策树之间的相关性，随机森立中的随机主要有两层意思，一是随机在原始训练数据中有放回的选取等量的数据作为训练样本，二是在建立决策树时，随机的选特征中选取一部分特征建...

2018-07-27 13:54:12 3753

转载梯度提升决策树（GBDT）

综述GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。 ...

2018-07-27 13:49:54 501

转载机器学习 -- 决策树（decision tree）算法

转自：https://blog.csdn.net/u012328159/article/details/70184415决策树系列博客：决策树（一）——构造决策树方法决策树（二）——剪枝决策树（三）——连续值处理决策树（四）缺失值处理决策树算法起源于E.B.Hunt等人于1966年发表的论文“experiments in Induction”，但真正让决策树成...

2018-07-26 10:01:28 1453

转载逻辑回归（Logistic Regression）原理及推导

参考：https://blog.csdn.net/programmer_wei/article/details/52072939唐宇迪：机器学习

2018-07-25 13:35:35 925

转载 Logistic Regression ---损失函数推导

2018-07-24 15:47:56 650

原创 pandas 分组、聚合函数groupby

分组过程如下图所示：import numpy as npimport pandas as pddf=pd.DataFrame({'key1':list('aabbab'), 'key2':list('cccddd'), 'value1':np.arange(1,7), 'value...

2018-07-24 13:55:22 931

原创机器学习-类别不平衡问题

一、类别不平衡类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大的情况。比如说一个二分类问题，1000个训练样本，比较理想的情况是正类、负类样本的数量相差不多；而如果正类样本有998个、负类样本仅2个，就意味着存在类不平衡。那么学习方法只需返回一个永远将新样本预测为反例的学习器，就能达到99.8% 的精度；然而这样的学习器往往没有价值，因...

2018-07-23 16:16:19 1340 1

原创机器学习-分类模型评估标准

对模型的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量(performance measure)，回归任务最常用的性能度量是"均方误差" (mean squared error)。下面主要介绍分类模型的评估以及在sklearn库中的实现方法。一、错误率与精度（accuracy）错误率和精度是分类任...

2018-07-22 19:50:23 2871 1

空空如也

空空如也