自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (2)
  • 收藏
  • 关注

原创 python 核函数累积概率函数

画直方图的时候,可以叠加个核密度函数,图也很好看,如果对当面这一列数据,画图之后,想知道累积概率那如何获得呢,也就是cdf,pdf倒是容易获得,很多函数直接就有,因为用的多,网上一搜也都能搜到。但是获取累积概率函数,就少很多了。找不到。scipy的包中,也有一个函数说可以求cdf,但是没有说用法,我太笨了,还是不会,后来在stackoverflow找到了一种用法。先画出来pdf的图,也就是概率密度曲线,也就是核密度曲线。这个x是自动生成的等差数列,直方图的区间。ag = stats.gauss

2021-07-01 17:17:44 1214

原创 设置pandas数据框显示最大行数

#如果要设置显示200行#行数pd.set_option('display.max_rows', 200)#列数pd.set_option('display.max_columns', 200)

2019-08-23 15:45:48 4907

原创 改进算法的方法

1.增加样本数量该方法可以改进高方差问题,从学习曲线可以看出,随着样本量的增加,交叉验证误差和训练集误差越来越接近2.减少特征该方法可以改进高方差问题,高方差是过拟合的情况,花时间去选取更少,更合适的的特征3.增加特征该方法可以改进高偏差问题,因为假设函数太简单,所以欠拟合,要增加更多的变量,使假设函数更好的拟合训练集4.增加多项式特征该方法依然使改进高偏差问题,就是增...

2019-05-12 18:34:02 3901

原创 学习曲线learning curve

学习曲线是横坐标为训练样本数量,横坐标为误差。画的有两条曲线,一条是训练集误差,一条是交叉验证的误差。学习曲线可以反应两种情况,一种是高偏差,一种是高方差。高方差:过拟合,拟合效果过好,但是泛化效果差,无法泛化新的数据高误差:欠拟合,拟合程度太差,误差太大。反应在学习曲线上就是:高偏差:训练集误差曲线开始很小,随着样本数量变多,越来越大,然后不再变化;交叉验证误差开始很大,...

2019-05-12 18:27:02 1939

原创 python线性插值

在缺失值填补上如果用前后的均值填补中间的均值,比如,0,空,1,我们希望中间填充0.5;或者0,空,空,1,我们希望中间填充0.33,0.67这样。可以用pandas的函数进行填充,因为这个就是线性插值法df..interpolate()dd=pd.DataFrame(data=[0,np.nan,np.nan,1])dd.interpolate()...

2019-04-25 13:15:12 9516

原创 拉格朗日插值法补齐数据python

书上的代码,然后具体原理公式先占个坑,以后再详细写def ployinterp_column(s, n, k=8): # 取出要插值位置的前后k个数据 y = s[list(range(n - k, n)) + list(range(n + 1, n + 1 + k))] # 剔除空值 y = y[y.notnull()] return lagran...

2019-04-24 10:16:00 1765

原创 缺失值处理总结

在测点测数据的时候存在异常值的情况,比如测得值在量程之外,该值没有意义无法使用,归类在异常值中,作异常值处理,将该异常值删除,则问题转化为缺失值处理。缺失值处理的方法有两种,一种是不处理,直接删除,一种是用合适的值去填补。针对我们的业务需求,我们采用填补的方法,缺失值的填补有很多种方法,分享几种主流的适合业务的方法。1)特殊值填补将所有异常值都作为空缺值填补,用一个固定的值去填补,例如用9...

2019-04-16 15:49:32 1230

原创 sql server时间格式24小时制

数据库时间戳要按照格式化输出,有两种方法:1.Select CONVERT(varchar(100), GETDATE(), 0)后面的 0 可以换成其他的数字,有对照表可以查询这是改成了8,可以改成不一样的数字对应不同的结果2.FORMAT函数这个函数在MySQL中也有SELECT FORMAT(GETDATE(), 'yyyy-mm-dd HH:00:00')...

2019-03-28 10:04:26 8801

原创 神经网络基础知识

2019-02-13 09:18:38 223

原创 RBF神经网络笔记

  

2019-01-23 09:38:13 337

原创 python画矢量图

用matplotlib画图有输出的图放大看会很模糊,即使可以使用fig = plt.figure(figsize=(15,6))#设置画布尺寸这样设置确实是等比例放大的,但是仔细看还是模糊。矢量图的话无论怎么方法也是很清楚。import matplotlibimport matplotlib.pyplot as plt%matplotlib inline%config ...

2019-01-08 16:12:22 14276 1

原创 pip错误 ImportError: No module named _internal

服务器自带的python是2.7,就先安装了pip,后来发现又按不上jupyter了,提示信息说jupyter要依赖python3??怎么会这样,真是服了,之前服务器都好的很,也成功安装,后来因为写教程的原因就重装的系统,从零开始记录,现在又显示错误,也是搞不懂。后来就想着那就全部升级吧,python2.7也升级3.5好了。python升级:sudo apt-get install py...

2018-12-21 09:34:11 5703

原创 JAVA标识符

标识符:在定义java程序时,自定义的一些名字,例如helloworld 程序里关键字class 后跟的Demo,就是我们定义的类名。类名就属于标识符的一种。标识符规则标识符由26个英文字符大小写(a~zA~Z)、数字(0~9)、下划线(_)和美元符号($)组成。 不能以数字开头,不能是关键字 严格区分大小写 标识符的可以为任意长度 合法得标识符:ComputeArea,rad...

2018-11-09 10:51:15 254

原创 常见的DOS命令

盘符:进入指定的盘符下。dir:列出当前目录下的文件以及文件夹md :创建目录rd:删除目录注意:rd不能删除非空的文件夹,而且只能用于删除文件夹。cd:进入指定目录cd..:退回到上一级目录cd\:退回到根目录echo "hello java">a.txt写入文本到指定文件type a.txt显示文件内容命令del:删除文件注意:不能删除文件夹,...

2018-10-31 17:09:17 185

原创 控制python数据框的数据精度

需要从python连数据库提取数据的转为数据框,之前也博文也写过如何将数据库数据转为数据框。有一个问题是,原数据库的数据是保留15位小数的数据,例如:20.000000000000000,但是如果转为pd.DataFrame后,就只有六位小数。这是因为在数据框中默认的精度是一个固定值,现在不希望会损失,可以设置数据框的精度。pd.set_option('precision', n...

2018-10-12 11:24:36 1240

原创 欧几里得算法证明

之前在看算法图解提到过欧几里得算法,当时看了一下,就赶紧去找这个算法相关,并将公式推导了一遍,舒畅。今天还是想简单的写一下,记性太差,怕自己忘记。欧几里得算法要解决的是求两个数最大公约数的问题。这个算法的过程可以举个例子来展示,如果我要求168和44的最大公约数,用欧几里得算法可以这样求:168=44*3+3244=32*1+1232=12*2+812=8*1+48=...

2018-10-10 16:46:58 2331 4

原创 数据结构——栈与队列

1.栈(stack)1.1栈栈又成为堆栈,是一种受约束的线性表,限制就是只允许在表的一端插入和删除操作。进行插入,删除操作的一端称为栈顶,另一端称为栈底。当一个栈没有元素的时候,称为空栈。向栈插入元素称为进栈或者入栈,删除元素称为出栈或者退栈。因为操作都是在栈顶,所以是后进先出的(Last In First Out,简称LIFO)。看到这里觉得这个栈的结构有点眼熟,想了半天,想起来...

2018-10-09 14:57:27 270

原创 数据结构——线性表

1.线性表线性表(linear list)是n个类型相同元素的有限序列。也就是说线性表具有的性质是:1)每个元素数据类型相同;2)元素是有限个;3)有顺序之分线性表根据存储方式可以分为:线性表可以完成对表中数据元素的访问、添加、删除等操作,表的长度也可以随着数据元素的添加和删除而变化。 1.1 顺序存储是用一组地址连续的存储单元一次存储的线性表的数据元素。以数据存储的地...

2018-10-08 18:54:11 251

原创 一个简单的用户登陆界面

目前开始学前端一些知识,然后就实践做了一个用户登录界面,觉得学语言就得多实践,就做了一个简单的用户登录界面,虽然奇丑,但是也可以看看结构。HTML码: <!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>用户登录</title>

2018-10-08 10:09:55 975

原创 JAVA简单排序

将一组整数数组按照从小到大排序,用简单排序的方法,先找到最小的,然后放在0位,然后后面的再找出最小的放在1位,依次下去排列。目前在学习java中,所以将代码的注释附上,也是自己的理解过程。public void selectSort (int[] a) { int n = a.length; //n是整个数组的长度 for (int k=0; k<n-1; k++) {//k从0开...

2018-10-08 09:49:37 384

原创 数据结构——基础

数据结构是计算机存储,组织数据的方式,这些数据是以什么样的形式,来存储,其中不仅包含数据的信息也有数据之间的关系。我觉得这个数据结构是比较抽象的,很多推荐看《算法导论》,目前打算先看一遍入门。做了一个思维导图,最近比较迷做这种框架图,觉得比较清晰。算法是指令的集合,解决问题的步骤思想都是算法,数据结构也是为算法而服务。 算法是能在有限的步骤下解决问题,所以就存在一个时间复杂度的概念。这个时...

2018-09-29 18:20:50 212

原创 JAVA学习笔记——入门

1.Java中每个变量在使用之前均必须声明它的类型。先给出变量类型,随后写上变量名。一行可以声明多个变量,可声明同时初始化。2.变量之间可以相互转换,有的转换会损失信息。实箭头表示无损,虚箭头表示可能损失精度例如:double x = 7.8int n = (int)x  //x为73.常见运算符+-*/,/这个和python一样,整数除法,求余用%,也支持递增递减运算...

2018-09-29 15:10:36 233

原创 费曼算法(Feynman algorithm)

最近打算好好学习一下数据结构,程序=算法+数据结构。还有上次做leetcode的时候,那个python链表,那个逻辑我都没能理解,还是的从数据结构下手。就想到之前看的一本书《算法图解》,上面讲到费曼算法,觉得很可爱。这个算法是物理学家,理查德·费曼命名的,算法步骤如下:(1)将问题写下来(2)好好思考(3)将答案写下来这就是费曼算法,符合逻辑,又仿佛没明白...

2018-09-29 08:43:41 4784 5

原创 Leetcode两数相加python(2)

先贴上题目给定两个非空链表来表示两个非负整数。位数按照逆序方式存储,它们的每个节点只存储单个数字。将两数相加返回一个新的链表。你可以假设除了数字 0 之外,这两个数字都不会以零开头。这个题目会在前面写一些变量的定义,给你的代码开个头,上面写的是 type l1: ListNode 因为在python里面没有链表的定义,我以为他说的是list,所以就写了一个,如果讲题目中的链表改为lis...

2018-09-28 18:32:25 497

原创 Java学习笔记——框架

看了一个入门的简介,粗略总结了一下,做了一个思维导图,宏观上知道java能干什么,或者说要学习哪些,下一步要好好学习一下数据结构了。 

2018-09-28 11:29:39 183

原创 服务器安装jupyter

服务器版本ubuntu16.041.看一下自带的python版本python --version2.7的版本2.安装pipsudo apt-get install python-pip3.安装jupyterpip install jupyter4.生成配置文件创建密码jupyter notebook --generate-config然后完成以后...

2018-09-19 13:46:19 954 1

原创 Anaconda添加环境变量

安装anaconda的时候,安装界面有选择,勾选第一个就是价格anaconda添加到环境变量中,后面cmd测试就会发现有,输入conda就会显示详细信息。如果没有勾选,或者像我一样,安装jdk后把之前的环境变量覆盖了,就要重新手动设置环境变量。之前安装anaconda2,添加环境变量就是要添加3个就好:控制面板>系统>高级系统设置>环境变量找到path,新建三...

2018-09-12 09:34:31 13911

原创 python画图显示中文加标题控制字体

之前在jupyter用seabron画图的时候一直显示不了中文,在中文前加u,也是不行中文都是正方形的格子,当时用的是python2.7,所以用的是以下的代码import sys# print sys.getdefaultencoding()# ipython notebook中默认是ascii编码 reload(sys)sys.setdefaultencoding('utf8')...

2018-09-11 17:37:22 6462 3

原创 JavaScript学习(一)

1.在编程语言中,一般固定值称为字面量,有数值字面量,字符串字面量,表达式字面量,数组字面量,对象字面量,函数字面量,原来表达式和函数也是一种字面量,在js中输入的是个运算表达式,最后出来的是一个计算后的值2.使用关键字var 定义变量,用等号赋值,语句用分号分开,双斜杠注释//,stata好像也是双斜杠3.有时候看js中很多函数的用法,觉得和python有一咻咻相似4.js对大小写敏...

2018-09-11 13:56:39 136

原创 csdn博客查看收藏+文章管理mark

1.查看我的收藏http://my.csdn.net/my/favorite2.个人文章管理https://mp.csdn.net/

2018-09-05 09:46:56 417

原创 html学习(一)

1.html和css是基于工业标准的,意味着所有的浏览器都用同样的方式支持html和css。不同的浏览器处理网页的方式也有细微的差别,如果希望各种浏览器的使用者都可以访问你的网页,就需要多种浏览器测试。2.HTML 定义了网页的内容,CSS 描述了网页的布局,JavaScript 网页的行为3.元素=开始标记+内容+结束标记4.CSS样式有很多,每个控制不用的样式,还是需要这种图看的比...

2018-09-04 18:52:22 168

原创 cmd用conda语句安装python包

cmd下用conda语句安装python包开始安装anaconda的时候可以将anaconda加入环境变量,这样安装一些python的包可以直接打开cmd窗口输入conda install 库名,就非常的方便,不过有时候在cmd下下语句,不知道是什么语法,所以在此总结一下自己遇到的常用的,以后遇到了再更新。一些基本语句 conda list : 显示之前已经安装好的库 ...

2018-08-31 10:49:45 2107

原创 通俗理解面向对象和面向过程+编程思想

上午单位的C++大佬给我们分享了一些编程思想,开始介绍了面向对象和面向过程面向过程是什么,就是对事件的过程进行编程,我们已知事件的发展过程,我们根据过程发展的节点去编程。整个编程是过程驱动,开始,然后输入数据,然后处理,最后结束,或者反复循环这种。C程序就是面向过程的,一次只做一件事情,比如空调,或者一些内嵌小程序的东西就是C程序,通俗易懂的例子就是计算器,输入数字,运算符号,再输入数...

2018-08-29 14:04:30 6707 1

原创 自然对数e和圆周率pai

之前看过一部美剧叫做《疑犯追踪》,男主之一说过关于π的一些话,觉得很有感触,大致意思是说,π是无穷不循环的一个数,后面的小数位无穷无尽的延伸下去,没有尽头,小数位包含这一切的数字组合,世界上所有的数字组合都能在π中找到,电话号码,身份证号,银行卡号和密码,甚至可以在π中找到一本《哈姆雷特》,在地球上发生的一切事情都可以在π中被记录。当时听到说的这些,很是赞同,但是觉得不能细想,因为,其他的无限...

2018-08-28 16:05:27 5215

原创 五点三次平滑+python实现

在处理工业数据的时候,工业数据有数据颗粒细,噪声大,量大,随着测量点的增加,数据维度高,复杂性高,而且关联性强,不过这个关联性是相对的,因为有时候数据噪声较大,显示不出来这种关联性。最近了解的五点三次平滑,在一个工业数据处理平台上有这个,就很疑惑为什么要用这个,搜了很多都是matlab写的代码,没有说明为什么用这个方法,就去知网搜了几篇论文,引用这些文献的解释:“一般来说,在数据采集系统中...

2018-08-17 11:31:50 8099 4

原创 RSME,MSE,R2等指标的解释与思考

最近做一个算法,直接算法中就计算了一个叫做RMSE的值,开始出来我以为是准确率,类似于,clf.score,后来想想好像不对,所以就看来一些文章来研究了一下这些的含义。预测值和真值相差的平方和是SSE,也就是误差平方和,这肯定是越小越好了,相当于一个误差累计。当然这个SSE越接近于0越好。但是,如果说10000的样本的情况,建立一个A模型,这个模型的SSE是100,100个样本的情况...

2018-08-15 15:09:37 26156 1

原创 2018/8/14pandas一些好用的用法

1.对数据框差分df.diff() 所有数据列差分,下一行减去上一行,默认axis=0。设置axis=1就是左右差分,可以做二阶差分df.diff(2)。2.根据时间平滑/重采样df10=dfnew.resample('10min',how='mean')索引是datetime,原来的时间索引是每30秒一次,how选择mean,就是每10分钟取一次平均来将数据量变少,变得平滑。...

2018-08-14 16:53:28 268

原创 .apply()替代for循环减少处理数据时间

 目的是希望讲时间对其,开始写for循环,差不多30分钟,然后用apply后a=[]d=[]df1=pd.DataFrame(None,columns=['datetime','IO_2008',])for i in range(len(IO_Values[id[0]])): aa=IO_Values[id[0]][i][1] tm=IO_Values[id[0]][i...

2018-08-14 11:13:01 4001 3

原创 2018/8/9-读取txt文件将所有数据四舍五入写入csv

朋友说有一个ascii文件,应该是司徒文件,不同的颜色是不同的数字这种。朋友本想放到excel里打开,然后设置单元格式,四舍误入,但是就出现全都是9999,显示不出来其他的数值。所以我就用python弄一下。ascii数据我用TXT打开,并以这种格式保存。import sysresult=[]with open("...\Desktop\\test.txt") as f: for ...

2018-08-10 16:43:49 567

原创 2018/8/8-sqlserver读的数据转为数据框格式

今天特别气自己,想骂人。今天还是北京奥运十周年。之前连数据库用来同事发给我的代码去连,然后一般数据都是存在rows里。 cursor.execute(sql) rows = cursor.fetchall()我自己写是加了一个list,因为他这个每一行都是元组,元组又不能修改,也没什么方法。然后这个数据框是一行,我自己又写个for循环,将着一行两个变量拆开。我也知道...

2018-08-08 15:54:47 322

python的DBUtils包

下载之后解压,然后将里面的DBUtils复制到anaconda的lib的site-packages中就可以了,然后在console中import,不报错就成功

2018-10-12

metabase安装包

Metabase是一个简单、开源的数据呈现方式,通过给公司成员、分析师新建Question,从而得到数据进行分析、学习。

2018-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除