自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

原创 MYSQL生成日期列表

以前的做法是通过借助于辅助表来实现,意思是说,生成一个整数序列1~N(N至少要大于所需序列的最大长度),并在数据库中创建这个表。在RECURSIVE定义的递归下,UNION ALL前面的部分相当于初始化递归函数。UNIONALL后面的部分实现递归调用,直到达到WHERE后的终止条件。今天刚刚学习了一种新的方式,借助于MYSQL8的递归函数,不用建立物理表就可以实现。这样,我们就获得了从2023年2月5日到2023年3月2日的一个时间序列。今天工作过程中,遇到了一个需要生成一个日期序列作为主表的需求。

2023-04-19 22:47:59 1746

原创 pymysql和pandas组合灵活实现数据库操作

​ 在做数据分析工作过程中,经常会有访问数据库和数据处理的场景。访问数据库通常可以使用python的数据包,如pymysql,cx_Oracle等;数据处理可以采用pandas来进行,但是在使用的时候,总是有不顺手的地方。基于此,根据自己的实际工作情况,编写属于自己的数据库访问的python库是比较好的。

2023-04-10 23:19:15 1024

原创 DBlink连接两台oracle数据库

问题来源项目上使用的数据库系统是Oracle服务器,和我们系统集成的另一个系统使用的也是oracle数据,需要对方向我们开放数据。目前使用的策略是,对方直接给我们开放数据库的帐号和密码,我们从中取数据。根据业务需要,对方提供的数据需要和我们库的数据做整合才能得到我们需要的结果。换言之,需要两个库的数据进行连接。解决办法从网上找到关于db link的信息。文章1:https://www.cnblogs.com/xiaohuizhenyoucai/p/11083187.html文章2:https:/

2022-04-24 23:14:24 1424 2

原创 自学卡方检验理解

基本介绍​ 卡方检验是一种用途很广的计数资料的假设检验方法。属于非参数检验,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度问题。参考链接​ 应用条件:​ 要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。参考链接卡方分布在介绍卡方检验之前,首先了解一下卡方分布。如果X1X_

2022-04-24 23:09:10 1388

原创 双色球概率分析

双色球概率分析

2022-03-12 23:02:38 1130

原创 关于平方差的几个相似的指标区分

线性回归中SSE、SSE、SSTSSE,和方差SSE=Σi=1n(yi−y^i)2SSE = \Sigma^n_{i=1}(y_i-\hat y_i)^2SSE=Σi=1n​(yi​−y^​i​)2SSRSSE=Σi=1n(y^i−yˉi)2SSE = \Sigma^n_{i=1}(\hat y_i-\bar y_i)^2SSE=Σi=1n​(y^​i​−yˉ​i​)2SSTSSE=Σi=1n(yi−yˉi)2SSE = \Sigma^n_{i=1}(y_i-\bar y_i)^2S

2021-04-15 15:00:10 294

原创 聚类算法的评价指标

邓恩(dunn)指标dunn指标指的是任意一个簇种的点最短距离除以任意两个簇之间的最长距离。DVI越大代表类间距越大、同时类内间距越小。轮廓系数(Silhouettes)样本轮廓系数s=b−amax(a,b)s=\frac {b-a}{max(a,b)}s=max(a,b)b−a​总体轮廓系数sc=1NΣi=1Nssc=\frac1N\Sigma_{i=1}^Nssc=N1​Σi=1N​s其中a:某个样本与其所在簇内其他样本的平均距离b:某个样本与其他簇样本的平均距离所有样本的轮

2021-04-14 15:57:33 3247 1

原创 模型选择标准

若干个模型训练成功之后,如何判定模型的优劣呢?通常有AIC、BIC和HQ三个指标,分别解释如下AIC赤池信息量中文名字:赤池信息量 akaike information criterionAIC是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次在1974年提出,它建立在熵的概念上,提供了权衡估计模型复杂度和拟合数据优良性的标准。AIC=−2ln(L)+2kAIC = -2ln(L)+2kAIC=−2ln(L)+2k一般而言,当模型复杂度提高(k增大)时,似然函数L也会增大,从而使AIC

2021-04-14 14:15:42 936

原创 python装饰器理解

目录为什么要有装饰器装饰器长什么样子python装饰器的实现方式函数实现@符号实现类实现python的装饰器工具python装饰器也是从很少之前就接触了,由于都是自己学习,我的应用场景中又很少用到,就一直搁置了,最近又学习了一下。写一下理解,欢迎道友批评指正。为什么要有装饰器在实际的应用场景中,需要记录函数的执行过程和函数的运行状态,比如说日志系统、函数的运行时间、函数的异常状态、返回值等。而在项目中,很多函数都需要进行这样的操作,那么怎么来实现呢?第一种方式:我们可以在每一个函数中,都增加相应的代

2021-01-11 20:00:40 89

原创 使用map函数,实现二维数组编码

在一些机器学习的场景中,有时需要将一些类别值映射为数值,以方便排序和算法运算。在常规的做法中,我们通常使用for循环来实现,如果数据数据是多维的,就使用多重for循环。代码如下图所示。item_map = {"豆奶":0, "莴苣":1, "尿布":2, "葡萄酒":3, "甜菜":4, "橙汁":5}raw_data = [["豆奶","莴苣"], ["莴苣","尿布","葡萄酒","甜菜"], ["豆奶","尿布","葡萄酒","橙汁"],

2021-01-08 09:16:23 1988

原创 机器学习总结

目录监督学习无监督学习K-近邻算法线性回归逻辑回归支持向量机决策树和随机森林神经网络半监督学习无监督学习k-平均算法分层聚类分析最大期望算法关联学习AprioriEclat可视化和降维主成分分析核主成分分析局部线性嵌入t-分布随机近邻嵌入(t-SNE)强化学习在线学习批量学习基于实例的学习基于模型的学习机器学习的主要困难监督学习提供给算法的包含所需解决方案的训练数据,成为标签或者标记。无监督学习K-近邻算法线性回归逻辑回归支持向量机决策树和随机森林神经网络半监督学习有些算法可以处理部分

2020-12-28 12:23:47 275

原创 机器学习项目基本流程

目录说明读取数据说明本文内容基于机械工业出版社 **机器学习实战(基于scikit-learn和tensorflow)**而写的。学习过程中,手动对比敲了一些代码,还有一些心得,作为书中内容的补充。读取数据# step1 读取数据filepath = "./CaliforniaHousing/cal_housing.data"columns = ["longitude", "latitude", "housing_median_age", "total_rooms", \

2020-12-26 19:27:34 384

原创 python正则表达式(简明版)

python中re模块提供正则表达式的功能,模块中主要包含以下几个方法。re.compile(pattern[, flags]):生成匹配模式match(pattern, string, flags=0):从字符开头开始匹配,如果开头匹配不到,就返回为空(即便是后面能匹配到)。Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。只返回一个匹配search(pattern, string, flags=0):从整个字符串上进行匹配,整个字符

2020-12-19 13:35:56 145 1

转载 大数据的相关技术知识

https://www.cnblogs.com/qingyunzong/p/8707885.html

2020-12-12 10:58:32 176

原创 算法导论学习

2. 算法基础2.1 算法基础2.1 .1 插入排序插入排序的本质是,便利每一位置上的值,每一次遍历时,都把比这个值大的数字往前提,留出的空位,用这次的遍历值补上去。#!/bin/usr/python3def insertSort(arr, order=True): for i in range(len(arr)): if i==0 : continue else: key = arr[i] j = i-1 # 值大的往后换,流出的空位,把目标值插入进去 w

2020-10-31 11:07:41 325

原创 Numpy练习

目录1. 查看numpy版本2. 创建一维数组3. 创建布尔数组4. 从一维数组按照条件过滤数据5. 一维数组按照条件修改数据6. 保留原始数据进行修改7. 重塑数组1. 查看numpy版本使用np.__version__输出numpy版本import numpy as npprint(np.__version__)2. 创建一维数组使用array(list)创建 arr = np.array([1,2,3,4,5]) print(arr)3. 创建布尔数组np.full用于创建一个

2020-07-11 22:54:37 154

转载 FP树

FP树https://www.cnblogs.com/pinard/p/6307064.html

2020-04-16 23:12:06 276

原创 分治策略求解最大子数组

分治策略就是把复杂的问题分成更小的问题来求解,求解过程中会涉及到以下三个步骤:分解:分解步骤将问题划分为一些子问题,子问题的形式与原问题一样,只是规模更小,求解更简单。解决:解决步骤递归地求解出子问题。如果子问题的规模足够小,则停止递归,直接求解。合并:合并步骤将子问题的解合成原问题的解。求解最大子数据过程中的思路是,先将数组分成两部分。那么根据最大子数组出现的位置就会有三种情况。左侧...

2020-04-02 23:12:57 404

原创 使用python实现命令行进度条

import timedef progressBar(data, total): print("\r", end="") print("%{}={}/{}".format(data*100/total, data, total), end="") time.sleep(0.5)if __name__ == "__main__": total = 100 ...

2020-04-01 21:13:21 830 2

原创 常见排序算法python实现

1. 冒泡排序# buble sortdef buble_sort(inList): for i in range(len(inList)): for j in range(len(inList)-i-1): if inList[j] <= inList[j+1]: continue ...

2020-03-25 23:22:41 118

原创 python企业微信推送信息

注册企业微信账号在我的企业中获取企业的idcorpID = wwfe6edfd511b002e2应用管理中,推送消息的应用。并获取应用的AgentId和SecretAgentId = 1000003Secret = 5TbU2fubWcfbGeeAQEs8mgm0ZZAc5FJdaGk20KfeUl0获取access_token, 请求url如下图所示。https://qyapi....

2020-03-22 22:08:07 862

原创 Python的动态特性

目录1. 基本概念2. 代码演示1. 基本概念首先要明确要明确一下,python中实例方法、类方法和静态方法的区别, 先看一个简单的类:class Person(): # class property __num = 0 def __init__(self, name="NoName", age=0): self.name = name; ...

2020-03-19 23:32:44 216

原创 Linux笔记

目录Linux常用基础命令查看Ubuntu版本能使用命令帮助文件目录操作系统信息用户操作系统升级命令行快捷方式生成一个适合你的列表移动光标修改文本自动补全历史命令Linux常用基础命令查看Ubuntu版本能uname -a(内核版本)cat /etc/issue (简单操作系统版本)cat /etc/lsb-release(具体系统版本)cat /proc/version使用命令帮助...

2020-03-19 22:13:31 70

机器学习加州房价数据集(California housing)

机器学习实战(基于scikit-learn和tensorflow)第一章中用到的数据集,书中的代码由于网络问题无法下载,可以下载这个文件

2020-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除