- 博客(36)
- 收藏
- 关注
原创 SQL复杂查询练习
SQL复杂查询练习3.1创建出满足下述三个条件的视图(视图名称为 ViewPractice5_1)。使用 product(商品)表作为参照表,假设表中包含初始状态的 8 行数据。条件 1:销售单价大于等于 1000 日元。条件 2:登记日期是 2009 年 9 月 20 日。条件 3:包含商品名称、销售单价和登记日期三列。对该视图执行 SELECT 语句的结果如下所示。SELECT * FROM ViewPractice5_1;执行结果create view ViewPractice
2021-08-22 23:44:49 389
原创 SQL查询练习
SQL查询练习注意在建表时,列名前面不要有空格,不然会导致用报错建立product表练习2.1编写一条SQL语句,从 product(商品) 表中选取出“登记日期(regist)在2009年4月28日之后”的商品,查询结果要包含 product name 和 regist_date 两列。select product_name, regist_datefrom productwhere regist_date>'2009-4-20'2.2(1)请说出对product 表执
2021-08-22 22:39:27 523
原创 SQL训练1
标题编写一条 CREATE TABLE 语句,用来创建一个包含表 1-A 中所列各项的表 Addressbook (地址簿),并为 regist_no (注册编号)列设置主键约束create table Addressbook(regist_no integer not null, name varchar(128) not null, address varchar(256) not null, tel_no char(10), mail_address char(20), primar.
2021-08-18 00:08:22 74
转载 异常检测
异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。1.1 异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群体异常:指的是在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,例如社交网络中虚假账号形成的集合作为群体异常子集
2021-01-12 23:51:54 112
原创 异常检测-基于统计学的方法
概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常的数据对象被一个以Θ\The
2021-01-12 23:36:56 743
转载 matplotlib
一、概述1. matplotlib的三层apimatplotlib的原理或者说基础逻辑是,用Artist对象在画布(canvas)上绘制(Render)图形。就和人作画的步骤类似:准备一块画布或画纸准备好颜料、画笔等制图工具作画所以matplotlib有三个层次的API:matplotlib.backend_bases.FigureCanvas 代表了绘图区,所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer 代表了渲染器,可以近似理解为画笔,
2020-12-18 22:24:43 306 1
原创 可视化matplotlib
matplotlib是啥Matplotlib是一个Python 2D绘图库,它以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形。 Matplotlib可用于Python脚本,Python和IPython Shell、Jupyter 笔记本,Web应用程序服务器和四个图形用户界面工具包。Matplotlib 尝试使容易的事情变得更容易,使困难的事情变得可能。 您只需几行代码就可以生成图表、直方图、功率谱、条形图、误差图、散点图等。 更多的示例,请参见基础绘图例子和示例陈列馆。为了简单绘图,该 p
2020-12-14 22:48:33 95
转载 零基础入门金融风控-贷款违约预测
天池连接一、赛题数据赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。字段表Field Descriptionid 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款
2020-09-15 23:19:13 172
转载 二分查找
二分查找理解查找在算法题中是很常见的,但是怎么最大化查找的效率和写出bugfree的代码才是难的部分。一般查找方法有顺序查找、二分查找和双指针,推荐一开始可以直接用顺序查找,如果遇到TLE的情况再考虑剩下的两种,毕竟AC是最重要的。一般二分查找的对象是有序或者由有序部分变化的(可能暂时理解不了,看例题即可),但还存在一种可以运用的地方是按值二分查找,之后会介绍。代码模板总体来说二分查找是比较简单的算法,网上看到的写法也很多,掌握一种就可以了。以下是我的写法,参考C++标准库里的写法。这种写法比较
2020-08-28 23:41:09 92
转载 leetcode查找
文章目录一.查找表考虑的基本数据结构算法应用LeetCode 349 Intersection Of Two Arrays 1题目描述分析实现LeetCode 350 Intersection Of Two Arrays 2题目描述分析实现LeetCode 242 Intersection Of Two Arrays 2题目描述分析实现LeetCode 202 Happy number题目描述分析实现tipsLeetCode 290 Word Pattern题目描述分析实现tipsLeetCode 205
2020-08-25 23:27:07 302
原创 动态规划
动态规划动态规划常常适用于有重叠子问题和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。主要思想若要解一个给定问题,我们需要解其不同部分(即子问题),再根据子问题的解以得出原问题的解。动态规划往往用于优化递归问题,例如斐波那契数列,如果运用递归的方式来求解会重复计算很多相同的子问题,利用动态规划的思想可以减少计算量。动态规划法仅仅解决每个子问题一次,具有天然剪枝的功能,从而减少计算量,一旦某个给定子问题的解已经算出,则将其记忆化存储,以便下次需要同一个子问题解之时直接查表。动态规划
2020-08-23 23:44:00 262
转载 分治学习
分治引文MapReduce(分治算法的应用) 是 Google 大数据处理的三驾马车之一,另外两个是 GFS 和 Bigtable。它在倒排索引、PageRank 计算、网页分析等搜索引擎相关的技术中都有大量的应用。尽管开发一个 MapReduce 看起来很高深,感觉遥不可及。实际上,万变不离其宗,它的本质就是分治算法思想,分治算法。如何理解分治算法?为什么说 MapRedue 的本质就是分治算法呢?主要思想分治算法的主要思想是将原问题递归地分成若干个子问题,直到子问题满足边界条件,停止递归。将子
2020-08-19 18:07:46 125
转载 python学习8
模块在前面我们脚本是用 Python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了。为此 Python 提供了一个办法,把这些定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块(Module)。模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 Python 标准库的方法。1. 什么是模块容器 -> 数据的封装函数 -> 语句的封装
2020-08-07 23:33:19 82
转载 python学习9
1. 文件与文件系统打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报
2020-08-07 22:17:27 153
原创 python学习7
类与对象1、以下类定义中哪些是类属性,哪些是实例属性?类属性:类里面方法外面定义的变量称为类属性。类属性所属于类对象并且多个实例对象之间共享同一个类属性,说白了就是类属性所有的通过该类实例化的对象都能共享。实例属性:实例属性和具体的某个实例对象有关系,并且一个实例对象和另外一个实例对象是不共享属性的,说白了实例属性只能在自己的对象里面使用,其他的对象不能直接使用,因为self是谁调用,它的值就属于该对象。类属性和实例属性区别类属性:类外面,可以通过实例对象.类属性和类名.类属性进行调用。类里面,通
2020-08-05 22:26:30 135
原创 python学习6
函数与lambda表达式练习题:1怎么给函数编写⽂档?参考python学习给函数编写说明⽂档还有另⼀种编写注释的⽅式,就是在def语句后⾯,添加⼀段说明字符串很有⽤。我们将这种放在函数开头的字符串称为⽂档字符串(docstring),将作为函数的⼀部分存储起来。为确保其他⼈能够理解程序,要给函数编写⽂档,可以通过以下两种⽅式 :1.添加注释(以#打头的内容):2.添加独⽴的字符串使用print(test.doc)或help(test)查看注释内容2 怎么给函数参数和返回值注解?参考链接
2020-07-26 22:56:36 119
原创 python学习5
字典1、字典基本操作字典内容如下:dic = {‘python’: 95,‘java’: 99,‘c’: 100}用程序解答下面的题目字典的长度是多少请修改'java' 这个key对应的value值为98删除 c 这个key增加一个key-value对,key值为 php, value是90获取所有的key值,存储在列表里获取所有的value值,存储在列表里判断 javascript 是否在字典中获得字典里所有value 的和获取字典里最大的value获取字典里最小的va
2020-07-26 19:46:53 328
原创 python学习4
主要是列表、元组和字符串,其中字符串的内置函数比较多,需要多加注意。列表需要特别注意的地方由于list的元素可以是任何对象,因此列表中所保存的是对象的指针。即使保存一个简单的[1,2,3],也有3个指针和3个整数对象。x = [a] * 4操作中,只是创建4个指向list的引用,所以一旦a改变,x中4个a也会随之改变。1、列表操作练习列表lst 内容如下lst = [2, 5, 6, 7, 8, 9, 2, 9, 9]请写程序完成下列操作:在列表的末尾增加元素15在列表的中间位置插入元素
2020-07-25 19:40:14 179
原创 python学习3
异常处理练习题:1、猜数字游戏题目描述:电脑产生一个零到100之间的随机数字,然后让用户来猜,如果用户猜的数字比这个数字大,提示太大,否则提示太小,当用户正好猜中电脑会提示,“恭喜你猜到了这个数是…”。在用户每次猜测之前程序会输出用户是第几次猜测,如果用户输入的根本不是一个数字,程序会告诉用户"输入无效"。(尝试使用try catch异常处理结构对输入情况进行处理)获取随机数采用random模块。num=random.randint(0,100)count=1while True:
2020-07-24 20:20:25 88
原创 python学习2
条件语句ifif-elseif-elif-else需要注意两点,python是用缩进来控制代码块的范围,所以需要注意if下的缩进;python里是elif 这个和常用的else if 不太一样assertassert关键字为断言,当这个关键词后边的条件为 False 时,程序自动崩溃并抛出AssertionError的异常。...
2020-07-23 00:25:34 113 1
原创 python学习1
主要参考datawhale开源资料运算符算术运算符+,-,*,/,//,%,**其中//为整除(地板除),3//4=0%为取余,3%4=3∗∗**∗∗为幂,2**3=8;[0]**3=[0,0,0]比较运算符大于>,大于等于>= ,小于<,小于等于<=,等于==,不等于!=逻辑运算符and与,or或,not非位运算符三元运算符其他运算符重点,is比较的是内存地址,==比较的是变量值,注意不可变类型变量和可变类型变量的影响运算符优先级一元运算符大于
2020-07-21 01:16:46 77
原创 爬虫实践
爬取新闻热点参考datawhale的爬虫开源教程import timefrom selenium import webdriverdriver=webdriver.Chrome(executable_path="D:\chromedriver\chromedriver.exe")driver.get("https://news.qq.com")#了解ajax加载for i in r...
2020-04-27 23:59:15 434
转载 session和cookie
session,cookie和selenium以下内容主要来datawhale的开源爬虫教程前置:动态网页和静态网页静态网页静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到了,常用的 web 容器有 Nginx 、 Apache 、 Tomcat 、Weblogic 、 Jboss 、...
2020-04-25 23:12:15 83
原创 Beautiful Soup
Beautiful Soup 和RE学习python网络爬虫网课,主要内容为视频中的截图![在这里插入图片描述](https://img-blog.csdnimg.cn/20200423190501115.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNz...
2020-04-23 21:03:56 86
原创 python网络爬虫
python网络爬虫一下内容大部分来自https://www.bilibili.com/video/BV1NW411V7CQ?p=15的笔记,豆瓣电影的爬取参考了https://github.com/chen971/test/blob/master/Task_1.mdrequest库导入requests库,使用requests.get()获取页面信息import requestsr=re...
2020-04-21 15:59:44 154
转载 模型融合
模型融合原文链接模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用预测结果再拟合预测。具体算法可以看下西瓜...
2020-04-04 21:47:41 146
原创 建模与调参
建模与调参参考链接详细的代码部分可以去看链接,部分内容来自 小雨姑娘 大佬的直播使用交叉验证选择模型在实际操作中特征和模型是需要不断尝试改进完善的;小雨大佬的经验是使用贪心策略先选择一个简单的模型,在这个模型上进行特征工程,将特征部分做到目前想不到办法能做任何改进的时候,再用交叉验证或者根据实际情况设计验证方法选择合适的模型。在使用训练集对参数进行训练的时候,经常会发现人们通常会将一...
2020-04-01 21:35:15 136
转载 数据挖掘--特征工程
特征工程以下内容主要来自天池比赛的论坛论坛链接特征工程(Feature Engineering):将数据转换为能更好地表示潜在问题 的特征,从而提高机器学习性能。具体包括5个部分:数据理解;数据清洗;特征构造;特征选择;类别不平衡常见的特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/...
2020-03-28 21:47:53 188
原创 EDA
EDA 数据探索性分析以下内容主要来自天池比赛的论坛,https://tianchi.aliyun.com/notebook-ai/home#notebookLabId=85457¬ebookType=PRIVATE&isHelp=false&operaType=5EDA目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用...
2020-03-24 17:49:46 290
原创 深度学习02
文本预处理、语言模型、循环神经网络文本预处理文本预处理过程包括:读入文本分词(token)建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型常用的工具包有spacy,NLTK...
2020-02-14 19:46:23 101
原创 深度学习01
线性回归、softmax回归、多层感知机1. 线性回归线性回归中假设自变量和因变量之间为线性关系,损失函数采用平方损失函数(需要注意平方差前面有系数1/2),在批量训练中计算的是样本的平均损失。l(i)(w,b)=12(y^(i)−y(i))2,l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^...
2020-02-14 13:07:20 96
转载 KKT条件推导
kkt条件推导目前看到的最简洁易理解的kkt条件的推导原文链接:https://cloud.tencent.com/developer/article/1380118,有兴趣的小伙伴去看原文吧,就不粘过来了。...
2019-09-11 10:14:43 517
原创 数据挖掘(二)
参考https://www.jianshu.com/p/b3056d10a20f1、特征选择去掉方差比较小的特征from sklearn.feature_selection import VarianceThresholdlen(b.columns)sel = VarianceThreshold(threshold=(.8 * (1 - .8)))sel.fit_transform(b...
2019-08-09 23:57:31 75
原创 统计学习笔记3
统计学习笔记31,伯努利分布的均值和方差2,当样本容量大于等于30时,抽样分布可视为正态分布;小于30时,可视为t分布3,关于置信区间和假设检验部分比较熟悉,主要视频先讲这两部分再讲z,t 统计量感觉不是很适应;上课的时候也是先讲的如何构造统计量以及服从的分布,再讲的置信区间和假设检验。这一块我还是再看看书吧4,单侧检验和双侧检验5,只讲了第一型错误没讲第二型错误...
2019-05-15 22:38:46 73
原创 统计学习笔记2
统计学习2主要复习了正态分布、中心极限定理和抽样分布1,正态分布中的z分数表示和均值之间有多少个标准差的距离。2,正态分布的双峰,偏态。正偏度表示右侧尾部较长。负峰度表示顶峰较平。3,正态分布的经验法则:68-95-99.74,样本均值的抽样分布 sampling distribution of the sample mean5,中心极限定理,样本容量n=1是,不会趋向正态分布,n越大...
2019-05-14 09:49:49 80
原创 统计学习
统计学习1通过统计学的视频复习了下统计的基础知识。1.通过对总体进行随机抽样得到样本,通过样本数据来估计总体。(这里有一个疑问,怎么判断抽样得来的样本数据能否很好的反映总体。)2.样本方差是总体方差的无偏估计,但是样本标准差不是总体标准差的无偏估计。无什么呢,这两者之间的关系应该是什么?3.标准差的量纲和样本的一样。熟悉了方差的推导公式。4.随机变量是将随机过程映射到实际数字。随机变量的...
2019-05-12 16:35:56 479
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人