自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (4)
  • 收藏
  • 关注

原创 计算LBS经纬度距离方法Haversine

Haversine_formula

2022-10-28 10:25:22 690 1

原创 科学计数单位

科学计数

2022-07-19 17:02:37 389

原创 Spark/Hive 常用函数

1、rank 遇重复值排序并列,然后跳跃到当前排序记录次数开始(递增或递减)排序2、row_number 遇重复值排序不并列,连续不间断(递增或递减)排序3、dense_rank 遇重复值排序并列,然后继续不间断(递增或递减)排序............

2022-07-13 14:20:30 797

原创 Notes for Pareto distribution(二八原则)

1 定义Pareto distributions with shape value (α) of log45 ≈ 1.16 precisely reflect that 80% of outcomes are due to 20% of causes.

2022-05-17 22:28:41 133

原创 模型流程梳理和总结v0

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、特征工程1 构建特征库 - 踩坑大户1.1 探数据源1.2 衍生字段1.3 输出2 变量筛选 - 踩坑中户2.0 翻石头 - Heavy Work2.1 Variable Profiling包 - 解放双手2.2 Variable Distribution Plot 分布直方图2.3 单变量分布图IN H2O3 Information Value (IV)-- 筛选二分类问题中的预测自变量 X 变量分布3.1 分类型变量3.

2022-03-02 14:30:15 526

原创 Python中plot()画图添加数据标签

for x,y in zip(x1,y1): ax1.text(x,y,'%.0f' % y,fontdict={'fontsize':14})# more parametersfor a,b in zip(df['num'],df['resultRate']): plt.text(a, b+0.001, '%.4f' % b, ha='center', va= 'bottom',fontsize=9)Ref1Ref2Ref3import numpy as npimpor

2021-08-09 23:05:46 9354

原创 Python MinMaxScaler, MaxAbsScaler, scale的区别

MinMaxScaler归一到[0,1]from sklearn import preprocessingimport numpy as np x = np.array([[3., 3, 2., 1], [2., 0., 0., 2], [0., 1., 1., 3], [1., 2., 3, 0]]) min_max_scaler = preprocessing.MinMaxScaler()x_minmax

2021-08-09 22:25:27 539

原创 TensorFlow下载

官网链接Mac安装Debug

2021-06-28 18:00:20 100

原创 工具Manual

MySQL 8.0 Reference ManualPython 3.9.5 documentationPython packages

2021-06-28 11:25:23 153

原创 搜集的一些机器学习和数据挖掘的实践项目

实战项目方向:23个机器学习最佳实战项目里面针对不同的阶段都有提供建议(1)卷积神经网络:Emojify –使用Python创建自己的表情符号(2)机器学习线性模型:使用机器学习进行贷款预测(3)数据可视化:Uber数据分析项目(4)信用卡欺诈检测模型:信用卡欺诈检测项目(5)用户画像:使用机器学习进行客户细分(6)情感分析:使用机器学习进行情感分析,语音情感识别机器学习项目(7)推荐系统:使用机器学习的电影推荐系统(8)识别系统:车牌自动识别系统Kaggle(1)Titanic生

2021-06-28 10:52:19 761

原创 SQL With AS 用法

示例:SQL查找积分最高的用户的id,名字,以及他的总积分是多少(可能有多个),查询结果按照id升序排序查询结果如下:有的时候衔接的表需要重复引用,with as可以大大提高语句的可读性,精简语句。但是缺点也很明显,不能重复调用。with T as (select user_id,sum(case when type='add' then grade_num else -grade_num end) as grade_sumfrom grade_inf

2021-06-16 10:39:05 387

原创 SQL自学笔记

路径:xueSQL网站先看视频OverView,再看语法表,做完免费lesson的练习会有大致的了解。SQL基础教程(图灵出版)有系统的讲解,第三章关于聚合函数、聚合键、排序键讲得太精彩了,很详细。刷题时强化概念:Limit offset用法HINT /* + */注释语句关键字DistinctJoin用法Order By用法...

2021-05-22 19:06:22 93 1

原创 Matplotlib画图包与实例

这一篇需要长时间Update,大致框架的想法是根据不同图的类型分类,实例展示 – 归纳包/语句 – Doc说明(功能和参数)。Bar PlotFigure 1只需要简单的四组数据,实现:X轴labelBar颜色选择和数据标记Title去框线import matplotlib.pyplot as pltplt.figure()bars=plt.bar(np.arange(4),scores,color=['#4c72b0','#4c72b0','#55a868','#55a868'])

2021-05-12 11:46:24 223

原创 BarContainer object has no attribute ‘get-height‘

也是特别容易犯错的类型,混淆函数或特性的作用域(整体or元素成员)

2021-05-12 11:20:57 1118

原创 种草平台--持续更新

种草平台AcWing:

2021-05-11 14:55:18 277

原创 ‘function‘ object has no attribute ‘predict‘

犯了一个很低级的错误,但很容易遗漏def answer_six(): cancer_df=answer_one() means=cancer_df.iloc[:,:-1].mean().values.reshape(1,-1) knn=answer_five predict_=knn.predict(means) return predict_answer_six()Degug#第四行漏了括号,即使不用函数直接调用模型也要小心knn=answer_fiv

2021-05-11 14:45:20 3221

原创 词语归类

1、必要不充分消毒:手术,( C )A 动员:开会B 生产:销售C 启动:驾驶D 彩排:演出2、并列关系( )对于高等数学相当于铅笔对于( D )A 教师——售货员B 微积分——钢笔C 逻辑学——文具D 大学语文——书包...

2021-03-19 13:18:03 72

原创 图片规律题

1. 补全一幅图答:D。理由:红,绿分别都能组成一个完整的图,所以看看黄色如何补全。2. 数图中线段数量答:选D。理由:找直线段4 5 80 4 34 1 53. 逆时针旋转,每次变换一个元素答:选C。图片逆时针旋转,每次变换一个眉毛或者嘴巴。...

2021-03-19 11:48:09 681

原创 找数字规律题

相邻两位6 ,14 ,30 ,62 ,( 62*2+2=126)5 , 7 , 2 , 10 , -1 , 13 ,(4 ),8。答:5+7=12 ,2 + 10=12 ,( -1)+ 13=12 ,( ? )+8=12 所以?=4间隔一位(给出的数字少)0.75 ,0.65 ,0.45 ,( 0.75+0.45-0.65=0.55),或者相邻两个数差的绝对值相等。(填补两空)16,20,18,18,(20),16,22,(14)答:奇数位置上等差数列,偶数位置上等差数列,分开看

2021-03-17 14:31:12 2185

原创 量化笔试题整理

JQ (2小时30分钟 6道题,外加一道上传草稿)新型股票交易策略,可以买卖任意手(可不买100的倍数手),全天24小时任意交易。但规定,每一小时内只能交易一次,相邻TiT_{i}Ti​和Ti+1T_{i+1}Ti+1​交易差的绝对值不超过1;第24时内的交易和1时的交易差的绝对值不超过1;考虑交易方向。成交净买入为零,即买入的手数=卖出的手数。问,每天最多可以交易多少次?(答:144次)4个球分别为不同的颜色,每次随机取出两个,将第二个的颜色涂成第一个的颜色,问多少次才能将4个球涂成同一个颜色的期望

2021-03-17 11:02:27 1699 2

原创 动态规划算法整理

未完结,持续更新补充ING一、一阶动态规划1.1 最大股票收益给定一列价格序列P1,P2,...,PnP_1,P_2,...,P_nP1​,P2​,...,Pn​,只能有一次买入和一次卖出,在最大回撤不超过某一固定数的条件下,输出最大收益。要求实现算法复杂度为 O(n)O(n)O(n)。解:首先需要明确的一点是,先有买入才有卖出。那么最容易想到的一种动态算法就是遍历,也就是每知道一个价格PiP_iPi​, 找到若以此价格买入,未来的最大收益,这个时候需要把未来所有的价格遍历一遍,两重循环,时间复杂入

2021-03-12 12:56:42 141

原创 Python量化学习复盘(Chapter 3. 时间序列对象和文件处理)

2021-03-09 12:49:08 65

原创 Python量化学习(Chapter 4. Tushare & Matplotlib)

![(https://img-blog.csdnimg.cn/20210309124044733.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NjY0Mzg3OQ==,size_16,color_FFFFFF,t_70)

2021-03-09 12:44:15 114

原创 Python股票交易量化实例

以茅台为例,NUMPY+Pandas+MATPLOYLIB#导入工具包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport tushare as ts#获得近六年历史数据df=ts.get_k_data('600519',start='2015-01-01')df.to_csv('600519.csv') #保存#读取数据df=pd.read_csv('600519.csv',index_

2021-03-08 22:06:05 2168 1

原创 Python量化学习复盘(Chapter 2. Pandas)

2021-03-06 16:14:05 133

原创 量化笔试题整理

整理自Q1-5Q6-12100的阶乘(100!)后面有多少个零?答:24个零,关键拆解1-100因式分解含有多少个5.如果xxxx...x^{x^{x^{x^{...}}}}xxxx...=2,那么x是多少?答:x=2\sqrt{2}2​来自不同银行的8位宽客聚在一起喝酒。他们都想知道在坐8个人的平均工资。然而,每个人都不愿意向其他人透露自己的薪水。你能想出一个策略让这8个人在不知道别人薪水的情况下计算出在座各位稍微平均工资吗?答:让第一个宽客选择一个随机数a,把这个随机数加到他/她的工资

2021-03-05 14:17:09 7245 4

原创 No module named finance -debug1

因为Matplotlib想保持源代码干净,主代码中不再维护这样的附包(sidepackage), finance已从matplotlib里剥离出来,所以导致原来的导入语句失效。from matplotlib import finance as fin #语句已失效现在这个包由Danie Goldfarb在维护,开源代码详见Github-matplotlib。现在可以在网页下载mplfinance包或者直接pip install mplfinance #下载安装import mplfinance

2021-03-04 16:14:51 235 1

原创 Python量化学习复盘(Chapter 1. NumPy)

NumPy学习笔记整理脑图复盘

2021-03-04 11:32:25 152 1

原创 关于在搜索引擎进行信息收集的学习总结:

关于在搜索引擎进行信息收集的学习总结:代码设计上:主体包含一个两层的循环(搜索关键词(搜索页面));函数实现对每个搜索关键词的遍历,其中需要一个循环(把从每一页爬取到的信息,输出到自建文档中)代码复盘:headers模拟浏览器访问主体:建立搜索词列表,提前申明自动生成报告的存储位置和名字,确立采集的网页数量,利用函数实现关键词信息爬取函数部分:两个参数(关键词,访问网页数)。首先,对当前页面链接进行信息整体抓取,用到函数request.get().text。其次,将信息的标题、来源、时间、网页链

2021-01-06 21:38:59 317 2

原创 Python收集新闻其他辅助功能的实现

学习笔记整理:1. 异常情况处理和24小时连续收集的实现有时信息收集时会发生爬取失败的情况,但为了不影响后续的爬取,可以在代码中加入try: except: 可以有效避免这种情况的发生。如果需要24小时不间断收集,可以把实现函数放在while True的循环语句中,这样的话信息收集可以持续更迭。当然这样收集有点浪费资源,所以可以在代码中设置每间隔多长时间收集一次。实现代码如下:while True: # 一直运行的意思 companys = ['华能信托', '阿里巴巴', '万科集团',

2021-01-06 15:32:08 687

原创 Python自动生成新闻报告

学习笔记整理:上个章节学习了在百度搜索引擎中收集即时新闻,在此基础上,可以让python自动生成txt形式的文件。用到的函数是write,只需在原名为baidu(company)的函数最后,插入功能实现代码:file1 = open('/Users/nicole/Documents/舆情挖掘报告.txt', 'a') ##我把这个文件存在文稿里,Mac查看文件位置:双击右键-显示简介-通用-位置 # 如果把a改成w的话,则每次生成txt的时候都会把原来的txt清空,用w不太好,因为这样只能

2021-01-06 14:51:38 843

原创 计算机视觉推荐入门文章

Hi,第一篇备忘录????。周末讨论起计算机视觉,朋友在做行为机器学习的研究,推荐了如下入门的论文。10 Must-read Papers/Projects for Newcomer of Computer VisionClassification/RecognitionImageNetThis paper is usually considered as the starting point of modern computer vision(deep learning based), for i

2020-12-29 14:41:49 651

Python时间序列和文件处理学习笔记整理.pdf

Python时间序列和文件处理学习笔记整理.pdf

2021-03-09

Tushare 和 Matplotlib学习笔记整理.pdf

Tushare 和 Matplotlib学习笔记整理.pdf

2021-03-09

Pandas学习笔记整理.pdf

Pandas学习笔记整理

2021-03-06

Numpy学习笔记整理.pdf

Xmind脑图形式

2021-03-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除