自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 2021春项目需求记录 python实现模拟登录+爬取NASA Modis 上的产品数据

python实现模拟登录+爬取Nasa Modis 上的产品数据概述基本思路代码概述3月的中旬时候参与了学校的一个大创项目,作为本科生,本人只是摸鱼打杂,负责了其中的一个功能模块:爬取NASA Modis数据。整个过程也只是慢慢修改增添方案,主体功能于四月中旬基本完成。因为后续并未真正用到,所以自己还没进行更多优化,请各位谅解。如个人使用参考,可以试试这个爬虫。(2021年3-5月期间的,最近没留意网站更新)整个过程中,可以收获对Cookie、python的selenium库以及基本爬虫知识的一定了

2021-07-05 16:51:08 770 3

原创 LeetCode 7.整数反转

LeetCode 7.整数反转题目描述分析思路常见错误题解题目描述给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果。如果反转后整数超过 32 位的有符号整数的范围 [−2^31, 2^31 − 1] ,就返回 0。假设环境不允许存储 64 位整数(有符号或无符号)。分析思路1.从后向前,依次取出原输入值的每一位;2.由第一步取出的每一个值,从前向后,不断构造目标反转数(例如原输入123,反转得到321,从3开始取出,即rev = rev * 10 + digit,该

2021-05-04 20:32:06 219 3

原创 自己使用 numpy, pandas, matplotlib 时踩过的坑 + 一些python知识

自己使用 numpy 时犯过的错numpy.sum()计算元素出现次数二级目录三级目录numpy.sum()计算元素出现次数众所周知,Numpy的sum()方法除了能求和,还能计算元素出现次数,但是目的为后者时,接收对象须为array对象a = ['外观', '外观', '你好', '1', '1']print(np.sum(a == '1')) # 输出为0a = np.array(a)print(np.sum(a == '1')) # 输出为2# 除此之外,也能直调用collectio

2021-04-23 11:54:03 371

原创 样本方差与无偏估计

样本方差与无偏估计样本方差问题背景S2S^2S2的近似作用为什么使用Xˉ\bar XXˉ替代后,分母是1n\frac{1}{n}n1​?无偏估计无偏性有效性一致性小结参考文章:如何理解无偏估计量? by 马同学样本方差问题背景首先,对于随机变量XXX的期望为μ\muμ,其方差为σ2\sigma^2σ2。如果已知随机变量X的期望为\mu,那么可以如下计算方差σ2\sigma^2σ2:Case 1: 分布和期望均已知不过,对于上式,首先需要知道XXX的具体分布。因而我们常采用如下方式近似估计方差

2021-04-08 19:34:12 9827

原创 吴恩达2021新课 MLOps 简记

在吴恩达老师发起的投票中,80%的人认为以数据为改善中心更重要 (model centric),剩下20%的人认为以模型为中心更重要 (data centric)。就像烹饪,好的食材本身是制作出美食的关键。然而,在他最近在arXiv上浏览的100篇paper的摘要中,99篇文章的重点是优化模型/算法,只有1篇关注 data augumentation。99%的人关注20%重要性的因素,也告诉我们80%重要性的数据方面值得更多注意力。两种中心形式的对比:接着,为了从现实入手,吴恩达老师给了一个建议,

2021-04-05 20:43:45 663

原创 深度学习入门(上) 个人重点笔记

深度学习入门 自用笔记第一课 神经网络与深度学习深度学习引言神经网络基础渐层神经网络第一课 神经网络与深度学习深度学习引言神经网络基础渐层神经网络

2021-03-12 18:18:45 249

原创 Java 学习笔记 划重点

Java 学习笔记数据类型变量数据类型变量变量未赋值不可使用变量名字不可以重复long类型变量定义时,为防止整数过大,后面加Lfloat类型变量定义时,为防止类型不兼容,后面加Flong a = 10000000000 //×long a = 10000000000L //√float b = 14.33 //×float b = 14.33F //√...

2021-02-26 23:24:00 178

原创 经典的传染病模型简介 + SIS情况分析

传染病模型简介 + SIS情况分析简介各类经典传染病模型(基础形式)SIS模型假设符号说明微分方程组模型结论经典传染病模型的缺陷简介研究传染病模型,对社会经济和维持秩序有重大意义,尤其在过去的2020年,新冠疫情爆发。从数学领域对疫情进行分析,根据经典的传染病模型,考虑新的因素,加入新的变量,也是疫情追踪和防控的一种有力手段。最近刚好有机会用到传染病模型,趁此机会先对其有一个大致的了解。常见的传染病模型按照具体的传染病的特点可分为 SI、SIS、SIR、SIRS、SEIR 模型。其中“S”、“E”、

2021-01-30 00:15:25 19774 2

原创 蒙特卡洛方法入门 笔记

蒙特卡洛方法 笔记简介蒙特卡洛近似求圆周率(投点法)蒙特卡洛求定积分关于采样的简单记录简介原理:按照问题情景下的采样方式,通过大量的随机样本,对系统进行模拟,从而求得所需计算的参量。可以认为,蒙特卡洛方法粗略分为2类。第一类是所求解的问题本身具有内在的随机性,借助计算机的运算能力可以直接模拟这种随机的过程。这一类下,核物理研究中,分析中子在反应堆中的传输过程是一个较为典型的例子。第二类则是所求解问题可以转化为某种随机分布的特征数,比如通过投点法近似估算圆周率、近似计算定积分、随机事件出现的概率,或者随

2021-01-24 14:18:04 776

原创 3Blue1Brown【线性代数的本质】— 个人笔记

【线性代数的本质】— 个人笔记00 序言01 向量02 张成的空间与基矩阵与线性变换04 矩阵乘法与线性变换的联系05 行列式逆矩阵、列空间、秩与零空间最近了解到B站up主搬运和配音的一个对线性代数的大概认知的视频,里面重点关注把原本我认为“枯燥”的知识用几何图像来讲解,生动地阐述了“变换”这一词。分享链接:-UP主汉语配音-【线性代数的本质】合集-转载于3Blue1Brown官方双语】00 序言对线性代数的理解可以分为数值水平和几何水平,提高前者有利于顺利使用,提高后者更有利于你清楚理解为什么和怎

2021-01-20 00:52:14 4241

原创 043.GBDT 简要梳理

GBDT 简要梳理GBDT+LR(Logistic Regression)三级目录Gradient Boost Decision Tree 是一种学习策略,用Gradient Boosting的策略训练出来决策树模型。模型的结果是一组回归分类树的线性组合(CART Tree Ensemble)。从第二棵树开始,学习的是前面一颗树预测结果的残差,就像是不断地做题并挑选之前的错题。因为采用了残差,GBDT最后的输出,是样本在各个树中输出的结果的和。GBDT最大的好处在于,每一次残差运算也可视为,增大那些

2020-11-19 19:30:51 209

原创 042(11.7)初识AdaBoost

这里写目录标题引入:bagging中原有的 Weightd Base AlgorithmAdaBoost中u的选取AdaBoost 如何集成小结AdaBoost 即 Adaptive Boosting,通俗的讲,就是把许多“弱弱”的hypotheses(学习器)合并起来,变成很强的预测模型。引入:bagging中原有的 Weightd Base AlgorithmWeightd Base 算法如下图,目的是最小化bootstrap-weighted error。(每一个学习器的优化目标)其中,u

2020-11-07 23:27:36 394

原创 041.(10.23)集成学习之学习策略与多样性

常见学习策略回归问题平均法加权平均由于数据中样本不充分或噪声的影响,学出的权重有可能不靠谱,这时该方法未必优于普通平均法。分类问题绝对多数投票法标记过半,则预测为该标记。相对多数投票法预测为得票最多的标记。若存在得票数目相同的标记,则随机选择一个。加权投票法注意,不同类型的输出值不能混用(如基学习器异质),可以看看是否有相应的转换技术。学习法当训练数据很多时,可通过另一个学习器进行结合,stacking是其中的代表。这里把用于结合的学习器称为次学习器或

2020-10-26 22:42:18 640

原创 040.(10.20)初识随机森林

决策树的难点在于如何设计每一步的问题。过拟合其实正是决策树的一般属性——决策树非常容易陷得很深,因此往往会拟合局部数据(易受噪声影响),而没有对整个数据分布的大局观。换个角度看这种过拟合,可以认为模型训练的是数据的不同子集。随机森林回归其实随机森林也可以用作回归(处理连续变量,而不是离散变量)。随机森林回归的评估器是 RandomForestRegressor,其语法与我们之前看到的非常类似。小结随机森林是一种强大的机器学习方法,它的优势在于以下几点:• 因为决策树的原理很简单,所以它的训

2020-10-22 20:53:46 260

原创 039. (9.12) 数模国赛C题 中小微企业的信贷决策 第三题思考

C 中小微企业的信贷决策 第三题思考思考查阅特征工程改进模型改动方面企业的生产经营和经济效益可能会受到一些突发因素影响,而且突发因素往往对不同行业、不同类别的企业会有不同的影响。思考正则化提取打标签:类别太多,难分,如果要用这种方法的话只能给出一定数量的类别匹配,然后把其他剩余的类别归为一类;(如个体经营)购买方数量也可能有助于企业分类,如生活用品公司的销售对象往往更加分散、数量更多;(优点:有些日常类型的企业如家居企业、物流行业等,确实在大多数突发情况下仍能保持较为稳定的运行;缺点:有些

2020-10-13 16:17:07 1553

原创 038.(-10.12)特征工程 额外笔记

特征工程 额外笔记数据预处理1.缺失值处理1.1 多项式插值1.2 lagrange插值(拉格朗日)1.3 预测填充1.4 具体分析2.离群值处理2.1 标准差法2.2这一版笔记,是进一步阅读特征工程相关博客时补充记录的,继于篇号为017的博客。数据预处理1.缺失值处理1.1 多项式插值已知n+1个互异的点,由此可得到最高项不超过n次的多项式方程。公式:Y=AX,A=X^(-1) * Y其中A为系数矩阵,X为特征的多次项矩阵,Y为目标值矩阵。如果test_x 也存在空值,一般在缺失值的前几

2020-10-12 23:21:31 532

原创 037.(9.19)蚁群算法基础知识梳理

蚁群算法基础知识梳理定位有关信息素算法基本流程相关公式改进版定位蚁群算法(ACO)是一种智能优化算法(现代算法),概率、图论与矩阵是其理论主要组成部分。ACO是对蚁群凭借信息素标识,从而寻找食物这一过程的借鉴,可以用来寻找优化路径。有关信息素1.长路径上的信息素浓度低2.蚂蚁会留下信息素,而信息素自身也会挥发。一般规定一轮迭代(所有蚂蚁周游完一次)后更新一次信息素算法基本流程(1)根据具体问题设置多只蚂蚁,分头并行搜索。(2)每只蚂蚁完成一次周游后,在行进的路上释放信息素,信息素量与解的质

2020-09-19 11:55:13 821

原创 036.(9.6)拉格朗日乘子法

拉格朗日乘子法原理方法阐述源问题:求一个多元函数 f 在约束条件 g=a 下的 极值。注意:虽然主体目标是f ,但是定义域却是约束条件下的定义域主要思想(以这类问题的简单形式为例): 引入一个新的参数 λ ,即拉格朗日乘子,将约束条件函数与原函数联系到一起。原理由等高线图,显然当 f 与 g 相切时,f 取得极值。又根据梯度与等高线的切线垂直,可得:二维条件下,在相切点,目标函数的梯度向量和约束曲线的梯度向量平行。(多约束条件下:目标函数的梯度向量 与 约束函数梯度向量的线性组合平行)

2020-09-06 11:37:12 234

原创 035.(9.5)凸问题

凸问题凸函数

2020-09-05 22:59:47 2179

原创 034.(9.2)核

核简介补充说明参考:机器学习中的核函数与核方法(是什么?为什么?怎么做?)简介核方法:对于非线性问题,通过引入核函数:对特征进行映射 (如上图的二维到三维。通常映射后的维度会更高),就是将一个空间中的特征转换到另外一个空间,这就是空间转换(映射)的意义,即可以将原来线性不好分的数据转换到另外一个空间,在这个空间中可以用一个超平面线性可分。而核函数就等于就是高维空间的内积,也是低维空间中内积的某个函数。补充说明为什么用核函数? 在机器学习中,求解的过程常用到内积,而变换后的高维空间的内积我们

2020-09-01 20:44:30 182

原创 033. (8.27-9.1) 主成分分析

PCA简介使用1.用PCA降维2.成分的含义3. 选择成分的数量PCA 是一种非常基础的降维算法,也是应用最广的无监督算法之一,尤其适用于数据可视化、噪音过滤、特征抽取和特征工程等领域。简介以两变量为例,在主成分分析中,一种量化两变量间关系的方法是在数据中找到一组主轴,并用这些主轴来描述数据集。这些向量表示数据主轴,上图的箭头长度表示输入数据中各个轴的“重要程度”——更准确地说,它衡量了数据投影到主轴上的方差的大小。每个数据点在主轴上的投影就是数据的“主成分”。使用1.用PCA降维用 PC

2020-09-01 17:04:46 744

原创 032.(8.17-8.18)K-Means 算法

应用(也可用于分离不佳的簇)原理生成初始聚类中心后,进行内循环:第一步:簇分配第二步:移动聚类中心如果存在一个没有点的聚类中心,常见做法是将它移除掉(K-1),也有重新随随机初始的做法。...

2020-08-18 20:52:47 142

原创 031. SVM 支持向量机

决策树的难点在于如何设计每一步的问题。过拟合其实正是决策树的一般属性——决策树非常容易陷得很深,因此往往会拟合局部数据(易受噪声影响),而没有对整个数据分布的大局观。换个角度看这种过拟合,可以认为模型训练的是数据的不同子集。随机森林回归其实随机森林也可以用作回归(处理连续变量,而不是离散变量)。随机森林回归的评估器是 RandomForestRegressor,其语法与我们之前看到的非常类似。小结随机森林是一种强大的机器学习方法,它的优势在于以下几点:• 因为决策树的原理很简单,所以它的训

2020-08-16 23:53:17 84

原创 030. (8.4-8.5)Scikit-Learn 简介

Scikit-Learn 数据表布局机器学习是从数据创建模型的学问,因此你首先需要了解怎样表示数据才能让计算机理解。Scikit-Learn 认为数据表示最好的方法就是用数据表的形式。示例:Scikit-Learn的评估器API主要遵照的设计原则:统一性:所有对象使用共同接口连接一组方法和统一的文档。内省:所有参数值都是公共属性。限制对象层级:只有算法可以用 Python 类表示。数据集都用标准数据类型(NumPy 数组、Pandas DataFrame、SciPy 稀疏矩阵)表

2020-08-05 12:43:00 129

原创 029. (7.30) Ajax数据爬取

Ajax数据爬取Ajax 分析方法我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有多种,可能是通过 Ajax 加载的,可能是包含在 HTML 文档中的,也可能是经过 JavaScript 和特定算法计算后生成的。对于 Ajax 加载(即异步

2020-07-31 20:02:04 90

原创 028. (7.27) scrapy爬取IMDb TOP250电影基本信息

爬取IMDb TOP250电影基本信息主要代码注意事项提前分析网页正则表达式提取小括号里的字符串error: 'FeedExporter' object has no attribute 'slot'copy.deepcopy(item)主要代码items:import scrapyclass ImdbItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field()

2020-07-28 01:32:50 504

原创 027. (7.25) sklearn线性回归基本方法

划分训练集和测试集:X_train,X_test, y_train, y_test = sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.25, random_state=0,stratify=y_train)# train_data:所要划分的样本特征集# train_target:所要划分的样本结果# test_size:样本占比,如果是整数的话就是样本的数量# random_sta

2020-07-27 23:07:25 110

原创 026.(7.23-7.24)scrapy爬取牛客网招聘信息

RDC暑假项目需求:爬取牛客网招聘信息前言codescrapy爬取,保存csv文件乱码问题暑假工作室的合作项目,需求是爬取牛客网计算机行业岗位信息,第一次用scrapy做合作项目,代码有瑕疵还请指教!前言Author: Ray数据来源:牛客网 (https://www.nowcoder.com/)搜索条件筛选:实习,广州搜索量:由于牛客网搜索机制的原因,为了让结果更可能的准确,页面最多为5页搜索项:前端、后端,后台、Android、大数据,算法(搜索结果中多为字节跳动的JD,可能与牛客网有合

2020-07-24 12:29:46 404

原创 025. (7.17-7.19) Scrapy :Selector、Spider、Middleware

参考书籍:《Python 3网络爬虫开发实战》Scrapy 进阶:Selector、Selector(选择器)使用直接使用结合ScrapySelector(选择器)除了Beautiful Soap、pyquery、正则表达式等工具能提取网页数据,Scrapy 还提供了自己的数据提取方法,即 Selector(选择器)。 Selector 是基于lxml来构建的,支持XPath 选择器、CSS选择器以及正则表达式(均自带),功能全面,解析速度和准确度非常高。使用直接使用Selector 是一个可以

2020-07-24 12:01:54 103

原创 024.(7.15-7.16)Scrapy框架 初步学习

参考书籍:《Python 3网络爬虫开发实战》Scrapy框架 初步学习介绍架构数据流项目结构Scrapy 爬取流程创建项目创建Spider创建Item解析ResponseScrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。介绍架构数据流注意!只有当调度器中不存在任何request了,整个程序才会停止,(也就是说,对于下载失败的URL,Scrapy也会

2020-07-16 23:56:08 182

原创 023. 常见编码简记

ASCII (American Standard Code for Information Interchange):美国信息交换标准代码是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,到目前为止共定义了128个字符 。ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号,以及在美式英语..

2020-07-15 11:43:40 131

原创 022.(RDC暑假学习期 7.13-7.14)认识XPath

认识XPath介绍二级目录三级目录6月6号早晨突然收到考核结果通过的通知,惊喜成为RDC大数据组的一员。两个月的思考与突破,是疫情在家学习时光的难忘记忆之一。从进度条的%5到接近所有任务要求的%90,一路下来,也靠行动,靠意志。考试月让工作室的日子暂告一段落。考试结束后的今天,将迎来RDC暑假学习期(小小996)。之前师兄师姐也提到过,大数据从业方向主要有算法和开发两者。暑假的学习主要在于前者,希望通过这1个月多的学习,自己既能更加确定自己的兴趣和方向,也能尽快提升团队合作能力,多多出力锻炼。今天,简

2020-07-15 00:09:45 134

原创 021.(5.23-5.26)决策树基础

决策树基础1.得到决策树的主要步骤构造剪枝基本算法2.纯度、信息熵与信息增益纯度信息熵信息增益(ID3 算法)3.在 ID3 算法上进行改进的 C4.5 算法内容引自:决策树,机器学习之决策树决策树是数据挖掘中一种最基本的分类与回归方法,与其他算法相比,决策树的原理浅显易懂,计算复杂度较小,而且输出结果易于理解,因此在实际工作中有着广泛的应用。1.得到决策树的主要步骤构造根节点、中间节点、叶节点的确定选择。剪枝剪枝就是给决策树瘦身,这一步想实现的目标就是,不需要太多的判断,同样可以得到不错的结

2020-05-27 00:42:48 247

原创 020.(5.19-5.22)机器学习 回归任务实操笔记

这里写目录标题数据探索性分析特征工程建模调参其他想法数据探索性分析特征工程建模调参其他想法

2020-05-23 02:07:16 221

原创 019.(5.16-5.18)机器学习 分类问题实操笔记

这里写目录标题数据探索性分析二级目录三级目录数据探索性分析pd.croostab:交叉列表,还可根据此画图(plot)Pandas 基础(13) - Crosstab 交叉列表取值countplot是seaborn库中分类图的一种,作用是使用条形显示每个分箱器中的观察计数。Python数据可视化-seaborn库之countplot二级目录三级目录...

2020-05-19 00:23:54 128

原创 018.(5.8-5.15)初涉机器学习

机器学习介绍:监督学习和无监督学习介绍:机器学习是从人工智能发展出来的一个领域。运用:1.数据挖掘2.人自己不能编程的应用(如自动驾驶)3.私人定制程序4.更好地理解人类学习主要的两类算法:监督学习和无监督学习。其他:如强化学习和推荐系统。监督学习和无监督学习监督学习:在已有数据集基础上,“right answers given”,从而解决回归问题或分类问题。...

2020-05-16 00:16:22 305

原创 017. (5.4-5.7)探索性数据分析+特征工程实例 学习记录

探索性数据分析+特征工程实例学习的记录探索性数据分析探索性数据分析df.head()预览数据,默认5行df.info()索引,数据类型和内存信息df.describe() 数值列的汇总统计信息sns.distplot 灵活绘制单变量观测值分布图df.corr() 计算列之间的相关系数,得到一个矩阵sns.heatmap 热力图...

2020-05-07 12:33:00 730

原创 016. (5.1-5.2)Matplotlib笔记精选

参考书籍:《Python数据科学手册》Matplotlib笔记精选1.Matplotlib常用技巧1.1 导入1.2 设置绘图样式1.3 如何显示图形1.4 将图形保存为文件2.两种画图接口2.1 MATLAB风格接口2.2 面向对象接口Matplotlib 是建立在 NumPy 数组基础上的多平台数据可视化程序库,最初被设计用于完善 SciPy 的生态环境。Matplotlib 最重要的特...

2020-05-03 15:38:05 283

原创 015.(4.29-4.30)Pandas笔记精选

参考书籍:《Python数据科学手册》Pandas笔记精选1.Pandas对象简介1.1 Pandas的Series对象1.2 Pandas的DataFrame对象1.3 Pandas的index对象2.数据取值与选择2.1 Series数据选择方法2.2 DataFrame数据选择方法3.Pandas数值运算方法4.处理缺失值*4.1 选择处理缺失值的方法*4.2 Pandas的缺失值*5.层...

2020-05-01 12:43:00 340

原创 014. (4.28) NumPy笔记精选

这里写目录标题引言引言不同类型间的数据虽然存在明显的异构性,但是将所有数据简单地看作数字数组非常有助于我们理解和处理数据。 不管数据是何种形式,第一步都可将这些数据转换成数值数组形式的可分析数据。正因如此,有效地存储和操作数值数组是数据科学中绝对的基础过程。而Python中专门用来处理这些数值数组的工具有:NumPy 包和 Pandas 包。NumPy(Numerical Python 的...

2020-04-29 00:45:16 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除