自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 资源 (3)
  • 收藏
  • 关注

原创 复合分位回归的求解

类似分位回归的,给定分位数序列0τ1​τ2​⋯τK​1,复合分位回归的目的不再是在一个分位点上最小化损失函数,而是在多个分位点上同时最小化check function. 则估计回归系数βb1​bK​β​CQRb1​bk​βargmin​k1∑K​i1∑n​ρτk​​yi​−bk​−xi⊤​βτk​K1k​k12Kn​β​CQR−β∗→N0Σ。

2023-12-22 13:25:58 1972 3

原创 可加模型的一个简单示例

【代码】可加模型的一个简单示例。

2023-06-01 15:48:04 834

原创 pandas数据处理实例(箱线图)

因为要按月绘制图像,所以我们将月份和年份提取出来,作为时间标识。接下来就可以通过循环来绘制箱线图,其中需要注意的是,每个站点存在数据的月份可能不同,这时就可以通过已经提取出来的月份标识来识别包含数据的最大月份。绘制每个公司的月度箱线图(其中需要满足排放量>1),并给出简要的描述统计结果。通过读取站点名称,可以与数据集中的样本相对应,从而区别出不同站点的箱线图。将数据分为两个部分,一个是全体数据集data, 另一个是站点名称。

2023-03-10 22:25:27 1060 1

原创 分位数回归的求解

分位数回归实际上是一种特殊的ℓ1\ell_1ℓ1​回归问题,特别地,当所求分位数τ=0.5\tau=0.5τ=0.5时就是中位数回归。一般的,线性回归问题可以写为ℓp\ell_pℓp​范数线性回归,简称为ℓp\ell_pℓp​回归:arg min⁡x∈Rn∣∣Ax−b∣∣p\argmin_{x\in\mathbb{R}^n}||\boldsymbol{A}\boldsymbol{x}-\boldsymbol{b}||_px∈Rnargmin​∣∣Ax−b∣∣p​其中A∈Rm×n,b∈Rm\bolds

2022-09-27 12:38:54 3294 2

原创 NBA球员数据爬虫练习

其中的思想就是通过try、except方法来过滤数据的类型,对于百分数直接去除百分号再除100,若不满足就只剩下两种数据类型,满足numeric的直接float,不满足的说明一定是字符串或混合型,那直接不做处理即可。将排名作为排序的索引,这样就很容易的得到了球员们的详细数据,总体上没有什么难度。但有一个问题需要思考,那就是只看DataFrame的形式似乎我们已经获得了数据,但是这个数据显然是不具备分析条件的。准备开个新坑,一周练习一次小爬虫,对于质量较高的数据集,可以顺便做一下分析。

2022-09-10 18:01:27 2635 1

原创 通过R语言且只用基础package来制作一个小游戏

游戏规则任意数量的玩家可以加入(包含1), 多对相通的牌被随机排列在一个网格中,牌面朝下。每个玩家依次选择两张牌,并将其正面朝上,这被认为是一次移动。如果牌面相等,则该玩家赢得这对牌,再进行一次。如果两张牌不同,则再次将牌面朝下,轮到下一个玩家。当最后一对被拿起时,游戏结束。拥有最多对子的玩家获胜。有可能出现并列第一的情况。实际上这就是我们以前多多少少会玩到的记忆卡片游戏,从逻辑上讲并不复杂,限定了我们只能使用R语言和基础的包,那就稍有难度了问题分析我们可以通过将游戏规则拆分,将不同的逻辑部分独

2022-05-27 18:26:50 1143 2

原创 爬虫自动定时获取查重结果并将结果发送至指定邮箱

期刊论文查重,但是查询结果较慢(1-2天),总是手动刷新网站速度很繁琐,这是爬虫技术就可以派上用场了urlhttp://cx.bilunwen.com/qk/checkport商家给的查询地址很简陋,基本上淘宝商家的页面都一样,也没有任何反爬措施,我们只要在这里输入订单号就可以查询了与以往不同的是,我们通常会爬取静态网页,但这次任务中我们需要输入订单号,再点击查询报告按钮页面才会更新,才能看到查重报告是否生成。所以直接get(url)不会有任何结果思路显然我们需要分析网页,这

2022-05-09 02:06:29 509

原创 马蜂窝游记爬虫实例

js逆向问题的两种解决方法

2022-03-26 14:36:24 3988 14

原创 某房屋中介网站爬虫实例

url: https://hangzhou.anjuke.com/community/相比较房天下, 只需要在请求头中加入cookie即可(不带cookie会被封ip)直接上代码:from bs4 import BeautifulSoupimport requestsimport reimport pandas as pdimport time#需要杭州: 区域,地址,板块,房价,小区名,楼龄等信息columns = ["名称", "竣工时间", "版块", "单价", "周边", ".

2022-03-21 00:00:53 960 4

原创 通过Python实现5个常用数值近似算法

二分法二分法是一种简单有效的数值型迭代算法,对于一个在区间[a,b]\left[a,b\right][a,b]上的连续函数fx,若满足f(a)⋅f(b)<0f(a)\cdot f(b)<0f(a)⋅f(b)<0,那么fx在[a,b]\left[a,b\right][a,b]上必有根,此时设定分割点x0=(a+b)/2x_0=\left(a+b\right)/2x0​=(a+b)/2将区间等分为[a,x0]\left[a,x_0\right][a,x0​]和[x0,b]\left[x_0,

2021-12-15 02:00:38 2540

原创 当你懒得每天刷新校网的奖学金信息时怎么办?

每天都刷新校网查看奖学金的信息真的很累= =所以我选择把他爬下来, 也可以当做一次小练习import requestsimport timeimport refrom bs4 import BeautifulSoupurl = "http://vizt.xjufe.edu.cn/"res = requests.get(url)res.encoding = "utf-8"soup = BeautifulSoup(res.text, "html.parser")content = sou

2021-11-18 02:36:16 154

原创 准备转战知乎了

没有摘要

2021-11-12 02:10:36 1120

原创 某网站内容获取

简单小练习

2021-11-04 14:11:40 1023 6

原创 某评论网站爬虫练习

爬虫简单小练习

2021-10-31 20:10:51 3898 7

原创 经验分布与真实分布

经验分布函数定义设(x1,x2,⋯ ,xn)(x_1,x_2,\cdots,x_n)(x1​,x2​,⋯,xn​)是取自分布为F(x)F(x)F(x)的母体中一个简单随机子样的观测值. 若把子样观测值由小到大进行排列, 得到x(1)≤x(2)≤⋯≤x(n)x_{(1)}\leq x_{(2)}\leq\cdots\leq x_{(n)}x(1)​≤x(2)​≤⋯≤x(n)​, 这里x(1)x_{(1)}x(1)​是子样观测值(x1,x2,⋯ ,xn)(x_1,x_2,\cdots,x_n)(x1​,x

2021-09-11 23:48:04 3719

原创 桌面鼠标右键新增新减自定义项目

考虑这样一个问题, 假如你作为一个科研工作者或者学习者, 在阅读大量文献时突然有了灵感想要及时记录下来, 此时最先想到的就是鼠标右键新建一个你最常用的本文编辑器. 文本的目的就是告诉你如何完成这一目的.首先Win +R启动命令台.输入regedit点击确定.找到以下路径计算机\HKEY_CLASSES_ROOT\Directory\Background\shell.(可以直接复制到地址栏)右键单击shell→\to→新建→\to→项. 将其命名为你想要的名字例如我的命名为Typora\m.

2021-07-05 22:08:08 282

原创 Python奇异值分解

对于一个矩阵A, 它的奇异值分解为A=UΣV−1A=U\Sigma V^{-1}A=UΣV−1UUU为左奇异矩阵, VVV是右奇异矩阵且都是正交阵, 即UU⊤=IUU^{\top}=IUU⊤=I. Σ\SigmaΣ为奇异值构成的对角阵example IA=(011110)3×2A=\begin{pmatrix}0 & 1 \\1 & 1 \\1 & 0 \\\end{pmatrix}_{3\times2}A=⎝⎛​011​110​⎠⎞​3×2​UUU的计算

2021-04-24 22:42:09 3439 5

原创 日常爬虫练习

打开url模拟登陆方面仍有困难(加密算法实在是太强), 因此我们得手动登陆以美食为例进入开发者工具按名称排序找到如上图所示的链接, 根据我们之前爬取京东商品的经验, getPoilist这个名字很可能就是包含商铺信息的某个东西, 点击后可以发现右侧的js代码全部都被折叠了, 说明这里面的内容美团并不想让你很完整的看到通过ctrl + shift + c 点击第一条商品信息对比一下两个信息显然这就是商品的编号了, 那么在这个页面上关于商铺的所有信息都应该..

2021-04-09 23:25:03 142

原创 Python灰色关联度

设系统行为序列X0=(x0(1),x0(2),⋯ ,x0(n))X1=(x1(1),x1(2),⋯ ,x1(n))⋯⋯Xi=(xi(1),xi(2),⋯ ,xi(n))⋯⋯Xm=(xm(1),xm(2),⋯ ,xm(n))X_0 = (x_0(1),x_0(2),\cdots,x_0(n))\\X_1 = (x_1(1),x_1(2),\cdots,x_1(n))\\\cdots \cdots \\X_i = (x_i(1),x_i(2),\cdots,x_i(n))\\\cdots \cdot

2021-04-02 22:45:05 637 1

原创 Python爬虫获取“房天下“房价数据(下)

上期文章讲到了通过requests、BeautifulSoup库搭建简单的爬虫来获取“房天下”的基础房价数据. 如果你没有看上期, 请务必先阅读上期内容(传送门), 基础房价数据中我们只获取到了[“户型”, “面积”, “楼层”, “朝向”, “建成时间”, “经纪人”, “地址”, “单价”]这些指标, 尽管这些指标对样本有了一个初步、大概的描述, 但它们仅限于描述统计, 缺少协变量无法进一步探究房价的影响因素、时空变动、组成成分等等. 所以我们还需要得到某一在售商品房周边的情况, 例如下表所示的内容

2021-04-01 19:31:05 3847 5

原创 Python线性回归

基于之前逻辑回归和梯度下降的代码进行改造新增内容优化了新建函数对象时输出内容的逻辑规则加入Lasso和Ridge回归, 即L1正则化和L2正则化(L1采用了坐标轴下降算法)加入正态分布的pdf和cdf图像绘制功能绘制分布图像的同时可以给出相应函数值对坐标轴设定不适宜和方差与均值差异较大的情况进行警告函数图像的绘制可以更方便的进行自定义了将线性回归的默认解法设定为了正规方程法, 因为这在高纬度时比简单梯度下降算法更可靠import pandas as pdimport numpy as

2021-03-20 18:54:40 339 4

原创 Python坐标轴下降算法

该算法是为了解决L1正则化下线性回归无法使用梯度下降法求解的问题先直观的来了解一下坐标轴下降算法给定二元函数f(x,y)=5x2−6xy+5yf(x,y)=5x^2-6xy+5yf(x,y)=5x2−6xy+5y如何求解该函数的最小值?(虽然很容易就能看出是0), 坐标轴下降算法可以解决这个问题先来看这个函数的图像import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dimport numpy as

2021-03-17 00:23:01 2122 7

原创 逻辑回归中的梯度下降

这次使用了类的编程方法, 集成度、效率更高, 代码量更少, 使用更少的库import numpy as npimport matplotlib.pyplot as pltclass LogisticRegression: def __init__(self, learning_rate=0.001, max_iter=100, solver=None, e

2021-03-13 12:26:11 1128 5

原创 Python梯度下降法

线性(回归)模型梯度下降算法是机器学习中最常见的数值型算法之一, 本文分别从统计学和机器学习的角度来谈到梯度下降法的理论与应用.从统计学的角度来看, 线性回归模型的一般矩阵形式为:Y^n×1=E(Y∣X)=Xn×(p+1)θ(p+1)×1\hat{Y}_{n\times1}=E(Y|X)=X_{n\times(p+1)} \theta_{(p+1)\times 1} Y^n×1​=E(Y∣X)=Xn×(p+1)​θ(p+1)×1​其中nnn是样本量, ppp通常会说是自变量(或协变量)个数, XX

2021-03-05 17:19:25 535 3

原创 通过Python实现K-means算法

K-means算法K-means是机器学习中很常用的聚类算法, 关于K-means算法的数学原理, 算法, 伪代码等已经有非常丰富的文献资料, 这里就不介绍了. 直接看代码.调用以下库import numpy as np #用于抽样和生成随机数from sklearn.cluster import KMeans #sklearn自带的Kmeans算法, 用于严重本文算法结果是否正确import matplotlib.pyplot as plt #结果可视化import sys

2021-02-20 18:48:58 674 2

原创 Python爬虫获取“房天下“房价数据(上)

上期博客我们通过Python爬虫获取了京东商城的手机价格及其详细配置数据, 这期我们试着通过爬虫在房天下(房天下乌鲁木齐网址)上获取乌鲁木齐的二手房信息, 同时利用之前已经测试过的坐标查询代码来获得每一个二手房的详细位置.分析URL进入二手房的销售列表URL, 其中包括房屋的售卖标题、户型、面积、楼层情况、朝向、建成年份、售价、位置等信息. 那么本期就先从房屋的基本属性开始爬取, 关于其详细信息的爬取会在(下)中给出.进入开发者工具不难看出, 存放这些信息的标签很容易就可以找到, 那么就很容易

2021-01-28 15:24:00 6600 12

原创 利用Python爬取京东商品的一种办法

前言如今的京东、淘宝、天猫等等已经不同往日了, 在用户不登录的情况下, 很难通过技术手段来大规模获取到我们关注的商品信息. 关于京东等购物网站的自动登录也有很多人在做, 但是大厂的反爬能力确实很强, 目前能查阅到的自动登录技术基本都过时了. 本文干脆跳过这一过程, 换一个思路.在不登录的情况下获取商品的编号我们登录京东的网址jd.com后可以在不登录的情况下直接搜索商品, 比如搜索手机可以看到, 其实这一页面就已经列出商品的名称, 售价, 评价量等等. 遗憾的是这个页面的内容不能直接爬取, 但是

2020-11-22 20:14:10 4392 11

原创 通过Python实现目标点经纬度的自动查询

上一篇文章我们实现了对区市级shp文件的自动下载和转换,现在我们想要进一步标注出每一个地级市或区的行政中心来作为整个地区的中心,效果如下:

2020-07-12 01:32:34 3456 1

原创 通过Python实现shp底图的自动下载

在做GIS的过程中,我发现很多的地图API下载下来的全国地图只精确到省一级,有时我们需要的是县市级精度,所以本文通过遍历下载各个省份的县市json文件然后再组合起来。话不多说,直接上代码:实现如下代码,你应该保证你的解释器含有geopandas、requests、json、matplotlib、pandas库。首先建立单一省份json文件的下载,区划代码中包含_full的表示它包括了县市的边界#######################单独下载部分######################impo

2020-07-05 02:02:03 1607 1

原创 广义线性模型之泊松回归

最近在研究GWPR,参考了很多广义线性模型,特别是泊松回归的相关内容,知识琐碎且繁杂,做个笔记。泊松回归定义泊松回归(Poisson regression)是用来为计数资料和列联表建模的一种回归分析.泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模.泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型.需要注意的是,对数线性模型和泊松回归模型并不完全相同,通常对数线性回归的响应变量是连续的,而泊松回归则是离散的.再给出泊松回归模型的形式之前,我们先考虑几个

2020-05-18 11:58:07 12068 4

原创 数学分析解题思路

吉米多维奇数学分析中一道习题的分享证明:12+22+⋯+n2=n(n+1)(2n+1)61^2+2^2+\cdots+n^2=\frac{n(n+1)(2n+1)}{6}12+22+⋯+n2=6n(n+1)(2n+1)​两种方法:数学归纳法证明: 当n=1n=1n=1时,等式显然成立设n=kn=kn=k时,等式成立,即12+22+⋯+k2=k(k+1)(2k+1)6+(k+1)21^2+2^2+\cdots+k^2=\frac{k(k+1)(2k+1)}{6}+(k+1)^212+22+⋯+k2

2020-05-13 23:39:13 455

原创 机器学习之Logistic Regression

本文内容主要参考了斯坦福大学吴恩达老师的Coursera课程:Deep LearningLogistic RegressionLogistic Regression是机器学习中很经典的分类器,特别是在二分类问题中,它能够输出0、1事件发生的概率从而达到分类的效果,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因...

2020-05-06 16:58:20 254

原创 非参数统计之局部多项式回归

局部多项式回归局部多项式回归是非参数回归的一种方法,主要是由于Nadaraya−WatsonNadaraya-WatsonNadaraya−Watson估计方法的加权是基于整个样本点,而且往往在边界上的估计效果并不理想。局部线性回归解决上述问题的办法就是用一个变动的函数取代局部固定的权重。局部线性回归就是在待估计点xxx的领域内用一个线性函数Yi=β0+β1XiY_i=\beta_0+\be...

2020-04-26 01:15:24 11354 9

原创 非参数回归

一元非参数回归给定一组样本观测值(Y1,X1),(Y2,X2),⋯ ,(Yn,Xn),(Y_1,X_1),(Y_2,X_2),\cdots,(Y_n,X_n),(Y1​,X1​),(Y2​,X2​),⋯,(Yn​,Xn​),XiX_iXi​和YiY_iYi​之间的任意函数模型表示为Yi=m(Xi)+εi,i=1,2,⋯ ,n.Y_i=m(X_i)+\varepsilon_i,i=1,2,\c...

2020-04-21 21:14:51 10000 11

原创 多维核密度估计

多元核密度估计承接上一篇文章,接着讨论多维随机变量情况下的核密度估计。定义给定一组样本X={x1,x2,⋯ ,xn}\bm{X}=\{ \bm{x}_1,\bm{x}_2,\cdots,\bm{x}_n \}X={x1​,x2​,⋯,xn​}且都是ddd维的向量,并且取自同一个连续分布f(x)f(\bm{x})f(x),则在任意点x\bm{x}x处的核密度估计为:fh(x)^=1n∑i=1...

2020-04-17 00:27:35 7258 1

原创 核密度估计

核密度估计核密度估计属于非参数估计方法。概率分布是统计推断的核心问题,一旦给出联合概率密度,就能够回答变量子集之间的所有问题。可以说,参数统计的核心内容就是对密度的估计。通常在实际问题中,很多数据的分布无从得知,只能通过假设确定,而核密度估计正是为了适应这一问题而产生的。直方图密度估计基本概念要说核密度估计就不得不提到直方图估计,直方图通常用来描述数据的频率,可以使我们对数据的分布有一个基...

2020-04-05 17:43:00 8212

原创 CTeX使用全过程

最近投稿时编辑部给的模板居然是古老的CCT,Mac OS的我直接懵逼了,这也让我重新翻出来那台8年前的Dell,期中也遇到了一系列的问题,现在解决了就Mark一下吧,养成好习惯。CTeXCTeXCTeXCTeX是什么?CTEX是TEX中的一个版本,CTEX 指的是CTEX 中文套装的简称。TEX 在不同的硬件和操作系统上有不同的实现版本。这就像C 语言,在不同的操作系统中有不同的编译系统,...

2020-03-29 16:16:24 3419 2

原创 最小二乘估计矩阵形式的推导

最小二乘估计矩阵形式的推导最近写文章有用到一些算法,自己推一下,顺便mark下来。这么久没上csdn居然都能写Tex了(666)考虑一般线性回归模型(OLR)考虑只含有一个指标的一般线性回归模型(ordinary linear regression model)有如下形式:y=β0+β1x1+ϵy=\beta_0+\beta_1x_1+\epsilony=β0​+β1​x1​+ϵ看...

2020-03-23 02:44:23 5521 2

原创 网络爬虫学记(一)Requests库

Requests库入门实例:京东商品信息爬取import requeststry: r = requests.get('https://item.jd.com/100003717483.html') r.encoding = r.apparent_encoding r.status_code print(r.text[:1000])except : print("Error")...

2019-07-29 18:52:31 214

原创 Python学记(终章)Python计算生态(下)

Python计算生态2019.7.26 :end从人机交互到艺术设计Python库之图形用户界面Python库之游戏开发Python库之虚拟现实Python库之图形艺术玫瑰花绘制...

2019-07-26 20:15:43 239

本人博客<分位数回归的求解>一文中的原始数据

该数据集为空开数据,来源于网络,不对真实性负责

2022-10-02

本人博客<通过R语言且只用基础package来制作一个小游戏>一文中的源代码

原文地址https://editor.csdn.net/md/?articleId=124978265

2022-05-27

三种哈希算法的函数: sha256 md5 sha1

爬虫专栏中:马蜂窝游记爬虫实例中所使用到的哈希算法函数,用于解码三次访问中的cookies值,可以直接在java中调用函数,也可以保存至本地后用python调用。

2022-03-25

非参数回归中鲑鱼身体长度与其皮肤光亮程度的关系数据集(fish.txt)

本人博客 https://blog.csdn.net/qq_44638724/article/details/105632336 一文中所使用的数据集

2021-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除