Infinity343-CSDN博客

原创复合分位回归的求解

类似分位回归的，给定分位数序列0τ1τ2⋯τK1，复合分位回归的目的不再是在一个分位点上最小化损失函数，而是在多个分位点上同时最小化check function. 则估计回归系数βb1bKβCQRb1bkβargmink1∑Ki1∑nρτkyi−bk−xi⊤βτkK1kk12KnβCQR−β∗→N0Σ。

2023-12-22 13:25:58 1972 3

因为要按月绘制图像，所以我们将月份和年份提取出来，作为时间标识。接下来就可以通过循环来绘制箱线图，其中需要注意的是，每个站点存在数据的月份可能不同，这时就可以通过已经提取出来的月份标识来识别包含数据的最大月份。绘制每个公司的月度箱线图（其中需要满足排放量>1），并给出简要的描述统计结果。通过读取站点名称，可以与数据集中的样本相对应，从而区别出不同站点的箱线图。将数据分为两个部分，一个是全体数据集data, 另一个是站点名称。

2023-03-10 22:25:27 1060 1

原创分位数回归的求解

分位数回归实际上是一种特殊的ℓ1\ell_1ℓ1回归问题，特别地，当所求分位数τ=0.5\tau=0.5τ=0.5时就是中位数回归。一般的，线性回归问题可以写为ℓp\ell_pℓp范数线性回归，简称为ℓp\ell_pℓp回归:arg min⁡x∈Rn∣∣Ax−b∣∣p\argmin_{x\in\mathbb{R}^n}||\boldsymbol{A}\boldsymbol{x}-\boldsymbol{b}||_px∈Rnargmin∣∣Ax−b∣∣p其中A∈Rm×n,b∈Rm\bolds

2022-09-27 12:38:54 3294 2

原创 NBA球员数据爬虫练习

其中的思想就是通过try、except方法来过滤数据的类型，对于百分数直接去除百分号再除100，若不满足就只剩下两种数据类型，满足numeric的直接float，不满足的说明一定是字符串或混合型，那直接不做处理即可。将排名作为排序的索引，这样就很容易的得到了球员们的详细数据，总体上没有什么难度。但有一个问题需要思考，那就是只看DataFrame的形式似乎我们已经获得了数据，但是这个数据显然是不具备分析条件的。准备开个新坑，一周练习一次小爬虫，对于质量较高的数据集，可以顺便做一下分析。

2022-09-10 18:01:27 2635 1

原创通过R语言且只用基础package来制作一个小游戏

游戏规则任意数量的玩家可以加入（包含1），多对相通的牌被随机排列在一个网格中，牌面朝下。每个玩家依次选择两张牌，并将其正面朝上，这被认为是一次移动。如果牌面相等，则该玩家赢得这对牌，再进行一次。如果两张牌不同，则再次将牌面朝下，轮到下一个玩家。当最后一对被拿起时，游戏结束。拥有最多对子的玩家获胜。有可能出现并列第一的情况。实际上这就是我们以前多多少少会玩到的记忆卡片游戏，从逻辑上讲并不复杂，限定了我们只能使用R语言和基础的包，那就稍有难度了问题分析我们可以通过将游戏规则拆分，将不同的逻辑部分独

2022-05-27 18:26:50 1143 2

原创爬虫自动定时获取查重结果并将结果发送至指定邮箱

期刊论文查重，但是查询结果较慢（1-2天），总是手动刷新网站速度很繁琐，这是爬虫技术就可以派上用场了urlhttp://cx.bilunwen.com/qk/checkport商家给的查询地址很简陋，基本上淘宝商家的页面都一样，也没有任何反爬措施，我们只要在这里输入订单号就可以查询了与以往不同的是，我们通常会爬取静态网页，但这次任务中我们需要输入订单号，再点击查询报告按钮页面才会更新，才能看到查重报告是否生成。所以直接get(url)不会有任何结果思路显然我们需要分析网页，这

2022-05-09 02:06:29 509

原创马蜂窝游记爬虫实例

js逆向问题的两种解决方法

2022-03-26 14:36:24 3988 14

原创某房屋中介网站爬虫实例

url: https://hangzhou.anjuke.com/community/相比较房天下, 只需要在请求头中加入cookie即可(不带cookie会被封ip)直接上代码：from bs4 import BeautifulSoupimport requestsimport reimport pandas as pdimport time#需要杭州: 区域，地址，板块，房价，小区名，楼龄等信息columns = ["名称", "竣工时间", "版块", "单价", "周边", ".

2022-03-21 00:00:53 960 4

原创通过Python实现5个常用数值近似算法

二分法二分法是一种简单有效的数值型迭代算法，对于一个在区间[a,b]\left[a,b\right][a,b]上的连续函数fx，若满足f(a)⋅f(b)<0f(a)\cdot f(b)<0f(a)⋅f(b)<0，那么fx在[a,b]\left[a,b\right][a,b]上必有根，此时设定分割点x0=(a+b)/2x_0=\left(a+b\right)/2x0=(a+b)/2将区间等分为[a,x0]\left[a,x_0\right][a,x0]和[x0,b]\left[x_0,

2021-12-15 02:00:38 2540

原创当你懒得每天刷新校网的奖学金信息时怎么办？

每天都刷新校网查看奖学金的信息真的很累= =所以我选择把他爬下来, 也可以当做一次小练习import requestsimport timeimport refrom bs4 import BeautifulSoupurl = "http://vizt.xjufe.edu.cn/"res = requests.get(url)res.encoding = "utf-8"soup = BeautifulSoup(res.text, "html.parser")content = sou

2021-11-18 02:36:16 154

原创准备转战知乎了

没有摘要

2021-11-12 02:10:36 1120

原创某网站内容获取

简单小练习

2021-11-04 14:11:40 1023 6

原创某评论网站爬虫练习

爬虫简单小练习

2021-10-31 20:10:51 3898 7

原创经验分布与真实分布

经验分布函数定义设(x1,x2,⋯ ,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn)是取自分布为F(x)F(x)F(x)的母体中一个简单随机子样的观测值. 若把子样观测值由小到大进行排列, 得到x(1)≤x(2)≤⋯≤x(n)x_{(1)}\leq x_{(2)}\leq\cdots\leq x_{(n)}x(1)≤x(2)≤⋯≤x(n), 这里x(1)x_{(1)}x(1)是子样观测值(x1,x2,⋯ ,xn)(x_1,x_2,\cdots,x_n)(x1,x

2021-09-11 23:48:04 3719

原创桌面鼠标右键新增新减自定义项目

考虑这样一个问题, 假如你作为一个科研工作者或者学习者, 在阅读大量文献时突然有了灵感想要及时记录下来, 此时最先想到的就是鼠标右键新建一个你最常用的本文编辑器. 文本的目的就是告诉你如何完成这一目的.首先Win +R启动命令台.输入regedit点击确定.找到以下路径计算机\HKEY_CLASSES_ROOT\Directory\Background\shell.(可以直接复制到地址栏)右键单击shell→\to→新建→\to→项. 将其命名为你想要的名字例如我的命名为Typora\m.

2021-07-05 22:08:08 282

原创 Python奇异值分解

对于一个矩阵A, 它的奇异值分解为A=UΣV−1A=U\Sigma V^{-1}A=UΣV−1UUU为左奇异矩阵, VVV是右奇异矩阵且都是正交阵, 即UU⊤=IUU^{\top}=IUU⊤=I. Σ\SigmaΣ为奇异值构成的对角阵example IA=(011110)3×2A=\begin{pmatrix}0 & 1 \\1 & 1 \\1 & 0 \\\end{pmatrix}_{3\times2}A=⎝⎛011110⎠⎞3×2UUU的计算

2021-04-24 22:42:09 3439 5

原创日常爬虫练习

打开url模拟登陆方面仍有困难(加密算法实在是太强), 因此我们得手动登陆以美食为例进入开发者工具按名称排序找到如上图所示的链接, 根据我们之前爬取京东商品的经验, getPoilist这个名字很可能就是包含商铺信息的某个东西, 点击后可以发现右侧的js代码全部都被折叠了, 说明这里面的内容美团并不想让你很完整的看到通过ctrl + shift + c 点击第一条商品信息对比一下两个信息显然这就是商品的编号了, 那么在这个页面上关于商铺的所有信息都应该..

2021-04-09 23:25:03 142

原创 Python灰色关联度

设系统行为序列X0=(x0(1),x0(2),⋯ ,x0(n))X1=(x1(1),x1(2),⋯ ,x1(n))⋯⋯Xi=(xi(1),xi(2),⋯ ,xi(n))⋯⋯Xm=(xm(1),xm(2),⋯ ,xm(n))X_0 = (x_0(1),x_0(2),\cdots,x_0(n))\\X_1 = (x_1(1),x_1(2),\cdots,x_1(n))\\\cdots \cdots \\X_i = (x_i(1),x_i(2),\cdots,x_i(n))\\\cdots \cdot

2021-04-02 22:45:05 637 1

原创 Python爬虫获取“房天下“房价数据(下)

上期文章讲到了通过requests、BeautifulSoup库搭建简单的爬虫来获取“房天下”的基础房价数据. 如果你没有看上期, 请务必先阅读上期内容(传送门), 基础房价数据中我们只获取到了[“户型”, “面积”, “楼层”, “朝向”, “建成时间”, “经纪人”, “地址”, “单价”]这些指标, 尽管这些指标对样本有了一个初步、大概的描述, 但它们仅限于描述统计, 缺少协变量无法进一步探究房价的影响因素、时空变动、组成成分等等. 所以我们还需要得到某一在售商品房周边的情况, 例如下表所示的内容

2021-04-01 19:31:05 3847 5

原创 Python线性回归

基于之前逻辑回归和梯度下降的代码进行改造新增内容优化了新建函数对象时输出内容的逻辑规则加入Lasso和Ridge回归, 即L1正则化和L2正则化（L1采用了坐标轴下降算法）加入正态分布的pdf和cdf图像绘制功能绘制分布图像的同时可以给出相应函数值对坐标轴设定不适宜和方差与均值差异较大的情况进行警告函数图像的绘制可以更方便的进行自定义了将线性回归的默认解法设定为了正规方程法, 因为这在高纬度时比简单梯度下降算法更可靠import pandas as pdimport numpy as

2021-03-20 18:54:40 339 4

原创 Python坐标轴下降算法

该算法是为了解决L1正则化下线性回归无法使用梯度下降法求解的问题先直观的来了解一下坐标轴下降算法给定二元函数f(x,y)=5x2−6xy+5yf(x,y)=5x^2-6xy+5yf(x,y)=5x2−6xy+5y如何求解该函数的最小值?(虽然很容易就能看出是0), 坐标轴下降算法可以解决这个问题先来看这个函数的图像import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dimport numpy as

2021-03-17 00:23:01 2122 7

原创逻辑回归中的梯度下降

这次使用了类的编程方法, 集成度、效率更高, 代码量更少, 使用更少的库import numpy as npimport matplotlib.pyplot as pltclass LogisticRegression: def __init__(self, learning_rate=0.001, max_iter=100, solver=None, e

2021-03-13 12:26:11 1128 5

原创 Python梯度下降法

线性(回归)模型梯度下降算法是机器学习中最常见的数值型算法之一, 本文分别从统计学和机器学习的角度来谈到梯度下降法的理论与应用.从统计学的角度来看, 线性回归模型的一般矩阵形式为:Y^n×1=E(Y∣X)=Xn×(p+1)θ(p+1)×1\hat{Y}_{n\times1}=E(Y|X)=X_{n\times(p+1)} \theta_{(p+1)\times 1} Y^n×1=E(Y∣X)=Xn×(p+1)θ(p+1)×1其中nnn是样本量, ppp通常会说是自变量(或协变量)个数, XX

2021-03-05 17:19:25 535 3

原创通过Python实现K-means算法

K-means算法K-means是机器学习中很常用的聚类算法, 关于K-means算法的数学原理, 算法, 伪代码等已经有非常丰富的文献资料, 这里就不介绍了. 直接看代码.调用以下库import numpy as np #用于抽样和生成随机数from sklearn.cluster import KMeans #sklearn自带的Kmeans算法, 用于严重本文算法结果是否正确import matplotlib.pyplot as plt #结果可视化import sys

2021-02-20 18:48:58 674 2

原创 Python爬虫获取“房天下“房价数据(上)

上期博客我们通过Python爬虫获取了京东商城的手机价格及其详细配置数据, 这期我们试着通过爬虫在房天下(房天下乌鲁木齐网址)上获取乌鲁木齐的二手房信息, 同时利用之前已经测试过的坐标查询代码来获得每一个二手房的详细位置.分析URL进入二手房的销售列表URL, 其中包括房屋的售卖标题、户型、面积、楼层情况、朝向、建成年份、售价、位置等信息. 那么本期就先从房屋的基本属性开始爬取, 关于其详细信息的爬取会在(下)中给出.进入开发者工具不难看出, 存放这些信息的标签很容易就可以找到, 那么就很容易

2021-01-28 15:24:00 6600 12

原创利用Python爬取京东商品的一种办法

前言如今的京东、淘宝、天猫等等已经不同往日了, 在用户不登录的情况下, 很难通过技术手段来大规模获取到我们关注的商品信息. 关于京东等购物网站的自动登录也有很多人在做, 但是大厂的反爬能力确实很强, 目前能查阅到的自动登录技术基本都过时了. 本文干脆跳过这一过程, 换一个思路.在不登录的情况下获取商品的编号我们登录京东的网址jd.com后可以在不登录的情况下直接搜索商品, 比如搜索手机可以看到, 其实这一页面就已经列出商品的名称, 售价, 评价量等等. 遗憾的是这个页面的内容不能直接爬取, 但是

2020-11-22 20:14:10 4392 11

原创通过Python实现目标点经纬度的自动查询

上一篇文章我们实现了对区市级shp文件的自动下载和转换，现在我们想要进一步标注出每一个地级市或区的行政中心来作为整个地区的中心，效果如下：

2020-07-12 01:32:34 3456 1

原创通过Python实现shp底图的自动下载

在做GIS的过程中，我发现很多的地图API下载下来的全国地图只精确到省一级，有时我们需要的是县市级精度，所以本文通过遍历下载各个省份的县市json文件然后再组合起来。话不多说，直接上代码：实现如下代码，你应该保证你的解释器含有geopandas、requests、json、matplotlib、pandas库。首先建立单一省份json文件的下载，区划代码中包含_full的表示它包括了县市的边界#######################单独下载部分######################impo

2020-07-05 02:02:03 1607 1

原创广义线性模型之泊松回归

最近在研究GWPR,参考了很多广义线性模型,特别是泊松回归的相关内容,知识琐碎且繁杂,做个笔记。泊松回归定义泊松回归(Poisson regression)是用来为计数资料和列联表建模的一种回归分析.泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模.泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型.需要注意的是,对数线性模型和泊松回归模型并不完全相同,通常对数线性回归的响应变量是连续的,而泊松回归则是离散的.再给出泊松回归模型的形式之前,我们先考虑几个

2020-05-18 11:58:07 12068 4

本人博客<分位数回归的求解>一文中的原始数据

本人博客<通过R语言且只用基础package来制作一个小游戏>一文中的源代码

三种哈希算法的函数: sha256 md5 sha1

非参数回归中鲑鱼身体长度与其皮肤光亮程度的关系数据集(fish.txt)

空空如也