Sunstar0708-CSDN博客

原创 Xpath中关于//后[1]的索引问题详解

Xpath中关于//的索引问题在使用Xpath进行网络爬虫时，一直看到资料上写response.xpath('//a[@class="xxx"][1]'/@href)这样的形式，经过测试发现不加[1]与加了[1]的结果是一模一样的。WTF？？经过网上查阅其他资料后发现，原来[1]与不加[1]是有本质区别的，这个[1]代表你要找到 A 在家中排行老二. 而不是所有家庭合起来的第二个。例如：我自己找了之前写html的网页代码，在上下两部分option之间各加了一个span标签，此时再通过xpath

2020-11-10 15:18:55 1862 1

原创 Acwing算法基础课第一章基础算法（2）课堂笔记

第一章基础算法（二）一、高精度A + B 长度在10^6左右A - B 长度在10^6左右A * b A的长度 <= 10^6 b的大小 <= 10^9A / b 求商和余数1、存储将大整数的每一位存入数组，数组的0下标存大整数的个位（运算时可能需要进位，数组在末尾补上一个数较为容易）。2、运算1) A + B模板#include <iostream>#include <vector>#include <st

2020-11-01 13:59:40 437

原创 Acwing算法基础课第一章基础算法（1）课堂笔记

第一章基础算法（一）一、排序1、快速排序主要思想——分治确定分界数：q[l] q[(l+r)/2] q[r] 随机取点**调整区间：**使得第一个区间里面的数都小于等于x，第二个区间里所有的数都大于等于x（考察重点：如何优雅的把区间一分为二）递归处理左右两区间划分区间（暴力）创建两个空数组 a[] b[]扫描整个区间 q[l] ~ q[r] 如果q[i] <= x，则把x插入a数组中如果q[i

2020-10-29 23:36:23 584

原创 matplotlib中gridspec函数的使用

import numpy as npimport matplotlibmatplotlib.use(“TkAgg”)import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dimport matplotlib.gridspec as gridspecplt.figure()gs=gridspec.GridSpec(3,3)#分为3行3列ax1=plt.subplot(gs[0,:])ax1=plt.sub

2020-10-17 20:43:48 1016

转载 sklearn中特征提取方法基础知识

特征提取方法基础知识，将不同类型的数据转换成特征向量方便机器学习算法研究目录分类变量特征提取：分类数据的独热编码方法，并用scikit-learn的DictVectorizer类实现机器学习问题中常见的文档特征向量:词库模型将文档转换成词块的频率构成的特征向量，用CountVectorizer类计算基本单词频次的二进制特征向量。通过停用词过滤(stop_word)，词根还原，词形还原(wordNetLemmatizer)进一步优化特征向量，加入TF-IDF(TfidfVe.

2020-10-15 20:05:00 2346

转载 sklearn中fit_transform，transform和fit函数的区别和作用详解

写在前面fit和transform没有任何关系，仅仅是数据处理的两个不同环节，之所以出来fit_transform这个函数名，仅仅是为了写代码方便，会高效一点。sklearn里的封装好的各种算法使用前都要fit，fit相对于整个代码而言，为后续API服务。fit之后，然后调用各种API方法，transform只是其中一个API方法，所以当你调用transform之外的方法，也必须要先fit。fit原义指的是安装、使适合的意思，其实有点train的含义，但是和train不同的是，它并不是一个

2020-10-14 16:13:41 2823

原创在markdown中插入希腊字母

例如想要输入λ\lambdaλ，则只需要键入$\lambda$，即可实现，其他希腊字母的编码如图所示。

2020-10-14 13:44:33 17034

原创决策树提升算法：AdaBoost算法

AdaBoost提升算法AdaBoost原理sklearn.ensemble 中包括了增强算法AdaBoostAdaBoost 的核心思想是用反复修改的数据（主要是修正数据的权重）来训练一系列的弱学习器(一个弱学习器模型仅仅比随机猜测好一点, 比如一个简单的决策树),由这些弱学习器的预测结果通过加权投票(或加权求和)的方式组合, 得到我们最终的预测结果。在每一次所谓的提升（boosting）迭代中，数据的修改由应用于每一个训练样本的（新）的权重 , , …, 组成（即修改每一个训练样本应用于新一轮

2020-10-11 11:09:36 906 1

原创 VIF 多重共线性膨胀因子

方差膨胀系数(variance inflation factor，VIF)是衡量多元线性回归模型中复 (多重)共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。多重共线性是指自变量之间存在线性相关关系，即一个自变量可以是其他一个或几个自变量的线性组合。若存在多重共线性，计算自变量的偏回归系数时矩阵不可逆。其表现主要有：整个模型的方差分析结果与各个自变量的回归系数的检验结果不一致，专业判断有统计学意义的自变量检验结果却无意义，自变量的系数或符号与实际情况严重不符等

2020-10-09 15:25:42 21749 2

转载 Python中scipy库的pearsonr(x, y)的使用

函数：pearsonr(x,y)功能：计算特征与目标变量之间的相关度参数说明：输入：x为特征，y为目标变量.输出：r：相关系数 [-1，1]之间，p-value: p值。注： p值越小，表示相关系数越显著，一般p值在500个样本以上时有较高的可靠性。python实现import numpy as npfrom scipy.stats import pearsonrimport randomnp.random.seed(0)size=300x=np.random.normal

2020-10-08 19:25:15 8654

转载正则化方法：L1和L2 regularization、数据集扩增、dropout

正则化方法：防止过拟合，提高泛化能力在训练数据不够多时，或者overtraining时，常常会导致overfitting（过拟合）。其直观的表现如下图所示，随着训练过程的进行，模型复杂度增加，在training data上的error渐渐减小，但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集，对训练集外的数据却不work。为了防止overfitting，可以用的方法有很多，下文就将以此展开。有一个概念需要先说明，在机器学习算法中，我们常常将原始数据集分为三部分：traini

2020-10-01 21:42:52 151

原创对于《机器学习实战》中决策树的ID3算法详细说明

from math import logimport operatordef createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] labels = ['no surfacing', 'flippers'] # 特征值

2020-10-01 08:40:12 500 2

原创 Python中报SyntaxError: cannot assign to operator错误

SyntaxError: cannot assign to operator变量名不能带上运算符

2020-09-30 20:07:43 34307 3

原创《机器学习实战》基于朴素贝叶斯算法实现垃圾邮件分类

import randomimport sysimport numpy as npimport pandas as pdfrom pandas import Series, DataFrameimport redef textParse(bigString): listOfTokens = re.split(r'\W*', bigString) # 返回列表 return [tok.lower() for tok in listOfTokens if len(tok) &g

2020-09-30 12:51:13 1478 3

原创《机器学习实战》基于k-近邻算法实现约会对象的分类

代码实现如图，详细解释都在注释中import numpy as np# 导入运算符模块import operatordef createDataSet(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) # 创建数据集 labels = ['A', 'A', 'B', 'B'] return group, labelsdef classify0(inX, dataSet, labels,

2020-09-29 19:14:02 183

转载 Jupyter notebook中设置pands输出完全显示

如何设置jupyter notebook的显示，完全显示输出结果的行或者列？这里讨论的是pandas中dataframe对象的显示，因此需要首先引入pandas库，使用import pandas as pd，然后使用下面的语句，进行输出显示的调整：1.显示所有列pd.set_option('display.max_columns', None)2.显示1000列pd.set_option(‘max_columns’,1000) 3.显示所有行pd.set_option('display.

2020-09-28 19:58:36 2406

原创 Matplotlib基础使用

Matplotlib 的使用matplotlib更多的图形样式图形样式一、基础绘图01from matplotlib import pyplot as pltx = range(2, 26, 2)y = [15, 13, 14.5, 17, 20, 25, 26, 26, 24, 22, 18, 15]# 设置图片大小fig = plt.figure(figsize=(15, 8), dpi=80)# 绘图plt.plot(x, y, linewidth = 5) # linew

2020-09-27 21:01:27 138

原创 pymysql远程连接服务器数据库

这次做数据库实习的项目，最后需要运行本地的爬虫将爬取的数据存到云服务器上，于是需要用pymysql进行数据库连接具体操作和一些注意事项在终端上我们需要先打开mysql数据库，命令如下：mysql -u username -p其中username是用户名操作数据库 use mysql查看用户权限select * from user \G其中，若hostname所对应的是 % ，则代表开放连接（也就允许外部访问）若hostname不是 % ，则对用户进行授权，命令为：gr.

2020-09-27 16:10:17 1903

原创 Numpy基础用法介绍

Numpy使用什么是Numpy 一个在Python中做科学计算的基础库，重在数值计算，也是大部分Python科学计算库的基础库，多用于在大型、多维数组上执行数值计算。Numpy数组的创建import numpy as npimport random# 使用numpy生成数组p1 = np.array([1, 2, 3])print(p1)print(type(p1))t2 = np.array(range(10))print(t2)t3 = np.arange(0, 10,

2020-09-27 16:03:58 592

Sunstar