自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (2)
  • 收藏
  • 关注

转载 python中jieba库的安装

python中jieba库的安装:https://blog.csdn.net/qq_43531587/article/details/105485173方法一:官网下载jieba库,把下载好的jieba库进行解压,找到里面的jieba文件夹,把他放入python的Lib\site-packages目录下。jieba下载地址: https://pypi.org/project/jieba/#files为什么把下载好的jieba文件放入python的Lib\site-packages目录下?因为我们

2020-09-29 17:33:07 1040

原创 Requests深入

Requests深入一、发送POST请求1.哪些地方我们会用到POST请求:1)登录注册( POST 比 GET 更安全)2)需要传输大文本内容的时候( POST 请求对数据长度没有要求)2.用法:response = requests.post(“http://www.baidu.com/”, data = data,headers=headers)data 的形式:字典二、使用代理1.为什么爬虫需要使用代理?让服务器以为不是同一个客户端在请求防止我们的真实地址被泄露,防止被追究2

2020-08-24 11:12:11 305

原创 Requests的简单使用

Requests的简单使用Python的标准库中urllib提供了一系列用于操作URL的功能。1.为什么要学习requests,而不是urllib?1)requests的底层实现就是urllib2)requests在python2 和python3中通用,方法完全一样3)requests简单易用4)requests能够自动帮助我们解压(gzip)压缩的等网页内容2.发送简单的请求:requests的作用:发送网络请求,返回响应数据response = requests.get(url)获

2020-08-19 21:51:03 465

原创 HTTP和HTTPS

HTTP和HTTPS复习1、HTTP和HTTPSHTTP协议(超文本传输协议):是一种发布和接收 HTML页面的方法。默认端口为80。HTTPS:简单讲是HTTP的安全版,在HTTP下加入SSL层。默认端口为443。SSL( 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。HTTPS比HTTP更安全,但是性能更低2、浏览器发送HTTP请求的过程1)当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HT

2020-08-19 16:19:10 327

原创 爬虫基础知识

爬虫基础知识1、为什么要学习爬虫大数据时代,要进行数据分析,首先要有数据源。而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集,去掉很多无关数据。2、爬虫的概念网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上,爬虫都能够做。3、爬虫的分类通用爬虫 :通常指搜索引擎的爬虫聚焦爬虫 :针对特定网站的爬虫聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证

2020-08-19 15:31:38 282

原创 pandas

pandas一、什么是pandas?Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。一个强大的分析和操作大型结构化数据集所需的工具集基础是NumPy,提供了高性能矩阵的运算提供了大量能够快速便捷地处理数据的函数和方法应用于数据挖掘,数据分析提供数据清洗功能二

2020-08-18 20:46:22 178

原创 str与bytes

bytes类型:二进制。互联网上数据的都是以二进制的方式传输的。str类型 :unicode的呈现形式str与bytes如何转化:str 使用encode方法转化为 bytesbytes通过decode转化为str编码方式解码方式必须一样,否则就会出现乱码Unicode UTF8 ASCII的补充:字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等字符集(Character set)是多个字符的集合字符集包括:ASCII字符集、GB2312字符集、G

2020-08-12 18:33:00 2416

原创 HTTP和HTTPS复习内容

HTTP和HTTPS复习内容1、HTTP和HTTPSHTTP协议(超文本传输协议):是一种发布和接收 HTML页面的方法。默认端口为80。HTTPS:简单讲是HTTP的安全版,在HTTP下加入SSL层。默认端口为443。SSL( 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。HTTPS比HTTP更安全,但是性能更低2、浏览器发送HTTP请求的过程1)当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送

2020-08-12 17:56:28 176

原创 爬虫基础知识

爬虫基础知识1、为什么要学习爬虫大数据时代,要进行数据分析,首先要有数据源。而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集,去掉很多无关数据。2、爬虫的概念网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上,爬虫都能够做。3、爬虫的分类通用爬虫 :通常指搜索引擎的爬虫聚焦爬虫 :针对特定网站的爬虫4、爬虫的工作流程通用搜索引擎(Search Eng

2020-08-12 16:27:35 2306

原创 CSS

CSS1、css基本语法及页面引用css基本语法css的定义方法是:选择器 { 属性:值; 属性:值; 属性:值;}选择器是将样式和页面元素关联起来的名称,属性是希望设置的样式属性每个属性有一个或多个值。代码示例:div{ font-size:25px; width:100px; height:100px; color:red}css页面引入方法:外联式:通过link标签,链接到外部样式表到页面中。----写入head中<link rel="styl

2020-08-12 11:08:01 226

原创 html

HTML1、html概述和基本结构html概述:HTML是 HyperText Mark-up Language 的首字母简写,意思是超文本标记语言,超文本指的是超链接,标记指的是标签,是一种用来制作网页的语言。这种语言由一个个的标签组成,用这种语言制作的文件保存的是一个文本文件,文件的扩展名为html或者htm。一个html文件就是一个网页,html文件用编辑器打开显示的是文本,可以用文本的方式编辑它。如果用浏览器打开,浏览器会按照标签描述内容将文件渲染成网页,显示的网页可以从一个网页链接跳转到另外

2020-08-09 21:42:52 152

原创 numpy

numpy1、什么是numpy一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算2、numpy基础0)ndarray的随机创建np.rand(d0,d1)----创建d0*d1维度均匀分布的随机数组,浮点数,范围从0-1np.randn(d0,d1)----创建d0*dn维度的标准正态分布随机数,浮点数,平均数0,标准差1np.randint(low,high,(shape))----从给定上下限范围内选区随机数

2020-08-01 16:20:58 323

原创 matplotlib

matplotlib1、为什么要学习matplotlib1)能将数据进行可视化,更直观的呈现2)使数据更加客观、更具说服力2、什么是matplotlibmatplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建3、matplotlib基本要点包:from matlotlib import pyplot as plt设置图形大小:plt.figure(figsize=(a, b), dpi=dpi)其中:figsize 设置图

2020-08-01 09:08:24 600

原创 数据分析

数据分析1、为什么要学习数据分析1)有岗位需求2)是python数据科学的基础3)是机器学习课程的基础2、什么是数据分析数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们作出判断,以便采取适当行动。3、数据分析的流程数据收集:本地数据或者网络数据的采集与操作.数据处理:数据的规整,按照某种格式进行整合存储。数据分析:数据的科学计算,使用相关数据工具进行分析。数据展现:数据可视化,使用相关工具对分析出的数据进行展示。4、数据分析的工具SAS:SAS(STATISTICAL

2020-07-30 16:51:15 145

原创 Anaconda的安装和配置

Anaconda的安装和配置1.下载Anaconda官网:https://www.anaconda.com/products/individual国内下载速度可能会慢,也可到:清华大学开源软件镜像站https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载与自己电脑操作系统、操作系统位数及Python版本对应的安装包。2.安装双击下载好的.exe文件,一路Next注:安装位置尽量选择默认C盘。3.环境配置步骤:我的

2020-07-30 14:03:22 850

原创 非监督学习

非监督学习主要方法:k-meansk-means步骤:1.随机设置K个特征空间内的点作为初始的聚类中心2.对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别3.对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)4.如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程(以新中心点作为聚类中心)k-means API:sklearn.cluster.KMeans语法:sklearn.cluster.KMeans(n_clusters=

2020-07-29 10:48:30 299

原创 分类算法-逻辑回归

分类算法-逻辑回归逻辑回归是解决二分类问题的利器输入:sigmoid函数公式:输出:[0,1]区间的概率值,默认0.5作为阀值注:g(z)为sigmoid函数,z为回归的值逻辑回归的损失函数、优化与线性回归原理相同,但由于是分类问题,损失函数不一样,只能通过梯度下降求解sklearn逻辑回归API:sklearn.linear_model.LogisticRegression语法:sklearn.linear_model.LogisticRegression(penalty

2020-07-29 09:46:35 2169

原创 岭回归与sklearn模型的保存与加载

岭回归与sklearn模型的保存与加载岭回归带有正则化的线性回归–岭回归API:sklearn.linear_model.Ridge语法:sklearn.linear_model.Ridge(alpha=1.0)具有L2正则化的线性最小二乘法alpha:正则化力度coef_:回归系数正则化程度的变化,对结果的影响:正则化力度越大,权重越接近于0Ridge优点:岭回归得到的回归系数更符合实际,更可靠。另外,能让估计参数的波动范围变小,变的更稳定。在存在病态数据(异常数据)偏多的研究中有

2020-07-28 16:57:48 269

原创 过拟合与欠拟合

过拟合与欠拟合过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合:一个假设在训练数据上不能获得更好的拟合, 但是在训练数据外的数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)欠拟合原因以及解决办法原因:学习到数据的特征过少解决办法:增加数据的特征数量过拟合原因以及解决办法原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试

2020-07-28 16:14:21 197

原创 回归算法-线性回归分析

回归算法-线性回归分析线性关系模型----一个通过属性的线性组合来进行预测的函数:线性回归:通过一个或者多个自变量与因变量之间进行建模的回归分析。其中特点为一个或多个回归系数的模型参数的线性组合一元线性回归:涉及到的变量只有一个多元线性回归:涉及到的变量两个或两个以上损失函数(误差大小)如何去求模型当中的W,使得损失(误差)最小?1)最小二乘法之正规方程(只适用于简单的线性回归)2)最小二乘法之梯度下降sklearn线性回归正规方程、梯度下降API:sklearn.lin

2020-07-28 11:02:55 638

转载 Python numpy库数据量太大出现Memory Error问题的解决方法汇总

转载:https://blog.csdn.net/qq_41780295/article/details/89677453

2020-07-25 10:26:20 4246

facebook-v-predicting-check-ins_2.zip

数据来源于https://www.kaggle.com/c/facebook-v-predicting-check-ins ,数据适用于k近邻算法实例-预测入住位置,已压缩打包,需要的可下载。

2020-07-26

instacart-market-basket-analysis.zip

探究:用户对物品类别的喜好细分降维案例需要的.csv数据。products.csv、 order_products__prior.csv、orders.csv、aisles.csv等几个案例需要的数据都包含。

2020-07-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除