自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 在Pycharm中换源更新所有已安装的包

换源更新所有已安装的包本人个人认为豆瓣源最快不废话,上代码# 换豆瓣源更新所有已安装的包import oscomand_list = 'pip list'comand_install = 'pip install -U {} -i https://pypi.douban.com/simple --trusted-host pypi.douban.com'data = os.popen(comand_list)data_list = data.readlines() # 读取命令行的输出到一

2021-05-29 16:44:48 41245 6

原创 进程

文章目录进程一.什么是多任务二、实现多任务的方式:示例1 一般情况下执行唱歌、跳舞示例2 单线程执行函数示例3 多线程执行函数示例4多线程执行唱歌、跳舞1示例5多线程执行唱歌、跳舞2三、什么是进程1.什么是进程?2.进程的状态3.单任务现象4.启动进程实现多任务5.父子进程的先后顺序6.多个进程不能共享全局变量7.启动多个子进程8.多进程文件拷贝9.封装进程对象10.进程间的通信进程一.什么是多任务现代的操作系统(Windows,Mac OS X,Linux,UNIX等)都支持“多任务”。什么叫做多

2021-05-25 14:53:16 44985 7

原创 如何在pycharm格式化请求头信息

如何在pycharm格式化请求头信息1.以格式化文档形式存放请求头信息。2.使用快捷键Ctrl + r,(.+): (.+),替换’$1’:’$2’, 点击Replace all。3.第2步,完成效果如下:4.去掉文档字符串的引号,使用快捷键Ctrl + Alt + L,让它变的更符合PEP8标准。...

2021-05-20 14:06:28 50724 3

原创 如何在pycharm删除多余的空行

如何在pycharm删除多余的空行示例1.使用快捷键Ctrl + r,输入^\n,替换为空, 点击Replace all。2.完成效果如下:3. 使用快捷键Ctrl + Alt + L,让它变的更符合PEP8标准。

2021-05-20 14:02:32 54363 8

原创 爬虫 第三讲 数据解析

爬虫 第三讲 数据解析一.正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。应用表单验证(例如 : 手机号、邮箱、身份证… )爬虫普通字符字母、数字、汉字、下划线、以及没有特殊定义的符号,都是"普通字符"。正则表达式中的普通字符,在匹配的时候,只匹配与自身相同的一个字符。例如:表达式c,在匹配字符串abcde时,匹配结果是:成功;匹配到的内容是c;匹配到的

2021-05-19 12:33:52 51434 3

原创 爬虫 第九讲 反爬的策略

一、JS反爬1.环境搭建安装node.js下载网站:https://nodejs.org/en/download/参考网站:https://blog.csdn.net/qq_41465646/article/details/107656044安装js代码调试工具发条js代码调试工具安装 PyExecJs模块pip install PyExecJs -i https://pypi.douban.com/simple2.JS中常见的算法• 线性散列MD5算法• 对称加密DES/AES算法

2021-04-29 23:32:44 50998

原创 爬虫 第八讲 移动端数据抓取

爬虫 第八讲 移动端数据抓取一、移动端环境搭建(一)、移动端数据简介1.移动端爬取数据的背景随机互联网的发展,数据不仅仅只是存在于PC端。移动端的数据在这几年的占比以及势头发展趋势呈现几何倍数的增长。对于做数据分析、用户画像、市场调研来说仅仅参考PC端的数据是远远不够的。那么于此同时移动的数据就显得尤为的重要。2.获取移动端数据的作用?• 数据分析• 用户画像• 商业竞争• 统计系统3.UIAutomator的介绍UIAutomator是google提供的用来做安卓自动化测试的一个ja

2021-04-29 22:27:54 50822

原创 爬虫 第七讲 MongoDB

爬虫 第七讲 MongoDBMongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引SQL和NoSQL的主要区别• 在SQL中层级关系:数据库->表->数据• 在NoSQL中是:数据库->集合->数据Mongo

2021-04-29 21:44:50 50256

原创 爬虫 第六讲 Scrapy框架

爬虫 第六讲 Scrapy框架一、Scrapy框架初级Scrapy介绍什么是ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度。http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html异步和非阻塞的区别异步:调用在发出之后,这个调用就直接返回,不管有无结果非阻塞:关注的是程序在

2021-04-29 20:56:06 39687 1

原创 爬虫 第五讲 多线程爬虫

爬虫 第五讲 多线程爬虫一、多线程1.多线程基本介绍有很多的场景中的事情是同时进行的,比如开车的时候 手和脚共同来驾驶汽车,再比如唱歌跳舞也是同时进行的。程序中模拟多任务import timedef sing(): for i in range(3): print("正在唱歌...%d"%i) time.sleep(1)def dance(): for i in range(3): print("正在跳舞...%d"%i)

2021-04-29 15:57:48 48879 4

原创 爬虫 第四讲 js2py和selenium

爬虫 第四讲 selenium一、selenium的使用1.爬虫和反爬虫的斗争爬虫建议尽量减少请求次数保存获取到的HTML,供查错和重复使用关注网站的所有类型的页面H5页面APP多伪装代理IP随机请求头利用多线程分布式在不被发现的情况下我们尽可能的提高速度2.ajax基本介绍动态了解HTML技术JS是网络上最常用的脚本语言,它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页jQueryjQuery是一个快速、简介的JavaS

2021-04-29 15:24:13 52422 1

原创 爬虫 第二讲 urllib模块和requests模块

一、urllib模块1.什么是urllib模块?python内置的网络请求模块2.urllib.request模块python2 :urllib2、urllibpython3 :把urllib和urllib2合并3.常用的方法urllib.request.urlopen(“网址”) 作用 :向网站发起一个请求并获取响应字节流 = response.read()字符串 = response.read().decode(“utf-8”)urllib.request.Request(“网

2021-04-20 09:51:52 108206 1

原创 爬虫 第一讲 爬虫前导知识、爬虫简介

一、爬虫前导知识1.端口1、打开命令窗口,输入命令:netstat -ano 查找所有运行的端口2、查看被占用端口对应的 PID输入命令:netstat -aon|findstr “3306”回车执行该命令,最后一位数字就是 PID, 这里是 1968。3、查看指定 PID 的进程继续输入命令:tasklist|findstr “1968”查看是哪个进程或者程序占用了 3306 端口,结果是:mysqld.exe。4.结束进程强制(/F参数)杀死 pid 为 1968 的所有进..

2021-04-16 16:51:33 51064 2

原创 线性回归和矩阵运算

线性回归和矩阵运算和矩阵运算一、线性回归1.线性回归分析:回忆回归问题的判定目标值是连续的2.回归问题能干什么?1.房价预测2.贷款额度房子数据:编号平方米价格160126272151.2375157.5480168583174.3687180790192.2893194from matplotlib import pyplot as pltplt.figure(figsize=

2021-04-16 12:15:58 19937

原创 机器学习 第四讲 决策树和随机森林

决策树和随机森林一、认识决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。比如:你母亲要给你介绍男朋友,是这么来对话的: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。二、信息论基础-银行贷款分析银行贷款数据你如何去划分是否能得到贷款?决策树的实际划分g(D

2021-04-16 10:50:25 19342 1

原创 机器学习 第三讲 机器学习基础、机器学习算法(K-近邻算法、朴素贝叶斯算法)

第二讲 机器学习基础机器学习开发流程机器学习模型是什么机器学习算法分类明确几点问题算法是核心,数据和计算是基础找准定位大部分复杂模型的算法设计都是算法工程师在做,而我们> 分析很多的数据> 分析具体的业务> 应用常见的算法> 特征工程、调参数、优化我们应该怎么做1.学会分析问题,使用机器学习算法的目的,想要算法完成何种任务2.掌握算法基本思想,学会对问题用相应的算法解决3.学会利用库或者框架解决问题机器学习算法的判别依据这两组数据的区别?数据类

2021-04-07 17:12:30 27743

原创 机器学习 第二讲 Scikit-learn

五、数据的特征工程1.特征工程是什么?特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性2.特征工程的意义?直接影响预测结果六、Scikit-learn库介绍> Python语言的机器学习工具> Scikit-learn包括许多知名的机器学习算法的实现> Scikit-learn文档完善,容易上手,丰富的API数据的特征抽取from sklearn.feature_extraction.text import Coun

2021-04-04 10:06:08 26865 2

原创 python学到死---第十一讲到第十五讲 高级编程、面向对象、模块、异常、文件

一、高级编程1.可迭代对象我们对list、tuple、dict、set、str等类型的数据使用for…in…的循环语法从其中依次拿到数据进行使用,这个过程称为遍历,也叫迭代。把可以通过for…in…这类语句迭代读取一条数据供我们使用的对象称之为可迭代对象(Iterable)。2.推导式推导式分为: 列表推导式、字典推导式、集合推导式等。在这里我们主要说其中一种也是用的最多列表推导式列表推导式是Python构建列表(list)的一种快捷方式,可以使用简洁的代码就创建出一个列表简单理解就是.

2021-03-29 15:30:08 30505 1

原创 机器学习 第一讲 机器学习概述

一、机器学习与应用1.“人工智能之父”–艾伦.图灵图灵测试(1950)2.人工智能的知识图谱二、AI,ML,DL的关系1.机器学习是实现人工智能的一种方法,深度学习是机器学习一个分支2.机器学习领域自然语言处理图像处理传统预测学习完之后可以干什么?图像处理图像识别图像处理人脸识别3.机器学习库和框架4.什么是机器学习?机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测5.为什么需要机器学习?5.1 解放生产力,智能客服5.

2021-03-28 20:16:02 31485

原创 数据分析 第八讲 Seaborn

数据分析 第八讲 Seaborn一、Seaborn介绍Seaborn什么是Seaborn1.Python中的一个制图工具库,可以制作出吸引人的、信息量大的统计图2.在matplotlib上构建,支持numpy和pandas的数据结构可视化3.Seaborn比Matplotlib更简洁易用Seaborn网站:http://seaborn.pydata.org/4.win7系统安装seabornpip install seaborn -i https://pypi.douban.com/s

2021-03-28 16:07:24 31575

原创 UserWarning: This figure includes Axes that are not compatible with tight_layout, so results might b

UserWarning: This figure includes Axes that are not compatible with tight_layout, so results might be incorrect.self.figure.tight_layout()解决办法:File > Settings > Tools > Python Scientific > show plots in tool window 取消勾选的show plots in tool

2021-03-27 17:14:28 34653 2

原创 数据分析 第七讲 pandas练习 数据的合并、分组聚合、时间序列、pandas绘图

数据分析 第七讲 pandas练习pandas-DataFrame练习1对于这一组电影数据,如果我们想runtime(电影时长)的分布情况,应该如何呈现数据?数据分析练习2全球食品数据分析步骤分析1.数据清洗2.获取国家列表3.对各个国家进行统计4.保存统计结果...

2021-03-27 15:20:11 34264 4

原创 数据分析 第六讲 pandas

数据分析第六讲 pandas一、pandas介绍1.学习pandas的作用numpy已经能够帮助我们处理数据,能够结合matplotlib解决我们数据分析的问题,那么pandas学习的目的在什么地方呢?numpy能够帮我们处理数值型数据,但是这还不够。很多时候,我们的数据除了数值之外,还有字符串,还有时间序列等2.pandas是什么?pandas是基于NumPy 的一种工具,提供了高性能矩阵的运算,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提

2021-03-23 21:26:10 35196 1

原创 数据分析 第五讲 numpy

数据分析第五讲 numpy + pandas一、numpy中的数组操作1、numpy中数值的修改t = np.arange(20).reshape(4,5)t[:,0:2] = 0# numpy中数值的修改import numpy as npt = np.arange(20)print(t)'[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19]'t1 = t.reshape(4, 5)print(t1)'''

2021-03-22 10:22:42 35774

原创 数据分析 第四讲 numpy学习+numpy读取本地数据和索引

数据分析第四讲 numpy学习+numpy读取本地数据一、numpy数组1.numpy介绍numpy(numerical python)一个在Python中做科学计算的基础库,重在数值计算,也是大部分python科学计算库的基础库,多用于在大型、多维数组上执行数值运算scipy1.在numpy库的基础上增加了众多的数学、科学及工程常用的库函数2.线性代数、图像处理2.numpy基础1.创建数组np.array([1,2,3,4,5,6])np.array(range(1,7))

2021-03-21 14:33:55 35614

原创 数据分析 第三讲 matplotlib常用统计图

数据分析第三讲 matplotlib常用统计图1.绘制散点图使用的方法:scatter(x,y)假设通过爬虫你获取到了长沙2018年10,11月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间变化的某种规律a = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,1

2021-03-19 15:20:28 36921 1

原创 python学到死---第八讲到第十讲 函数

函数一. 函数简介函数也是一个对象函数用来保存一些可执行的代码,并且可以在需要时,对这些语句进行多次调用语法def 函数名([形参1,形参2,形参3…]):     代码块注意:函数名必须符合标识符的规范(可以包含字母、数字、下划线_,但是不能以数字开头)print是函数对象 print()是调用函数示例# 函数简介def fun(): print("这是我的第一个函数") fun()# 函数对

2021-03-18 19:32:49 37557 1

原创 数据分析 第二讲 matplotlib折线图、绘制图形

数据分析第二讲 matplotlib折线图1、matplotlib介绍Matplotlib 是一个 Python 的 2D绘图库,最流行的Python底层绘图库,主要做数据可视化图标1.能将数据进行可视化,更直观的2.使数据更加直观,更具说服力2、matplotlib简单使用假设一天中每隔两个小时的气温分别是[15,13,14.5,17,20,25,26,26,27,22,18,15]2.1 matplotlib安装:pip3 install matplotlib2.2 写

2021-03-17 14:40:25 38926 2

原创 数据分析 第一讲 Python语言及工作环境准备、本地数据的采集与操作

第一讲 Python语言及工作环境准备一、数据分析1 数据分析的基本概念1.用适当的统计分析方法对收集来的大量数据进行分析2.提取有用信息和形成结论3.对数据加以详细研究和概况总结目的:从数据中挖掘规则、验证猜想、进行预测2 数据分析的流程明确目的(提出问题)->准备数据->数据解析->分析数据->获得结论->成果可视化3 为什么要学习数据分析1、有岗位需要2、是机器学习的基础3、数据科学的基础4 环境部署环境部署认识jupyt

2021-03-16 23:29:08 39025 3

原创 如何在pycharm删除粘贴过来的代码行号

1.使用快捷键 Ctrl + r :2.输入^\d+. 匹配到三位数开头,点击Replace all2.输入^ \d+. 匹配到两位数开头,点击Replace all(注意是^空格\d+)3.输入^ \d+. 匹配到两位数开头,点击Replace all(注意是^空格空格\d+)此时所有的行号都被删除了!拿走,不谢!!!...

2021-03-15 11:19:58 41478 3

原创 InsecureRequestWarning: Unverified HTTPS request is being made to host ‘api.ai.qq.com‘. Adding

1020: InsecureRequestWarning: Unverified HTTPS request is being made to host ‘api.ai.qq.com’. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warningsInsecureRequestWarning,解决办法:

2021-03-15 10:50:05 40471

原创 解决ImportError: cannot import name ‘AipOcr‘ from ‘aip‘

报错 ImportError: cannot import name ‘AipOcr’ from ‘aip’一、卸载相关的aippip uninstall aippip uninstall baidu-aip二、重新安装baidu-aippip install baidu-aip -i https://pypi.douban.com/simple --trusted-host pypi.douban.com### 三、再运行程序...

2021-03-15 10:01:22 40893 2

原创 python学到死---第三讲到第七讲 Python基础(变量、运算符)、基本数据类型(字符串、列表、元组、集合)、流程控制(条件判断、循环控制、循环嵌套))

python基础一.python语法1 几个概念1.1 表达式表达式,是由数字、算符、数字分组符号(括号)、自由变量和约束变量等以能求得数值的有意义排列方法所得的组合表达式特点:一般仅计算一些结果,不会对程序产生实质性的影响在交互模式中输入一个表达式,解释器会自动将表达式的结果输出示例a = 1b = 2a + b1 < 2print('yangyu changes the world')1.2 语句一个语法上自成体系的单位,由一个词或句法上有关连的一组词构成

2021-03-14 10:50:33 40448 3

原创 python学到死---第二讲 python基础、python3.6安装、pip工具的使用、pycharm简介、安装、配置

python基础1.python语言概述1.1 python语言的基本概念python是一种能兼具简单与功能强大的编程语言,专注于解决问题而不拘泥于语法与结构。百度百科介绍如下:Python由荷兰数学和计算机科学研究学会的Guido van Rossum 于1990 年代初设计,作为一门叫做ABC语言的替代品。 Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言, 随着版本的不断更

2021-03-12 16:28:34 40573 3

原创 python学到死---第一讲 计算机基本概述、交互方式、文本文件和字符集、进制、数据间转换、环境变量

1. 计算机基本概念1.1 计算机是什么?“计算机俗称电脑,是能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。既可以进行数值计算,又可以进行逻辑计算,还具有存储记忆功能。计算机可分为超级计算机、工业控制计算机、网络计算机、个人计算机、嵌入式计算机五类。主要由硬件系统和软件系统组成。”计算机的特点:数值计算、逻辑计算、存储记忆功能总结 : 能够按照程序运行、自动、高速处理数据的现代化智能电子设备1.2 计算机的组成硬件:硬件(英文名Hardware)是计算机硬件的简称(中国大陆.

2021-03-12 12:00:44 39696 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除