自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 爬取同花顺HS300成分股的预测收益及增长率

import requestsfrom bs4 import BeautifulSoupimport reimport jsonimport numpy as npimport timeimport tushare as tsimport pandas as pddf1 = ts.get_hs300s()#print(df)ss=df1.head(10)code = ss....

2019-04-26 14:41:43 1133 3

原创 pandas_datareader.data 获取雅虎财经股票数据并以csv格式存放

pandas_datareader.data 获取雅虎财经股票数据并以csv格式存放import numpy as npimport pandas as pdimport pandas_datareader.data as webimport datetime'''pd.read_csv test'''df_csvsave = web.DataReader("600018.SS",...

2019-03-14 23:02:08 4713 4

原创 量化交易-获取5日,10日,20日均线数据

#获取5日,10日,20日均线数据import tushare as tsimport talibfrom matplotlib import pyplot as plt#通过tushare获取股票信息df=ts.get_k_data('601888',start='2018-01-30',end='2018-10-30') #以股票代码[601888]中国国旅为例,提取从2018-...

2018-11-06 14:34:48 8947 1

原创 selenium自动翻页抓取保监会数据

一、背景:在抓取保监会官网产品检索页面下的所属公司,产品名称,备案日期,险种时,页面较多需要翻页抓取,经分析,在点击下一页,网页的url没有任何变化,只是用js去加载了新的数据,然后动态地改变了table里面的数据。这可和本菜以前爬的页面可不一样,所以这次要想办法模拟翻页,然后重新读取新的html代码,再去解析。实现翻页可以有两种办法,第一种是分析js的实现来模拟翻页。翻页操作实际上js向后台...

2018-11-02 12:22:25 2993 1

转载 selenium入门及深入

selenium用法详解Python 爬虫基础Selenium库的使用

2018-11-01 11:19:28 267

原创 Python3 基本数据类型

数字(Number)类型python中数字有四种类型:整数、布尔型、浮点数和复数。int (整数), 如 1, 只有一种整数类型 int,表示为长整型,没有 python2 中的 Long。bool (布尔), 如 True。float (浮点数), 如 1.23、3E-2complex (复数), 如 1 + 2j、 1.1 + 2.2jPython3 支持 int、float、bo...

2018-10-27 16:45:13 143

原创 用Python爬取猫眼电影排行榜TOP100

用Python爬取猫眼电影排行榜TOP100参考资料《Python3网络爬虫开发实践》,作者崔庆才这篇博客参考了崔庆才的《Python3网络爬虫开发实践》有关部分,记录了爬取猫眼电影网排名前100的电影信息的过程。主要步骤有:访问网站,获取页面源码解析页面,得到想要的数据循环爬取多个页面把数据写入本地文件1. 分析需要爬取的页面结构访问猫眼电影。观察页面,会看到首页上有排名...

2018-10-07 15:38:15 2701 3

原创 Python3学习的实用教程 (持续更新)

廖雪峰的官方网站:https://www.liaoxuefeng.com/Python3网络爬虫开发实战教程:https://cuiqingcai.com/5052.htmlpython官方指南:https://www.python.org/about/gettingstarted/关于python3正则表达式:https://www.cnblogs.com/...

2018-08-29 11:26:12 946 1

转载 做量化你需要知道的那些术语!(持续更新)

**金融相关: 股票:股份公司发行的所有权凭证。 债券:承诺按一定利率支付利息并按约定条件偿还本金的债权债务凭证,风险较低。 固定收益:固定收益类投资指投资于银行定期存款、协议存款、国债、金融债、企业债、可转换债券、债券型基金等固定收益类资产。风险低。 利率互换:利率互换是指两笔货币相同、债务额相同(本金相同)、期限相同的资金,但交易双方分别以固定利率和浮动利率借款,为了降低资金成本和利率...

2018-08-23 16:50:38 4784

原创 MySQL统计某列各字段的数量及某列中各字段占所有类型的百分比

SELECT SYSTEM,a.cnt,CONCAT(ROUND(a.cnt/b.sum *100,2),'','%')FROM (select SYSTEM, count(SYSTEM) AS cnt from nginx_log_resource GROUP BY SYSTEM ORDER BY cnt DESC )AS a,(SELECT COU...

2018-08-22 16:57:59 13763 2

原创 分别使用urllib和requests获取网页html.py

#使用urllib库获取html内容from urllib import requesturl = ''html = request.urlopen(url).read()html.decode()#使用requests获取html内容import requestsurl = ''r = requests.get(url)#乱码转换成二进制码再解码成字符串形式html = r...

2018-08-16 11:35:51 4018

原创 jupyter notebook下 采集标题和文本并存入txt文档.py

######jupyter notebook下采集苏轼的一首词import requestsfrom bs4 import BeautifulSoupimport reimport osimport pandas as pdurl = 'http://www.shicimingju.com/chaxun/list/3710.html'r = requests.get(url)h...

2018-08-14 10:59:30 4525

原创 利用正则爬取东方财富网股吧评论.py

###正则爬取东方财富网股吧评论import requestsimport refrom bs4 import BeautifulSoupurl = 'http://guba.eastmoney.com/list,002769.html'res = requests.get(url) #默认是UTF-8html = res.textsoup = BeautifulSoup(html...

2018-08-14 10:56:23 4063 1

原创 爬取新浪网新闻标题日期网址.py

import requests from bs4 import BeautifulSoup url =’http://news.sina.com.cn/china/’ res = requests.get(url) res.encoding = ‘utf-8’ soup = BeautifulSoup(res.text,’html.parser’) for news in soup.s...

2018-08-10 12:37:17 547

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除