尧十三decode-CSDN博客

原创爬取同花顺HS300成分股的预测收益及增长率

import requestsfrom bs4 import BeautifulSoupimport reimport jsonimport numpy as npimport timeimport tushare as tsimport pandas as pddf1 = ts.get_hs300s()#print(df)ss=df1.head(10)code = ss....

2019-04-26 14:41:43 1133 3

原创 pandas_datareader.data 获取雅虎财经股票数据并以csv格式存放

pandas_datareader.data 获取雅虎财经股票数据并以csv格式存放import numpy as npimport pandas as pdimport pandas_datareader.data as webimport datetime'''pd.read_csv test'''df_csvsave = web.DataReader("600018.SS",...

2019-03-14 23:02:08 4713 4

原创量化交易-获取5日，10日，20日均线数据

#获取5日，10日，20日均线数据import tushare as tsimport talibfrom matplotlib import pyplot as plt#通过tushare获取股票信息df=ts.get_k_data('601888',start='2018-01-30',end='2018-10-30') #以股票代码[601888]中国国旅为例，提取从2018-...

2018-11-06 14:34:48 8947 1

一、背景：在抓取保监会官网产品检索页面下的所属公司，产品名称，备案日期，险种时，页面较多需要翻页抓取，经分析，在点击下一页，网页的url没有任何变化，只是用js去加载了新的数据，然后动态地改变了table里面的数据。这可和本菜以前爬的页面可不一样，所以这次要想办法模拟翻页，然后重新读取新的html代码，再去解析。实现翻页可以有两种办法，第一种是分析js的实现来模拟翻页。翻页操作实际上js向后台...

2018-11-02 12:22:25 2993 1

转载 selenium入门及深入

selenium用法详解Python 爬虫基础Selenium库的使用

2018-11-01 11:19:28 267

原创 Python3 基本数据类型

数字(Number)类型python中数字有四种类型：整数、布尔型、浮点数和复数。int (整数), 如 1, 只有一种整数类型 int，表示为长整型，没有 python2 中的 Long。bool (布尔), 如 True。float (浮点数), 如 1.23、3E-2complex (复数), 如 1 + 2j、 1.1 + 2.2jPython3 支持 int、float、bo...

2018-10-27 16:45:13 143

原创用Python爬取猫眼电影排行榜TOP100

用Python爬取猫眼电影排行榜TOP100参考资料《Python3网络爬虫开发实践》，作者崔庆才这篇博客参考了崔庆才的《Python3网络爬虫开发实践》有关部分，记录了爬取猫眼电影网排名前100的电影信息的过程。主要步骤有：访问网站，获取页面源码解析页面，得到想要的数据循环爬取多个页面把数据写入本地文件1. 分析需要爬取的页面结构访问猫眼电影。观察页面，会看到首页上有排名...

2018-10-07 15:38:15 2701 3

原创 Python3学习的实用教程（持续更新）

廖雪峰的官方网站：https://www.liaoxuefeng.com/Python3网络爬虫开发实战教程：https://cuiqingcai.com/5052.htmlpython官方指南：https://www.python.org/about/gettingstarted/关于python3正则表达式：https://www.cnblogs.com/...

2018-08-29 11:26:12 946 1

转载做量化你需要知道的那些术语！（持续更新）

**金融相关：股票：股份公司发行的所有权凭证。债券：承诺按一定利率支付利息并按约定条件偿还本金的债权债务凭证，风险较低。固定收益：固定收益类投资指投资于银行定期存款、协议存款、国债、金融债、企业债、可转换债券、债券型基金等固定收益类资产。风险低。利率互换：利率互换是指两笔货币相同、债务额相同（本金相同）、期限相同的资金，但交易双方分别以固定利率和浮动利率借款，为了降低资金成本和利率...

2018-08-23 16:50:38 4784

原创 MySQL统计某列各字段的数量及某列中各字段占所有类型的百分比

SELECT SYSTEM,a.cnt,CONCAT(ROUND(a.cnt/b.sum *100,2),'','%')FROM (select SYSTEM, count(SYSTEM) AS cnt from nginx_log_resource GROUP BY SYSTEM ORDER BY cnt DESC )AS a,(SELECT COU...

2018-08-22 16:57:59 13763 2

原创分别使用urllib和requests获取网页html.py

#使用urllib库获取html内容from urllib import requesturl = ''html = request.urlopen(url).read()html.decode()#使用requests获取html内容import requestsurl = ''r = requests.get(url)#乱码转换成二进制码再解码成字符串形式html = r...

2018-08-16 11:35:51 4018

原创 jupyter notebook下采集标题和文本并存入txt文档.py

######jupyter notebook下采集苏轼的一首词import requestsfrom bs4 import BeautifulSoupimport reimport osimport pandas as pdurl = 'http://www.shicimingju.com/chaxun/list/3710.html'r = requests.get(url)h...

2018-08-14 10:59:30 4525

原创利用正则爬取东方财富网股吧评论.py

###正则爬取东方财富网股吧评论import requestsimport refrom bs4 import BeautifulSoupurl = 'http://guba.eastmoney.com/list,002769.html'res = requests.get(url) #默认是UTF-8html = res.textsoup = BeautifulSoup(html...

2018-08-14 10:56:23 4063 1

原创爬取新浪网新闻标题日期网址.py

import requests from bs4 import BeautifulSoup url =’http://news.sina.com.cn/china/’ res = requests.get(url) res.encoding = ‘utf-8’ soup = BeautifulSoup(res.text,’html.parser’) for news in soup.s...

2018-08-10 12:37:17 547

尧十三的博客