自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 dataframe取Mysql数据,排序,加索引提速20多倍

当初用java写的初始化程序我记得百十来行吧,而且一次初始化需要十分钟。这回用pandas转一下,只写了30来行,总耗时才不到5分钟,最大的耗时还是Mysql那的280秒。不过dataframe也是需要加索引的否则就需要7000多秒了。不到400万条记录,不加索引pandas也不行啊def init_GPRK(): db = pymysql.connect( host='localhost', port=3306, user='root',

2021-04-07 13:40:10 210 1

原创 爬取淘宝数据

爬取淘宝今天坛子里有人说淘宝的反扒不容易爬取数据,求爬虫代码。为了积分,写了一下。确实有些特殊,课上没有讲过。有时间加到课件里。它的动态加载数据不是通过数据包的json而是通过js直接吐到页面,然后再通过js和css把吐到页面的数据显示出来的。正则的写法要特别注意效率,写简单了一个页面就要590多秒,改了一下7秒多import requestsimport reimport timeclass DaoBaoSpider(object): def __init__(self):

2021-04-02 16:14:41 1577

原创 正则表达式

正则表达式和反射1、Pattern是一个正则表达式的编译表示。Pattern 类没有公共构造方法。要创建一个 Pattern 对象,你必须首先调用其公共静态编译方法,它返回一个 Pattern 对象。该方法接受一个正则表达式作为它的第一个参数。2、Matcher对象是对输入字符串进行解释和匹配操作的引擎。与Pattern 类一样,Matcher 也没有公共构造方法。你需要调用 Patter...

2019-09-24 16:23:11 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除