- 博客(3)
- 收藏
- 关注
原创 dataframe取Mysql数据,排序,加索引提速20多倍
当初用java写的初始化程序我记得百十来行吧,而且一次初始化需要十分钟。这回用pandas转一下,只写了30来行,总耗时才不到5分钟,最大的耗时还是Mysql那的280秒。不过dataframe也是需要加索引的否则就需要7000多秒了。不到400万条记录,不加索引pandas也不行啊def init_GPRK(): db = pymysql.connect( host='localhost', port=3306, user='root',
2021-04-07 13:40:10 210 1
原创 爬取淘宝数据
爬取淘宝今天坛子里有人说淘宝的反扒不容易爬取数据,求爬虫代码。为了积分,写了一下。确实有些特殊,课上没有讲过。有时间加到课件里。它的动态加载数据不是通过数据包的json而是通过js直接吐到页面,然后再通过js和css把吐到页面的数据显示出来的。正则的写法要特别注意效率,写简单了一个页面就要590多秒,改了一下7秒多import requestsimport reimport timeclass DaoBaoSpider(object): def __init__(self):
2021-04-02 16:14:41 1577
原创 正则表达式
正则表达式和反射1、Pattern是一个正则表达式的编译表示。Pattern 类没有公共构造方法。要创建一个 Pattern 对象,你必须首先调用其公共静态编译方法,它返回一个 Pattern 对象。该方法接受一个正则表达式作为它的第一个参数。2、Matcher对象是对输入字符串进行解释和匹配操作的引擎。与Pattern 类一样,Matcher 也没有公共构造方法。你需要调用 Patter...
2019-09-24 16:23:11 106
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人