1 北房有佳人

尚未进行身份认证

暂无相关简介

等级
TA的排名 7w+

手把手教你分析中超16家球队谁是老大

发现一个好玩的数据分析项目《数据告诉你,中超16家球队谁是老大》,原文链接:https://mp.weixin.qq.com/s/-csfuvlb8xwTsD8p1VQxXg采集懂球帝网站上的中超16家球队球员的能力信息,分析出,各球队之间的纸面数据差距,依据数据预测出夺冠希望最大的No.1。整个项目,思路清晰,数据简单,是入门数据分析的不二法门。中超足球,也是大家期望值比较大的实用项目。...

2019-09-23 10:58:49

python 构建装饰器计算代码运行耗时

代码的运行效率和性能优化是开发人员日常开发关注的重点。一段好的代码,最普通的标准是能够实现功能,接下来是优化代码,保证功能实现的前提下能够简洁代码行数,具体要求是内置模块>第三方库>手动撸码。内置模块作为python语言自带的系统资源,运行效率最快,消耗资源最少,往往一行代码就能实现各种骚操作,例如;collections模块的Counter,可以直接调用统计字符串和列表数组中元素...

2019-09-11 10:03:01

爬取《全职高手之巅峰荣耀》的豆瓣影评,分析漫改电影的优劣好坏

周末去看了《全职高手之巅峰荣耀》的大电影。记得是看扫毒2还是更前一点的电影时。全职大电影的预告片就出来了,第一眼看中的时候,就决定必须去看这场电影了。(每周一场的电影,默认成为习惯了)电影的好处在于,可以暂时脱离本身的角色设定,转而融入电影中的某个背景,感受不同的生活体验,精神感受,以及揣摩导演,制作者的一些小心思。理解电影想表达什么,理解制作者在某个小细节上的精彩处理,这也是看电影的一种另类收...

2019-08-19 17:36:10

爬取知乎高赞情话,甜蜜过七夕

又是一年一度的七夕情人节了!有女朋友的就牵好手,有男朋友的就抱紧腿,什么都么得的小伙伴就带好装备,静静的吃狗粮就ok了。在这个到处都冒着粉红泡泡的日子,不做点什么都不太好意思。作为一名合格的代码搬砖工,经过慎重的思考,决定为小伙伴们的幸福贡献一份微薄之力。特此爬取知乎上的高赞情话,让你在对女神/男神的约会中甜蜜暴击(咳咳咳,吃多了糖,有点齁)1.搜索知乎高赞情话话题或评论知乎搜索"情...

2019-08-07 17:27:49

Python Pandas操作Excel表格文件:创建新表格,追加数据

前言:python操作excel表格文件的增删读写,一般需要用到的第三方库有xlwt,xlrd。xlrd负责读取excel,xlwt负责写入excel文件。这种操作方法比较繁琐,效率还不错,通俗易懂。那么有没有一种更简便,操作更简单,效率还差不多的库呢?答案当然是必须有的。毕竟Python是以丰富的第三方库而作为热点的。Pandas是xlwt,xlrd库的封装库,拥有更全面的操作对象,csv...

2019-07-29 14:49:45

批量更新MySql数据

def update_uid(self): """ 3.修改更新uid :rtype: object """ lon_list = [] update_str = "" for i in range(10000): try: lon, uids = self.r.get('mysql_field') ...

2019-07-16 09:07:12

CrawlSpider调用Scrapy_splash功能:Crawlspider的源码详解

前言Crawlspider是在scrapy普通Spider的基础上加入内部获取指定规则链接的功能,能有效提高我们获取页面中指定链接的效率。(咱也没测过效率,咱也不敢问),常用于 翻页,网页链接循环的采集任务。scrapy_splash 是在scrapy框架中用来处理js动态渲染页面的第三方库。使用起来还是挺顺手的。普通scrpy中使用scrpy_splash还是轻轻松松,干干单单的,将每次请...

2019-07-11 17:29:24

python 操作Excel表格

创建Excel表格import xlwtimport osdef create_excel(filepath, sheetname): # 创建excel文件 workbook = xlwt.Workbook() sheet = workbook.add_sheet(sheetname) caption_list = ['姓名', '简介', '公司'...

2019-07-02 09:23:25

Redis队列

import redisimport pickleclass RedisQueue(): def __init__(self): redis_host = "172.24.4.9" redis_password = "123456" redis_db = 7 pool = redis.ConnectionPool(ho...

2019-06-29 14:33:51

获取Cookies

class GetCookies(): def __init__(self): a = """TYCID=6ab34ee0e89411e8aea4576c50bb3005; undefined=6ab34ee0e89411e8aea4576c50bb3005; ssuid=5641567282; _ga=GA1.2.569292461.1542258108; __insp_...

2019-06-29 14:30:28

python中对于bool布尔值的取反

背景根据公司业务的需求,需要做一个对于mysql数据库的大批量更新。脚本嘛也是干干单单。使用了redis的队列做缓存,可以异步并发的多任务进行更新。有点难受的地方在于,请求访问时,因为一些网速,速率之内的原因,导致正常的数据会请求失败。处理的方法呢,就是多请求几次。不过,麻烦的地方在于,每次重新请求,都要讲原来get,和put的key转换。手动更换起来麻烦的一批。所以就想做一个自动的转换小...

2019-06-19 15:31:23

python Url编码和解码

为什么要用Url编码和解码?url带参数的请求格式为(举例): http://www.baidu.com/s?k1=v1&k2=v2当请求数据为字典data = {k1:v1, k2:v2},且参数中包含中文或者?、=等特殊符号时,通过url编码,将data转化为特定格式k1=v1&k2=v2,并且将中文和特殊符号进行编码,避免发生歧义将中文和特殊符号进行编码,避免发生歧义,...

2019-06-11 15:09:24

Elasticsearch 的安装与使用(三): python操作Elasticsearch增删改查

python链接ES: from elasticsearch import Elasticsearch self.es = Elasticsearch([{'host': "192.168.1.88", 'port': 9200}])可以指定链接的ES的IPES插入数据:插入单条数据 for i in range(10): self.es.index(index...

2019-06-06 09:32:49

python 读取各类文件格式的文本信息:doc,html,mht,excel

引言众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得有越来越多的技术开发者来完善python的完美性。未来人工智能,大数据方向,区块链的识别和进阶都将以python为中心来展开。咳咳咳! 好像有点打广告的嫌疑了。当前互联网信息共享时代,最重要的是什么?是数据。最优价值的是什么?是数据。最能直观体现技术水平的是什么?还是数据。所以,今天我们...

2019-05-24 13:49:30

python MongoDB 插入数据 去除重复数据

python 往MongoDB数据库中插入数据,经常会遇到的一个需求就是,对插入的数据进行去重。最笨的方法呢,就是先把所有的数据插入数据库里,再去除掉多余重复的数据。具体操作呢,繁琐,复杂,效率低,还总容易出现莫名其妙的bug。最理想的插入方法就是,如果数据库不存在,则插入数据;如果数据已经存在了,就不插入数据,或者更新数据。使用insert方法,目前还没发现什么去重的好用处。 能够更新数据...

2019-05-14 17:31:19

python 判断list内容是否为空

方式一:demo_list = []if len(demo_list): print("列表不为空")else: print("列表为空")方法二:demo_list = []if demo_List: print("列表不为空")else: print("列表为空")方法三:demo_list = []if not demo_list: print("列表为空"...

2019-05-08 14:41:26

解决UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148

背景:由于最近公司的业务需要,对数据库中的数据进行文章分类并打上对应的标签属性。最后选择调用百度云的人工智能文本分析aip接口。百度云的文本分析接口文档如下:需要接收一个content和title字段作为文本分析。正常情况下,读取数据库content和title字段直接传入就可以了。要命的是,当初产品决定content内存入的是html文本信息,方便前端页面的展示。所以我们需要先对读取...

2019-05-08 14:30:35

python计算程序运行的时间方法

1.运用场景在很多的时候我们需要计算我们程序的性能,这个时候我们常常需要统计程序运行的时间。下面我们就来说说怎么统计程序的运行时间。2. 实现方法计算Python的某个程序,或者是代码块运行的时间一般有三种方法。方法一import datetimestart = datetime.datetime.now()run_function(): # do something e...

2019-05-07 13:49:21

Mongodb中查询条件为列表的查询语句

背景:公司产品开发进入了白热化阶段了,数据库了的数据依据各自的分类也都井然有序的划分这。一切看起来是那么的美好。某一天,产品经理突然集合大家开会,产品展示上的分类,看起来有点多啊,严重影响了用户的体验。这样吧,我们把分类就简化成三个吧,应该很简单的吧,开发们?(嗯,很简单,简单你个*****!)拿人钱财,替人消灾。ε=(´ο`*)))唉,干脆就给数据打上标签吧,哪个分类需要什么标签的数据,就自...

2019-05-07 11:58:01

xpath获取同级元素的方法详解

XPath轴(XPath Axes)可定义某个相对于当前节点的节点集:1、child 选取当前节点的所有子元素2、parent 选取当前节点的父节点3、descendant 选取当前节点的所有后代元素(子、孙等)4、ancestor 选取当前节点的所有先辈(父、祖父等)5、descendant-or-self 选取当前节点的所有后代元素(子、孙等)以及当前节点本身6、ancestor-...

2019-04-09 16:18:03

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。