汴水流-CSDN博客

原创微信小程序——全屏幕（抖音视频）展示

效果：应用场景：如类似抖音视频，视频是需要铺满屏幕的：解决方式：https://developers.weixin.qq.com/miniprogram/dev/reference/configuration/app.html#window在app.json中windows添加设置："window": { "navigationStyle": "cu...

2019-11-14 11:45:04 2644 1

原创 AssertionError: Error, sync query is not allowed! Call the `.set_allow_sync()` or use the `.allow_sy

错误信息展示:ERROR:tornado.application:Uncaught exception GET /groups/ (127.0.0.1)…… File "H:\project\sgjlb_tornado\apps\group\handler.py", line 130, in get group_dict = model_to_dict(group)…… ...

2019-07-01 12:36:50 1060

原创闭包和装饰器总结

闭包和装饰器闭包部分参考文档:https://www.cnblogs.com/bailo/p/9096937.html闭包函数：定义：内层函数对外层函数非全局变量的引用，就叫做闭包函数。闭包会一直存在内存当中,不会因为函数执行结束而被释放。# 闭包函数def wrapper(): name = 'alex' def inner(): ...

2019-06-21 12:47:25 185

原创 tornado中数据库ORM操作（二）：通过peewee-async集成到tornado中

github地址：https://github.com/05bit/peewee-asyncInstallInstall withpipfor PostgreSQL:pip install --pre peewee-async; pip install aiopgor for MySQL:pip install --pre peewee-async; pip inst...

2019-06-20 22:09:49 889

转载 tornado实现并发爬虫

示例代码from urllib.parse import urljoinfrom bs4 import BeautifulSoupfrom tornado import gen, httpclient, ioloop, queuesbase_url = "http://www.tornadoweb.org/en/stable/"concurrency = 3async def...

2019-06-20 20:39:10 523

原创协程总结

协程：可以暂定并切换到其他协程运行的函数线程是由操作系统调度协程的调度是由程序员实现生成器暂停函数举例import time# 普通函数无法暂停def add(a, b): print(a+b)# 生成器是可以暂停函数的def yield_test(): yield 1 yield 2 yield 3 return "bobby...

2019-06-20 18:33:51 224

原创同步异步阻塞和非阻塞

基本事实：1.cpu的速度远高于io速度2.IO包括网络访问和本地文件访问。比如requests,urllib等传统的网络库都是同步的IO3.网络IO大部分的时间都是处于等待的状态，在等待的时候，cpu是空闲的，但是又不能执行其他的操作阻塞是指调用函数时候当前线程被挂起。非阻塞是指调用函数时候当前线程不会被挂起，而是立即返回。同步和异步是逻辑层和业务层面的叫法，阻塞和非阻塞...

2019-06-20 17:34:51 225

原创 tornado中数据库ORM操作（一）：peewee的使用

github地址:https://github.com/coleifer/peewee文档:http://docs.peewee-orm.com/依赖于pymysql 要把pymysql也安装了pip install pymysqlpip install peewee采用peewee作为ORM的原因1：django orm,sqlalchemy,peewee三个用的最...

2019-04-20 22:50:37 1725

原创 tornado的settings有哪些可以设置

官方文档:http://www.tornadoweb.org/en/stable/web.html#tornado.web.Application.settings谷歌中文翻译后直接复制的常规设置：autoreload：如果True，任何源文件更改时服务器进程将重新启动，如调试模式和自动重新加载中所述。此选项是Tornado 3.2中的新选项;以前此功能由debug设置控制...

2019-04-19 18:23:55 1063

原创 tornado--初学者常见问题总结

1:tornado如何实现在代码修改后，不需要重启，直接应用修改后的提交？设置dubug=True即可def make_app(): return tornado.web.Application([ (r"/", XXXHandler) ], debug=True)2:tornado重启后，显示端口号被占用（提示,通常每个套接字地址只允许使用...

2019-04-19 17:51:50 969

原创 tornado中的模板

设置模板方式一:class MainHandler(RequestHandler): async def get(self, *args, **kwargs): word = "hello bobby" loader = template.Loader("/xx/xx") self.finish(loader.load("hell...

2019-04-19 17:50:43 384

原创 tornado中RequsetHandler常用子类RedirectHandler 和StaticFileHandler 的使用

RedirectHandler 重定向# 方式一urls = [(r"/test", tornado.RedirectHandler, {"url": "/"}),……]Handler这种方式适合于写到url配置当中，永久性的重定向，配置简单，但是灵活性不强# 方式二 def get(self, *args, **kwargs): self.redir...

2019-04-19 17:23:30 775

原创 tornado中RequsetHandler的使用

应用示意，RequsetHandler中可能常会用到的一些地方import jsonfrom tornado.web import RequestHandlerclass MainHandler(RequestHandler): # 入口 def initialize(self, demo): # 用于初始化handler类的过程 ...

2019-04-19 16:52:14 391

原创 tornado中options的使用

from tornado.options import define, options, parse_command_line# define，定义一些可以在命令行中传递的参数以及；类型define('port', default=8888, help="run on the given port", type=int)define('debug', default=True, help...

2019-04-19 16:01:52 508

原创 tornado中的url配置

1:如何实现url中带数字（字符串）类型的匹配？class PeopleIdHandler(web.RequestHandler): async def get(self, id, *args, **kwargs): self.write("用户ID：{}".format(id))class PeopleNameHandler(web.RequestHandle...

2019-04-19 12:34:30 2385

原创 python--多线程编程 threading(二)

python--多线程编程 threading(一)通过继承Thread来实现多线程#-*-coding:utf-8-*-import threadingimport timeclass GetDetailHtml(threading.Thread): def __init__(self,name): super().__init__(name=name)...

2018-11-23 13:06:52 135

原创 python--多线程编程 threading(一)

先假设一应用场景:爬虫爬取淘宝店铺的店铺列表页，获取到所有的店铺地址，根据每一个店铺地址，进去各店铺获取数据。该场景便非常适合使用多线程。因为爬取店铺列表页和爬取详情页，其实互不影响，只要处理好线程间通信即可。上示意代码:#-*-coding:utf-8-*-import threadingimport timedef get_detail_html(url): p...

2018-11-23 12:54:24 176

原创 python---gil锁的总结

解决多线程之间数据完整性和状态同步的最简单方法自然就是加锁。GIL的全名，Global Interpreter Lock。解释:这个锁就是用来为了解决Cpython多线程中线程不安全问题引入的一个全局排它锁，它的作用就是在多线程情况下，保护共享资源，为了不让多个线程同时操作共享资源，导致不可预期的结果而加上的锁，在一个线程操作共享资源时，其他线程请求该资源，只能等待GIL解锁。这个设置在C...

2018-11-23 12:19:16 184

原创 scrapy之pipelines存数据库Mysql(一)

scrapy爬取成功后可以保存在本地或者数据库，保存的格式也是多样的。可参考官方文档https://docs.scrapy.org/en/latest/topics/item-pipeline.html#writing-your-own-item-pipeline本文总结保存mysql首先,setting.py文件配置ITEM_PIPELINES = { xxxxx 'Article...

2018-05-06 15:50:25 1392 1

相关文档链接: http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html#intro-install版本选择https://github.com/rmax/scrapy-redis#requirements由于分布式爬虫用到了scrapy-redis，它对于版本的要求如下（当然随着更新会支持更新版本的python）Requi...

2018-04-29 14:46:09 563

原创 python的编码问题总结

计算机只能识别0,1;ASCII编码中默认最大8bit （1111111即最大255);远不够老美以外其他国家的使用；中国添加了GB2312,其他国家也设计了自己的编码格式；于是各有自己标准就造成了混乱局面，Unicode诞生；Unicode(16bit 还是32bit不确定，总之足够大了)，可以满足各个国家语言加起来使用。弊端就是unicode编码占用存储空间更大了，不过有一点好处，一样的长...

2018-04-29 10:23:49 203

转载 linux下（CentOS6.4）mysql安装

http://www.cnblogs.com/xiaoluo501395377/archive/2013/04/07/3003278.html

2017-06-24 14:48:45 188

原创 SparkMLlib逻辑斯蒂回归分类器简单案例

逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic分布设X是连续随机变量，X服从logistic分布是指X具有下列分布函数和密度函数：...

2017-04-06 22:27:08 982

原创 spark2.1.0版本 SparkSQL相关内容的测试和学习

参考文档：http://spark.apache.org/docs/latest/sql-programming-guide.html 在本地测试。（可自行编译源码spark2.1对应hadoop2.7.2版本的源码，源码包里可以找到对应的代码） Find full example code at “examples/src/main/scala/org/apache/spark/exampl

2017-04-06 22:07:15 712 1

原创 spark宽依赖与窄依赖

窄依赖：Narrow Dependency父RDD和子RDD是一对一的依赖关系，如map，filter宽依赖：Shuffle Dependency本质如其名，本质就是shuffle。如reduceByKey，groupyByKey以wordcount为例，剖析图如下：

2017-04-05 21:59:28 932

原创 spark内核架构

2017-04-05 21:38:19 300

原创 spark性能优化（一）

性能优化概述：（随着自己学习，持续更新，让博客见证我的成长之路吧）spark计算本质基于内存，真正使用过的人，肯定遇到各种各样的性能问题，各种OOM；spark性能瓶颈很多：cpu、网络带宽、或者是内存等数据量太大，内存放不下所有数据，需要对内存进行优化，比如使用些手段减少内存的消耗；内存容量足够放所有数据，网络传输和通信就会导致性能出现瓶颈……经常遇到oom、文件丢失、task

2017-03-25 20:15:40 260

原创 Numpy的array数组操作

Numpy的array数组操作源文件 import numpyworld_alcohol = numpy.genfromtxt("E:\machinelearning\machinelearninginaction\Ch02\datingTestSet.txt",delimiter="\t")print(type(world_alcohol))world_alcohol nan:无法转换

2017-03-23 23:02:25 676

原创云服务搭建集群注意事项总结

例如购买阿里云服务器，在上面搭建集群。注意一：当需要进行数据收集的数据源在阿里的平台上时，配置集群时尽量都用hostname，并且hostname对应的ip在hosts文件进行设置时，要都用内网ip。否则，向集群中传输文件时，不同服务器之间拷贝文件走的是公网，速度底下，且耗费资源。使用内网ip后，在web访问界面，50070,8088端口可能无法正常访问。此时借助xsell。文件-

2017-01-17 23:32:42 2438

汴水流的博客