自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fx_ly的博客

编程语言

  • 博客(13)
  • 收藏
  • 关注

转载 中文进行k-means聚类

中文文本聚类(切词以及Kmeans聚类)简介 一 切词 二 去除停用词 三 构建词袋空间VSMvector space model 四 将单词出现的次数转化为权值TF-IDF 五 用K-means算法进行聚类 六 总结简介查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部...

2019-12-07 22:33:14 1869

转载 多线程和多进程

网络编程中设计并发服务器,使用多进程与多线程 ,请问有什么区别?  答案一: 1,进程:子进程是父进程的复制品。子进程获得父进程数据空间、堆和栈的复制品。 2,线程:相对与进程而言,线程是一个更加接近与执行体的概念,它可以与同进程的其他线程共享数据,但拥有自己的栈空间,拥有独立的执行序列。 两者都可以提高程序的并发度,提高程序运行效率和响应时间。 线程和进程在使用上各有优缺点:线程执行开销小,但不...

2018-04-18 15:11:36 247

转载 Windows系统 使用Python处理Excel文件

引子最近在做一些数据处理和计算的工作,因为数据是以.csv格式保存的,因此刚开始直接用Excel来处理。但是做着做着发现重复的劳动其实并没有多大的意义,于是就想着写个小工具帮着处理。以前正好在一本书上看到过使用Python来处理Excel表格,可惜没有仔细看。于是我到处查找资料,终于算是完成了任务,因此撰写此文就算是总结吧。在这里我还会顺带介绍一下如何处理.csv文件,因为某些情况下这是必须的(后...

2018-04-17 15:13:46 1602

转载 python中socket用法与原理

一、socket socket的英文原义是“孔”或“插座”。作为BSD UNIX的进程通信机制,取后一种意思。通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,可以用来实现不同虚拟机或不同计算机之间的通信。在Internet上的主机一 般运行了多个服务软件,同时提供几种服务。每种服务都打开一个Socket,并绑定到一个端口上,不同的端口对应于不同的服务。Socket正如其英文原 意...

2018-04-11 14:55:23 1863

转载 Python工程师学习之旅

Python工程师学习之旅1.Python软件开发基础1.Linux操作系统2.Docker基础3.Python基础语法4.Python字符串解析5.Python正则表达式6.Python文件操作7.Python 模块8.Python异常9.python GUI编程10.Python时间和日历掌握技能1.掌握计算机的构成和工作原理2.会使用Linux常用工具 3.熟练使用Docker的基本命令 4...

2018-04-11 13:57:16 200

转载 Socket通信原理和实践

我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览网页时,浏览器的进程怎么与web服务器通信的?当你用QQ聊天时,QQ进程怎么与服务器或你好友所在的QQ进程通信?这些都得靠socket?那什么是socket?socket的类型有哪些?还有socket的基本函数,这些都是本文想介绍的。本文的主要内容如下:1、网络中进程之间如何通信?2、Socket是什么?3、socket的基...

2018-04-10 15:42:27 125

原创 python 3.6 爬取json 文件报错'bytes' object has no attribute 'read'

  使用json解析数据时,通常遇到这里就会出现问题'bytes' object has no attribute 'read',这是由于使用的json内置函数不同,一个是load另一个是loads。代码如下:import urllib.requestimport jsonimport jsonpathurl = "http://www.lagou.com/lbs/getAllCitySea...

2018-04-08 09:57:28 42361

原创 python 3.6 配置lxml+beautifulsoup+jsonpath模块

引言本篇文章主要介绍基于python 3.6 在Windows系统下  lxml,beautifulsoup,jsonpath模块安装教程。 lxml是python语言里处理XML以及HTML工作的功能最丰富和最容易使用的库。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful...

2018-04-08 09:38:27 2065

原创 Python3.x 文件写入出现错误 TypeError: write() argument must be str, not bytes

背景    用Pycharm编辑器Python3.x语言写一个百度贴吧爬虫程序代码如下:import urllib.requestimport urllib.parsedef loadPage(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, lik...

2018-04-02 14:38:35 3301

转载 Python2和Python3中urllib库中urlencode的使用注意事项

在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。对于Python2Python2中提供了urllib和urllib2两个模块。urlencode方法所在位置为:urllib.urlencode(values) # 其中values为所...

2018-04-02 11:34:46 634

转载 HTTP详解

HTTP简介HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于19...

2018-03-30 14:42:09 263

转载 python3网络爬虫一《使用urllib.request发送请求》

使用urllib在Python2版本中,有urllib和urlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。Python3 urllib库官方链接        https://docs.python.org/3/library/urllib.htmlurllib中包括了四个模块,包括urllib.request,urll...

2018-03-29 16:24:51 206

原创 python之python3.x版本用urllib爬虫出现的module 'urllib' has no attribute 'urlopen'与urllib.error.HTTPError: HTT

研究pycharm编辑器用Python 3.x的urllib爬一个网页代码如下:运行报错如下:在网上查资料可知,Python3.x与Python2.7的差别是urlopen()方法放置模块不同,python3.x的urlopen()方法在urllib.request下面修改代码如下:运行结果如下:修改后还是报错urllib.error.HTTPError: HTTP Error 504: Fidd...

2018-03-29 15:26:00 2094

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除