自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

badapplecn的博客

一起盖房子吧!

  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 坑3:1.1.2其他语言文本切分

问题:书上说有情人对英文之外的其他语言执行切分,可以加载它们各自的pickle文件,然后用该语言对文本进行切分,结果我找不到中文的。原因:网上看了下,应该是nltk不太支持中文分词。解决办法:pip install jieba

2017-12-19 19:21:40 169

原创 坑2:1.1.1将文本切分为语句

问题:按如下语句运行,报错。import nltktext="Welcome readers. I hope you find it interesting. Please do reply."from nltk.tokenize import sent_tokenizesent_tokenize(text)错误如下:Traceback (most recent call

2017-12-13 12:41:25 761 3

原创 坑1:前言中的代码下载

问题:书上提供的下载示例代码的地址www.packt;pub.com是下不了的,甚至注册都没法完成。原因:大概原因是验证码被和谐掉了。解决方法:代码托管在Github上,从https://github.com/PacktPublishing/Mastering-Natural-Language-Processing-with-Python下载说明:其实也不算太坑,书上也提供了G

2017-12-13 12:27:40 182

原创 第2章复杂HTML解析

第2章复杂HTML解析2.1不是一直都要用锤子采集隐藏很深的数据的对策:1.寻找“打印此页”的链接,或者看网站有没有移动版;2.寻找隐藏在JavaScript文件里面的信息;3.从网页的URL链接里获取信息;4.找找其他数据源,比如其他网站。2.2再来一碗汤主要讲了CSS给爬虫族带来的福音。from urllib.request import urlopen

2017-06-09 16:38:37 215

原创 第1章初见网络爬虫

我是用windows系统,虽然也想装B用下linux,但是装不住....第1章初见网络爬虫1.1网络连接    本书用的是python3,现在使用的是python的标准库,urllib,用得比较多的应该是requests库。urllib库的官方文档:https://docs.python.org/3/library/urllib.html1.2 BeautifulSoup简介

2017-06-09 11:18:05 342

原创 python网络数据采集学习笔记-前言

《Python网络数据采集》,英文名《web scraping with python》    Ryan Mitchell著    陶俊杰 陈小莉 译    那老僧道:“本派武功传自达摩老祖。佛门子弟学武,乃在强身健体,护法伏魔。修习任何武功之间,总是心存慈悲仁善之念,倘若不以佛学为基,则练武之时,必定伤及自身。功夫练得越深,自身受伤越重。如果所练的只不过是拳打脚踢、兵刃暗器的

2017-06-09 10:55:45 418

原创 第3章 模板

3.1 JinJa2模板引擎示例3-1,示例3-2两个模板可以直接在记事本里面输入后保存为html格式,放到flasky文件夹下面的templates文件夹中。3.1.1渲染模板示例3-3:from flask import Flask, render_templatefrom flask_script import Managerapp = Flask(__name_

2017-06-08 18:51:20 338

原创 第2章程序的基本结构

2.1初始化使用如下代码创建一个程序实例:from flask import Flaskapp = Flask(__name__)2.2路由和视图函数用程序实例提供的app。route修饰器把修饰的函数注册为路由:@app.route('/')def index():return 'Hello World!'称index()为视图函数,其返回的响应可以是包含HT

2017-06-08 18:47:54 413 1

原创 第1章 安装

1.1使用虚拟环境pip install virtualenv安装virtualenv --version 检查是否安装先创建个flasky文件夹,再进入该文件夹,使用virtualenv venv 创建名为venv的虚拟环境。命令完成后flasky文件夹下的情况:进入flasky目录项目用venv\Scripts\activate命令激活虚拟环境

2017-06-07 19:08:22 173

原创 前言

Flask自由度大。要求熟练操作命令行;对HTML\CSS和JavaScript有一定程度的了解。程序源码从GitHub上下载,但建议安装Git客户端。官方文档:http://flask.pocoo.org示例代码下载地址:https://github.com/miguelgrinberg/flasky安装Git客户端:https://git-scm.com/

2017-06-06 22:54:13 209

Python网络数据采集-中文版

讲述python爬虫方方面面的知识,这是中文版的,英语不好的爬虫爱好者的福音。

2017-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除