自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 python机器学习----利用sklearn进行情感分析

import jiebafrom collections import defaultdictimport osfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerdef readfile(filename

2017-07-29 17:20:35 6262 1

原创 python机器学习-----文本分类笔记

#1.数据准备import pandas as pdaimport numpy as npyfilename=""dataf=pda.read_csv(filename)x=dataf.iloc[:,1:4].as_matrix()y=dataf.iloc[:,0:1].as_matrix()#2.数据的归一化from sklearn import preprocessing#归一化

2017-07-29 17:15:24 1883

原创 python机器学习---用贝叶斯算法实现垃圾邮件分类预测

import numpyfrom os import listdirimport jiebaimport operatorfrom gensim import corpora,models,similaritiesfrom numpy import *#贝叶斯算法的实现class Bayes: def __init__(self): self.length=-1

2017-07-29 17:13:26 1249

原创 python自然语言处理-----计算文本相似度

from gensim import corpora,models,similaritiesimport jiebafrom collections import defaultdictimport urllib.request#d1=open("C:/Users/yyq/Desktop/毕业论文/文档1.txt").read()#d2=open("C:/Users/yyq/Desktop/

2017-07-12 17:24:10 2141

原创 python自然语言处理---jieba中文处理

#关键词提取#基于 TF-IDF 算法的关键词抽取#sentence 为待提取的文本#topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20#withWeight 为是否一并返回关键词权重值,默认值为 False#allowPOS 仅包括指定词性的词,默认值为空,即不筛选import jieba.analyse as analyselines = open('NBA.txt

2017-07-09 20:46:42 943

原创 python案例---正则表达式:re模块

#Python通过re模块提供对正则表达式的支持。import re# 将正则表达式编译成Pattern对象pattern = re.compile(r'hello.*\!') # 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回Nonematch = pattern.match('hello, mryang! How are you?') if match: # 使用

2017-07-09 17:27:38 428

原创 python自然语言处理---NLP基础技能

#去空格及特殊字符s=' hello,world!'print(s.strip())print(s.lstrip(' hello,'))print(s.rstrip('!'))#查找字符sstr1='strchr'sstr2='r'npos=sstr1.index(sstr2)print(npos)#字符串大小写转换sstr1='JSDvfgfgfd'sstr1=sstr1.

2017-07-09 14:27:52 374

原创 机器学习----图与网络结构的可视化

from numpy import *import matplotlib.pyplot as pltdist = mat([[0.1,0.1],[0.9,0.5],[0.9,0.1],[0.45,0.9],[0.9,0.8],[0.7,0.9],[0.1,0.45],[0.45,0.1]])m,n = shape(dist)fig = plt.figure() # 绘图ax = fig.ad

2017-07-05 15:25:45 653

原创 机器学习----numpy矢量化编程

#Numpy 提供了专门的矩阵数据结构和线性代数库,完全实现了矢量化编程import numpy as npfrom numpy import *mylist = [1,2,3,4,5]a = 10mymatrix = np.mat(mylist)print (a*mymatrix)#numpy 矩阵运算myZero = np.zeros([3,5]) # 3*5 的全零矩阵prin

2017-07-04 21:35:51 1046

原创 机器学习----一个小程序测试numpy和matplotlib库安装成功

import numpy as npfrom numpy import *import matplotlib.pyplot as plt# 测试数据集-二维 listdataSet = [[-0.017612,14.053064],[-1.395634 ,4.662541],[-0.752157,6.538620],[-1.322371 ,7.152853],[0.423363 ,11

2017-07-04 20:54:32 4528

原创 创建爬虫----爬取大众点评数据并存入mongoDB数据库

#爬取大众点评多页数据from urllib.request import urlopenfrom bs4 import BeautifulSoupimport pymongoclient = pymongo.MongoClient('localhost',27017)dzdp = client['dzdp']url_list = dzdp['url_list']item_info =

2017-07-01 16:48:42 683

原创 创建爬虫----遍历单个域名爬取赶集网

爬取赶集网的页面链接#赶集网首页静态页面的链接爬取from urllib.request import urlopenfrom bs4 import BeautifulSoupimport rehtml=urlopen("http://ty.ganji.com/")bsObj=BeautifulSoup(html)for link in bsObj.find("div",{"class":"

2017-06-30 21:42:02 999

原创 创建爬虫----导航树

1.处理子标签和其他后代标签 孩子(child)和后代(descendant)from urllib.request import urlopenfrom bs4 import BeautifulSouphtml=urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj=BeautifulSoup(html)for chil

2017-06-30 16:57:53 316

原创 创建爬虫----复杂HTML解析

BeautifulSoup的find()和findAll()可通过标签的不同属性轻松的过滤HTML页面,查找需要的标签组或单个标签#findAll(tag,attributes,recursive,text,limit,keywords)#find(tag,attributes,recursive,text,keywords)#爬取大众点评的一页信息from urllib.request im

2017-06-30 15:45:00 355

原创 创建爬虫-----爬虫异常处理:

爬虫异常处理:from urllib.request import urlopenfrom urllib.error import HTTPError,URLErrorfrom bs4 import BeautifulSoupdef getTitle(url): try: html=urlopen(url) except(HTTPError,URLEr

2017-06-30 14:30:21 351

深入浅出mysql

本书主要介绍mysql的包括开发篇、优化篇、管理维护篇。

2018-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除