自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 《Fast Abstractive Summarization withReinforce-Selected Sentence Rewriting》论文阅读笔记

一、处理CNN/DailyMail数据chuliqian

2021-06-28 17:26:49 183

原创 爬取河南石家庄公共资源信息

# -*- encoding:utf-8 -*-import requestsfrom lxml import htmlfrom bs4 import BeautifulSoupimport use_api as apiimport randomimport pymysql as pydef get_page_1(url): ip = api.get_proxy() ...

2019-11-12 21:21:50 434

原创 爬取北京市公共资源信息

# -*- encoding:utf-8 -*-import requestsfrom lxml import htmlfrom bs4 import BeautifulSoupimport use_api as apiimport randomimport pymysql as pydef get_page(url): ip = api.get_proxy() ...

2019-11-12 21:20:18 611

原创 Python爬取芜湖-政务新闻

最近,接到单位给的任务,要爬取芜湖市政务新闻网的所有新闻,并且是要从一个新闻中截取到一段最长的文字。明确需求——规划思路——编写代码——后期优化1、明确需求爬取的是芜湖新闻网的政务新闻,具体图片如下:很明显的能发现,URL的末尾是页数,由此爬取全部新闻不在话下。本来爬了100多条数据的时候,出现了403禁止访问,以为要加代理池或者cookies池,后来发现只要在循环的时候设置...

2019-10-11 21:21:05 283

原创 Oracle查询所有表

select*fromall_tab_comments-- 查询所有用户的表,视图等select*fromuser_tab_comments-- 查询本用户的表,视图等select*fromall_col_comments--查询所有用户的表的列名和注释.select*fromuser_col_comments-- 查询本用户的表的列名和注释sel...

2019-05-22 20:05:41 16121

原创 芜湖 新型智慧城市

1、新型智慧城市 智慧城市就是基于数字城市、物联网和云计算建立的现实世界与数字世界的融合,运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,以实现对人和物的感知、控制和智能服务,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可...

2019-04-16 16:23:44 11928

原创 链表

# -*- coding:utf-8 -*-class Node: def __init__(self,data): self.data = data self.pnext = None def __repr__(self): return str(self.data)class LinkedList: def __...

2018-09-04 09:48:38 123

原创 剑指offer

1、在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。思路:矩阵是有序的,从左下角来看,向上数字递减,向右数字递增,因此从左下角开始查找,当查找到的数字比左下角的数字大时,向右移动,当查找的数字比左下角的数字小时,向上移动。public class...

2018-09-03 16:40:49 136

原创 笔试

1、题目描述明明想在学校中请一些同学一起做一项问卷调查,为了实验的客观性,他先用计算机生成了N个1到1000之间的随机整数(N≤1000),对于其中重复的数字,只保留一个,把其余相同的数去掉,不同的数对应着不同的学生的学号。然后再把这些数从小到大排序,按照排好的顺序去找同学做调查。请你协助明明完成“去重”与“排序”的工作(同一个测试用例里可能会有多组数据,希望大家能正确处理)。Input ...

2018-08-29 12:24:05 164

原创 Numpy基础介绍

NUmpyNumpy是用Python进行科学计算,尤其是数据分析时,所用到的一个基础库。创建数组:最常见的方法就是使用array()函数,参数为单层或嵌套列表。c = array([[1,2,3],[4,5,6]])print c其中[1,2,3]是列表数据。输出:[[1 2 3] [4 5 6]]是一个二维数组。除了列表,array()函数还可以接受嵌套元组

2017-10-21 13:35:03 285

原创 朴素贝叶斯——完整代码

#coding:-utf-8from numpy import *def loadDataSet(): postingList = [['my','dog','has','flea',\ 'problems','help','please'], ['maybe','not','take','him',\

2017-10-20 15:48:04 3831

原创 朴素贝叶斯:从词向量计算概率

函数伪代码:计算每个类别中的文档数目对每篇训练文档:       对每个类别:              如果词条出现在文档中------增加该词条的计数值              增加所有词条的计数值对每个类别:        对每个词条:               将该词条的数目除以总词条数目得到条件概率返回每个类别的条件概率具体代码:#codi

2017-10-18 14:39:07 1295

原创 香农熵和划分数据集

划分数据集的原则是:将无序的数据变得更加有序。信息增益:在划分数据集之前之后信息发生的变化称为信息增益,知道如何计算信息增益,就可以计算每个特征值划分数据集获得的信息增益,获得的信息增益最高的特征就是最好的选择。

2017-10-14 10:19:57 1201

原创 列表推导(List Comprehension)

列表推导(list comprehension)是一种简化代码的优美方法。列入,创建一个包含1到10的平方的列表,普通做法和列表推导:#coding:utf-8import numpyexample0 = []for x in range(10): example0.append(x**2)print example0#[0, 1, 4, 9, 16, 25, 36,

2017-10-13 22:47:36 2610

原创 KNN-算法

三天抽了一点时间来学习KNN,虽然进度比较慢,但作为一只小白,一点一点慢慢学吧#coding:utf-8from numpy import *from os import listdirimport operatorimport matplotlibimport matplotlib.pyplot as plt#建立初始数据def createDataSet(): g

2017-10-10 21:42:18 311

原创 KNN-Dating完整代码

#coding:utf-8from numpy import *import operatorimport matplotlibimport matplotlib.pyplot as plt#建立初始数据def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0.2],[0,0.1]]) labels =

2017-10-09 21:57:31 647 1

原创 KNN算法---解析数据

注:最近在看《机器学习实战》这本书,Python会一点,不过作为小白,还是老老实实的一点一点慢慢啃吧!在KNN算法中,从文本文件中解析数据,在将数据特征输入到分类器之前,必须将待处理数据的格式改变为分类器可以接受的格式,下述函数file2matrix():def file2matrix(filename): #创建指向文件的指针 fr = open(filename)

2017-10-09 14:37:44 452

原创 Python中的operator.itemgetter函数和sorted函数

operator.itemgetter()函数:operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号),例:#coding:utf-8import operatora = [1,2,3]b = operator.itemgetter(1)print b(a)b = operator.itemgetter

2017-10-08 20:43:42 384 1

原创 python中的argsort()函数

#coding:utf-8import numpy as npx = np.array([1,6,4,2,3,5])print xy = x.argsort()print y#输出#[1 6 4 2 3 5]#[0 3 4 2 5 1]如上述所示,argsort()函数先将数组x中的元素从小到大进行排序,然后返回的是各自元素的下标。注:对数组本身元素并不产生影响。

2017-10-08 15:14:26 404

原创 python中tile()函数

#coding:utf-8import numpy as np#在列方向重复[0,0]5次,默认行1次array0 = np.tile([0,0],5)print array0# [0 0 0 0 0 0 0 0 0 0]#在列方向上重复1次,行1次array1 = np.tile([0,0],(1,1))print array1#[[0 0]]#在列方向上重复1次,行2次array

2017-10-08 11:06:37 277

转载 numpy的random模块

numpy的random模块 时间:2015-03-10 06:46:22      阅读:43938      评论:0      收藏:1

2017-07-24 10:24:36 522

转载 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-07-24 10:03:26 147

原创 用RegExp解析TXT文件

在用python处理数据时,是十分方便的,通常我们需要读取某个TXT文件中的数据,Python提供了pandas,该库read_table()函数来直接读取TXT文件。                很简单的一个读取TXT文件的代码。结果输出如下:               通常还有一些其他功能,如果需要排除前五行的代码,需要引入skiprows选项,skiprows = 5,如

2017-03-07 13:46:44 360

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除