• 等级
  • 6090 访问
  • 35 原创
  • 0 转发
  • 142660 排名
  • 13 评论
  • 13 获赞

Scrapy的基本用法

网上有很多关于Scrapy的安装方式,这里不再说了。 新建一个爬虫项目 scrapy startproject quotestutorial 利用上面的命令新建一个scrapy项目,项目名是quotestutorial,因为我爬取的网址是http://quotes.toscrape.com,这是一个格言的网址。现在就可以在当前目录看到一个名为quotestutorial的文件夹。 新建一个爬虫 ...

2019-01-07 22:42:45

高性能Mysql之索引基础

索引的优点 索引大大减少了服务器需要扫描的数据量。 索引可以帮助服务器避免排序和临时表。 索引可以将随机I/O变为顺序I/O。 Hash索引 仅MEMORY存储引擎支持Hash索引 哈希索引是基于哈希表实现的,对于每一行数据,存储引擎都会对所有的索引列计算一个哈希码。哈希码存储在索引中,同时在哈希表中保存指向每个数据行的指针。 创建Hash索引例子如下 create table testhas...

2019-01-05 16:44:15

LeetCode115:不同的子序列 [Python3实现]

题目 给定一个字符串 S 和一个字符串 T,计算在 S 的子序列中 T 出现的个数。 一个字符串的一个子序列是指,通过删除一些(也可以不删除)字符且不干扰剩余字符相对位置所组成的新字符串。(例如,“ACE” 是 “ABCDE” 的一个子序列,而 “AEC” 不是) 示例 1: 输入: S = “rabbbit”, T = “rabbit” 输出: 3 解释: 如下图所示, 有 3 种可以从 S ...

2018-11-29 13:47:18

《Java高并发编程详解》前三章之认识线程、深入理解线程、线程API

《Java高并发编程详解》前三章之认识线程、深入理解线程、线程API 继承 Thread类和实现Runnable接口的区别 继承Thread类时,只能创建不同的类,线程类间的资源不可共享,而实现Runnable后,可以共享线程资源。 一个号码机有四个出票口,总共只能出10张票,现在用java线程实现。 public class NumberMachine { public static...

2018-11-23 21:01:56

LeetCode 887:鸡蛋掉落[Python实现]

你将获得 K 个鸡蛋,并可以使用一栋从 1 到 N 共有 N 层楼的建筑。 每个蛋的功能都是一样的,如果一个蛋碎了,你就不能再把它掉下去。 你知道存在楼层 F ,满足 0 <= F <= N 任何从高于 F 的楼层落下的鸡蛋都会碎,从 F 楼层或比它低的楼层落下的鸡蛋都不会破。 每次移动,你可以取一个鸡蛋(如果你有完整的鸡蛋)并把它从任一楼层 X 扔下(满足 1 <= X &l...

2018-11-21 21:40:16

Pyhton实现决策树算法 MNIST数据集

Pyhton实现决策树算法 MNIST数据集 决策树是一种比较接近人类思维方式的算法,将样本通过每个特征值的信息增益进行划分,从而保证每个划分之后的结果信息熵的消减量达到最大。具体的原理请大家自己查找相关资料。 sklearn实现代码如下, 准确率可以达到90%左右。 from sklearn import tree import numpy as np from tensorflow.examp...

2018-11-20 12:00:05

Python实现支持向量机(SVM) MNIST数据集

Python实现支持向量机(SVM) MNIST数据集 SVM的原理这里不讲,大家自己可以查阅相关资料。 下面是利用sklearn库进行svm训练MNIST数据集,准确率可以达到90%以上。 from sklearn import svm import numpy as np from tensorflow.examples.tutorials.mnist import input_data ...

2018-11-20 11:22:25

Python 实现朴素贝叶斯 MNIST数据集

Python实现朴素贝叶斯算法 朴素贝叶斯是机器学习的一种算法,之所以成为朴素,是因为它的想法“简单”,简单地认为样本中所有的特征都无关,即P(AB) = P(A)P(B)。所以,有 P(y|xi) = P(y)P(x0 = xi0|y)P(x1 = xi1|y)P(x2 = xi2|y)…P(xk = xik|y) y是贝叶斯对于xi是y类的估计大小 最终对xi的预测分类是argmaxP(y|x...

2018-11-19 21:42:32

Tensorflow实现KNN算法

tensorflow实现KNN算法 KNN算法应该是机器学习中比较好理解的一种算法,它没有训练的过程,就是看样本点中与测试点距离(可以是欧式距离,也可以是曼哈顿距离等等)最近的K个点的分类。采用投票的方式,即K个点中最多的分类即是该测试点的分类。 tensorflow的代码如下。 这里我以MNIST数字识别作为样本,最后的测试准确率可以达到95%以上。 import tensorflow as t...

2018-11-18 21:57:53

Tensorflow: MNIST数据集实现DNN、CNN、LSTM神经网络

最近学了一下tensorflow的基本用法,这里做一下总结 全连接深度神经网络(FC-DNN) 全连接深度神经网络,每一层的神经元直接都是全连接,并且不共享权值。在普通的分类的问题中表现的不错,但是对于图片处理等具有网格形式的数据,最好采用CNN(卷积神经网络),对于序列化数据如NLP(自然语言处理)、文字分析等采用RNN(循环神经网络)表现更佳。 DNN用tensorflow的实现代码如下。 i...

2018-11-17 23:10:30

kd-tree找最邻近点 Python实现

kd-tree找最邻近点 Python实现 基本概念 kd-tree是KNN算法的一种实现。算法的基本思想是用多维空间中的实例点,将空间划分为多块,成二叉树形结构。划分超矩形上的实例点是树的非叶子节点,而每个超矩形内部的实例点是叶子结点。 超矩形划分方法 有数据集datalist,其中的数据是Xi,每个Xi由多个特征值组成。首先将所有数据的Xi[0]找出,取得Xi[0]的中位数center,在树的...

2018-10-14 12:30:56

LeetCode:862. 和最短为k的最短子数组[Java实现]

题目 返回 A 的最短的非空连续子数组的长度,该子数组的和至少为 K 。 如果没有和至少为 K 的非空子数组,返回 -1 。 示例 1: 输入:A = [1], K = 1 输出:1 示例 2: 输入:A = [1,2], K = 4 输出:-1 示例 3: 输入:A = [2,-1,2], K = 3 输出:3 提示: 1 <= A.length <= 500...

2018-10-12 11:17:43

Python梯度下降法实现二元逻辑回归

Python梯度在下降法实现二元逻辑回归 二元逻辑回归假设函数 定义当函数值大于等于0.5时,结果为1,当函数值小于0.5时,结果为0.函数的值域是(0, 1)。 二元逻辑回归的损失函数 上图为二元逻辑回归的概率公式,则代价函数可以表示为 损失函数求偏倒数为 可以发现和线性回归的结果是一样的,只不过是假设函数h发生了变化。 正则化 为了避免过拟合,通常在代价函数后加一个正则化项,针对二元逻...

2018-10-01 09:30:53

Python3利用Axes3D库画3D模型图

Python3利用Axes3D库画3D模型图 最近在学习机器学习相关的算法,用python实现。自己实现两个特征的线性回归,用Axes3D库进行建模。 python代码 import numpy as np from scipy import stats import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D ...

2018-09-28 13:39:17

Hadoop学习3-Macbook环境在IDEA中编写MapReduce程序

Hadoop学习3-Macbook环境在IDEA中编写MapReduce程序 新建一个Maven项目 不用说了,普通的Maven项目就行。 加入Hadoop依赖 其中的${hadoop.version}对应自己使用的Hadoop版本 hadoop-client <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop...

2018-09-26 23:19:31

Hadoop学习2-hdfs节点间文件块分配原理

hdfs节点间文件块分配原理 hdfs hdfs的全称是Hadoop Distributed File System,是一个常用的分布式文件系统。当然也可以选择其他文件系统。 hdfs中的文件保存方式 在hdfs中,文件被客户端分解成若干块,每一块都有多份拷贝(拷贝的数量可配置),每一份拷贝在不同的datanode节点上。这就保证了如果其中一台datanode节点宕机,文件数据也不会丢失。 元数...

2018-09-25 18:25:04

CentOS虚拟机修改ip为静态IP地址

CentOS虚拟机修改ip为静态IP地址 很多同学在玩耍虚拟机的时候使用的是NET模式,这种方式为虚拟机申请ip地址默认是DHCP,也就是动态申请的,ip地址经常变化,不方便操作。 在虚拟机里使用ifconfig命令查看自己的虚拟机用的是哪一种网络。 比如我这里使用的是ens33,记住这个。 sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33 ...

2018-09-25 10:47:31

Hadoop学习1-MacBook下Hadoop-2.9的配置

MacBook下Hadoop-2.9的配置 由于研究生课程需要,今天下午搭建了本地Hadoop环境。我用的是Hadoop-2.9版本,不打算一上来就3.x(其实是因为大部分教程都是2.x, 呵呵)。 本人MacBook Pro配置是 8G内存,256GSSD,InterCore I5处理器。跑起来3个CentOS虚拟机+IDEA+网易云+有道云笔记+QQ+微信+20个Chrome网页不成问题,大概...

2018-09-24 23:14:53

PAT题目:1124. Raffle for Weibo Followers (20)

1124. Raffle for Weibo Followers (20) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue John got a full mark on PAT. He was so happy that he decided to hold a raffle(抽奖) f...

2018-09-21 16:55:43

LeetCode:228. 汇总区间[Java实现]

给定一个无重复元素的有序整数数组,返回数组区间范围的汇总。 示例 1: 输入: [0,1,2,4,5,7] 输出: [“0->2”,”4->5”,”7”] 解释: 0,1,2 可组成一个连续的区间; 4,5 可组成一个连续的区间。 示例 2: 输入: [0,2,3,4,6,8,9] 输出: [“0”,”2->4”,”6”,”8->9”] 解释: 2,3,4 ...

2018-07-27 12:06:28

菜鸡儿的架构师之路

关注
  • 计算机软件/研究生
  • 中国 浙江省 杭州市
奖章
  • 持之以恒