自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习思维导图

耗时3周,,,翻译了一篇英文的机器学习导图,将其转换为xmind格式、并且提供源文件以及pdf文件,欢迎各位大佬转发给star…..下面附上github链接:https://github.com/cyzLoveDream/Machine-Learning-Pro

2018-01-10 10:19:16 597

原创 使用python刷Leetcode算法题(第二周)

第二周了。。。又刷了一周,这周明显感觉刷起来更顺了,加油!!!!Pascal’s Triangle英文描述: Given numRows, generate the first numRows of Pascal’s triangle. 例子:For example, given numRows = 5,Return[ [1], [1,1], [1,2,1], [1,

2017-12-30 15:42:38 2969 1

原创 使用python刷Leetcode算法题(第一周)

明年六月份开始找工作,因此从这周开始刷题,希望记录一下刷题的过程,由于种种原因选择了python进行刷题,我会在每周的周日记录下本周在Leetcode中刷过的题,并附上代码以及心得,以作备忘。。。。。 ps: 由于本人太菜,所以柿子只能捡软的捏,本周开始刷的是Leetcode中的easy难度的题,看完不要喷。。。。最后补充一句,python刷题,,,emm

2017-12-23 15:23:14 7386

原创 决策树——中文版

决策树思路: 创建树:获取所有样本的标签列表如果 标签列表为同一个值: 停止划分如果 特征选择完毕: 返回类别最多的标签,停止划分选择最好的特征进行数据样本的分割,并且返回该特征的索引值:就是第几个特征-----------(1)获取到最好特征的特征名字创建以该名字为节点的树字典在特征名称列表中将这个特征删除获取最好特征在整体样本中的取值并且去重遍历所有取值:

2017-09-20 10:49:15 433

转载 对线性回归、逻辑回归、各种回归的概念学习

原文为:http://blog.csdn.net/viewcode/article/details/8794401回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对

2017-09-18 17:47:08 531

原创 win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark

win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark1. 序 经过了一天的修炼,深深被恶心了,在虚拟环境中配置pyspark花式报错,由于本人实在是不想卸载3.6版的python,所以硬刚了一天,终于摸清了配置方法,并且配置成功,不抱怨了,开讲

2017-07-25 20:20:28 5375 2

转载 数据挖掘技术(一)——预处理

1、数据预处理数据预处理技术包括:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。属性的类型:标称(定性的)(值仅仅是不同的名字,即只提供足够的信息以区分对象, 如雇员ID,性别)、序数(定性的)(值提供足够信息确定对象的序, ,如成绩,街道号码)、区间(定量的)(值之间的差别是有意义的,即存在测量单位 如日历日期,摄氏和华氏温度)、比率(定量的)(差和比率都

2017-05-26 20:11:28 526

原创 有关csv格式的数据转换成libsvm格式的数据

需要传入一个pandas的DataFrame格式的数据,将其转换为libsvm格式的数据 代码如下# -*- coding: utf-8 -*-"""Created on Sat May 13 21:50:03 2017@author: Administrator"""import pandas as pd import timedef df2ffm(df, fp):

2017-05-13 23:13:04 4208 2

转载 scikit-learn主要模块和基本使用方法

出处: http://www.cnblogs.com/CheeseZH/ 从网上看到一篇总结的很不错的sklearn使用文档,备份勿忘。引言对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多

2017-04-16 10:35:09 352

转载 IDEA 调试 Hadoop程序

原文地址:http://blog.csdn.net/uq_jin/article/details/522351211、解压Hadoop到任意目录比如:D:\soft\dev\Hadoop-2.7.22、设置环境变量HADOOP_HOME:D:\soft\dev\hadoop-2.7.2HADOOP_BIN_PATH:%HADOOP_HOME%\binHADOOP

2017-03-02 13:21:34 332

原创 IDEA中如果报org.apache.spark.sparkException: A master URL must be set in your configuration

local 本地单线程local[K] 本地多线程(指定K个内核)local[*] 本地多线程(指定所有可用内核)spark://HOST:PORT 连接到指定的 Spark standalone cluster master,需要指定端口。mesos://HOST:PORT 连接到指定的 Mesos 集群,需要指定端口。yarn-client客户端模式 连接到 YARN 

2017-03-02 13:15:07 1945 1

原创 Scala编程思想的课后练习答案

1、类和对象package SecondDemoimport com.AtomicTest.AtomicTest._/** * Created by Administrator on 2016/12/27. */object ClassAndObject { def main(args: Array[String]): Unit = { //region Exercise1

2016-12-27 21:31:44 943

原创 Scala编程程序中的测试小框架

package com.AtomicTestimport java.io.FileWriter/** * A tiny little testing framework,to display results and to introduce & promote * unit testing early in the learning curve.To use in a script or A

2016-12-27 21:17:36 332

原创 Scala编程语言中方法的定义以及assert函数的应用

package Demo/** * Created by Administrator on 2016/12/22. */object MultiplyByTwo { def main(args: Array[String]): Unit = { //region mutiplyByTwo /* def multiplyByTwo(x: Int): Int = {

2016-12-22 20:55:20 1527

原创 匹配搜索引擎的title和快照的正则表达式

360搜索匹配快照的正则表达式http://(\w*\W){1,10}url=http(\W*\w*){1,10}\W360webcache.com(\W\w*){1,80}(\W\w*){1,80}=haosou"\starget=(\W*\w*)"(.)class="\w*">快照360搜索匹配title的正则表达式<h3\s{1,2}class=\W\w*-title\s?\W*(\w*\W)

2016-11-16 15:29:32 699

原创 写爬虫所用到的工具类---(3)[文件]

package Tool;import java.io.*;import java.util.ArrayList;import java.util.List;/** * this is a class that can operation file in the local, * Copyright (C) 2016-2020 All Rights Reserved. * * @auth

2016-11-11 17:55:42 364

原创 写爬虫用到的工具类--(2)[时间格式化]

package Tool;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;/** * 格式化时间的工具类 * this is a time tool class * Copyright (C) 2016-2020 All Rights Reserved. *

2016-11-11 17:54:11 602

转载 java的Collection

线性表,链表,哈希表是常用的数据结构,在进行Java开发时,JDK已经为我们提供了一系列相应的类来实现基本的数据结构。这些类均在java.util包中。本文试图通过简单的描述,向读者阐述各个类的作用以及如何正确使用这些类。Collection├List│├LinkedList│├ArrayList│└Vector│ └Stack└SetMap├Hashtable├HashMap└WeakHashMa

2016-11-11 17:40:10 248

原创 MD5加密

package library.test;import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;/** * Created by syb on 2016/11/11. */public class MD5Test { private final static String[]

2016-11-11 11:10:30 273

原创 MySQL查询大量数据的方法

1、查询第一行记录: select * from table limit 1 2、查询第n行到第m行记录 select * from table1 limit n-1,m-n; SELECT * FROM table LIMIT 5,10;返回第6行到第15行的记录 select * from employee limit 3,1; // 返回第4行 3、查询前n行记录

2016-11-09 20:24:46 1239

转载 redis的命令

REDIS所有的命令<<ABOUT LIST>>LPOP key : 删除并取得LIST头部一个元素RPOP key : 删除并取得LIST尾部一个元素BLPOP key [key ...] timeout : 删除并取得LIST头部一个元素,如果没有就BLOCKBRPOP key [key ...] timeout : 删

2016-10-31 13:07:30 208

原创 写爬虫所用到的工具类--(1)

本文表述了写爬虫所用到的工具类package Tool;import java.util.LinkedList;/** * 这是一个url队列,获取到的网站的href都应该放入这个队里之中,为了保证每个链接只访问一次,所以要去重,如果队里已经包含了这个链接 * 就不将其加入队列 * Created by syb on 2016/10/29. */public class UrlQueue

2016-10-31 12:54:35 431

原创 Java使用URL获取网页内容

使用URLConnection来获取网页的内容,发送get方法,如果所提供的是CSS代码,需求所需要的结果需要用到正则表达式来获取。package Get;import Post.PostMethod;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import

2016-10-31 12:48:41 1089

机器学习——手写LR

机器学习——手写LR………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

2017-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除