自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(182)
  • 资源 (7)
  • 收藏
  • 关注

原创 python脚本对文件转码

脚本转码

2022-06-02 12:53:04 541

原创 2020-09-16

【算法题】算数运算题面描述:给定字符串,其中包含分数、小括号、中括号、大括号、加减乘除,给出结果且结果若为分数,输出分数;若为整数,输出整数。涉及知识点:最小公约数#include <string>#include <algorithm>#include <iostream>#include <vector>#include <map>#include <set>#include <stack>#

2020-09-16 19:29:20 137

原创 编译vim8

从git上下载vim8源码  解压./configure  --enable-gui=no --with-features=huge --without-x --with-tlib=tinfo --disable-nls --enable-multibyte  --with-tlib=ncurses --enable-perlinterp --enable-pythoninterp  --enab

2017-09-28 20:55:37 731

原创 linux系统 终端下 cat中文乱码/vim不乱码 或者 cat不乱码/vim中文乱码

场景:在linux系统终端内,用cat查看中文文档乱码,同一文件利用vim查看不乱码。(secureCRT窗口编码为utf-8)用cat查看中文文档不乱码,同一文件利用vim查看乱码。(secureCRT窗口编码为gb2312)分析:两种情况分别乱码,因此判定cat与vim利用了不同的解码方式,导致发生该种情况。解决方法:更改vim解析文件编码。vimrc中可以设置

2017-07-16 18:42:55 14382

原创 2016.09 找工作总结

从8月到9月,正好一个月,找工作结束,真的是心累的一个月。写一写这段时间的心路历程吧,也希望看到这篇文章的同学坚持下来,尽管找工作很累(身体+心灵),但是坚持就会有好的收获。这篇文章不会涉及面试具体问题,主要是分析分析ML工作面试官都看重什么,但仅仅是个人意见仅供参考。工作方向:机器学习/数据挖掘语言:C/C++ python技能树:逻辑回归、随机森林、GBDT、XGBOOST等基本模

2016-10-02 13:21:55 725

原创 pandas append性能问题

实际场景:向pandas.Dataframe中添加n条数据利用pandas.append方法一条一条向其中添加数据,很慢(我向pandas.Dataframe中添加16*715条数据,pc跑了一晚上)解决方法:利用list将数据封装好,然后再一起加入pandas中测试样例:import randomimport timeitimport pandas as pd

2016-07-24 10:57:14 8430

原创 ubuntu git利用ssh进行push(无需用户名&&密码)

1.根据github官方文档生成ssh,将ssh加入ssh-agent并复制到github个人settings中2.根据github官方文档 更改已有的Repositories的remote方式。$git remote set-url origin [email protected]:USERNAME/OTHERREPOSITORY.git

2016-07-10 21:45:47 1904

原创 kaggle 入门 rossmann xgboost

对商店的某天进行销量预测这个特征处理得很好,用上一个特征进行xgboost得到0.32的成绩,换成该特征得到0.14的成绩特征:Open为空赋为1train中只看open为1且sales>0的记录合并store和train&test所有空值填0'StoreType', 'Assortment', 'StateHoliday'中将0abcd变为01234从日期中抽

2016-06-10 22:15:59 5338

原创 kaggle 入门 rossmann randomForest

预测给定日期的销量特征:对train和test数据:Open为空的都默认为1从日期中提取Day MonthStateHoliday除了0为0外,其他都变为1对store数据:StoreType/Assortment 变哑变量CompetitionDistance 填充0/标准化CompetitionOpenSinceYear 填充0/更改然后

2016-06-10 22:02:40 2353 2

原创 windows64 CPU python2.7 安装theano & keras

根据这里 完成安装了theano包1. 从gitbub上下载并解压theano  地址2. 在cmd中, 执行"conda install mingw libpython". 这将安装mingw g++ 和libpython (前提安装了Anaconda)3. 在cmd中, 进入解压后的theano目录中执行"python setup.py install --record f

2016-06-06 22:20:31 3573

原创 kaggle 入门 Bike sharing Demand prediction

根据天气等因素对自行车租赁数量进行预测利用xgboost进行预测import csvfrom math import log, expimport numpy__author__ = 'Whiker'__mtime__ = '2016/5/26'from datetime import datetimeimport pandasimport xgboostdef

2016-05-27 20:10:11 3027 2

原创 Kaggle 入门 Crime

对犯罪案件进行分类 提交每个类别概率 xgboost成绩 2.35461feature: Category用preprocessing.labelEncoder()转成int型有序变量 时间抽出年月日时分,分钟根据时间对称性abs(m-30) 地址判断是否包含’/’ XY进行标准化 区域和DOW变为哑变量 xgboost参数: “booster”: “gbtre

2016-05-26 10:09:36 1138

原创 kaggle 入门 digit recognizer python randomForestClassifier

kaggl之101新手赛digit recognizer利用python的sklearn包中的randomForestClassifier进行分类import pandas, numpyfrom sklearn.ensemble import RandomForestClassifierdataset = pandas.read_csv("...\\data\\train.csv

2016-05-15 12:35:25 1344

原创 kaggle 入门 digit recognizer Python xgboost

# coding:utf-8import numpy__author__ = 'WHP'__mtime__ = '2016/5/12'__name__ = ''import xgboostimport pandasimport timenow = time.time()dataset = pandas.read_csv("...input\\train.csv")tra

2016-05-13 11:16:48 1688

原创 python 中 xgboost 安装

针对 下载并利用VS2013编译xgboost后安装失败,进行其他方法安装。下载安装 MinGW-64: http://sourceforge.net/projects/mingw-w64/     (PC中未安装MinGW的话)在安装界面 Architecture 选择 x86_64  以及 Threads 选择 win32若安装在 C:\mingw64  则添加PATH

2016-05-12 21:03:14 6784 2

原创 从1到n整数中1出现的次数

求解:从1到n整数中1出现的次数。比如n=12时,1、10、11、12共出现了5个1.这是剑指offer的一道题,但是在网上看到了一个精妙的解法。解:个位出现的次数=n/10           + (个位数>1时:+1)     + (个位数==1时:+1)十位出现的次数=n/100*10    + (十位数>1时:+10)   +(十位数==1时:+n%10+1)百位出

2016-04-22 15:16:38 473

转载 N-gram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串

2015-09-26 21:16:21 412

转载 冰山查询

原文地址在数据仓库领域有一个概念叫Iceberg query,中文一般翻译为“冰山查询”。冰山查询在一个属性或属性集上计算一个聚集函数,以找出大于某个指定阈值的聚集值。以销售数据为例,你想产生这样的一个顾客-商品对的列表,这些顾客购买商品的数量达到3件或更多。这可以用下面的冰山查询表示:Select        P.cust_ID, P.item_ID, SUM(P.qty)

2015-08-05 00:05:25 658

转载 关联挖掘算法FP-Tree

转载地址 原文很详细 请移步原文FPTree算法的基本数据结构,包含一个一棵FP树和一个项头表,每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序,在FPTree中高支持度的节点只能是低支持度节点的祖先节点。另外还要交代一下FPTree算法中几个基本的概念:FP-Tree:就是上面的那棵树,是把事务数据

2015-08-05 00:03:21 1299

转载 Apriori算法详解

一、Apriori算法简介:  Apriori算法是一种挖掘关联规则的频繁项集算法用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。二、实现步骤Apriori算法是一种最有影响的挖掘

2015-08-04 23:55:55 2338

原创 java 模拟浏览器登陆sina微博

总共三次请求:第一次目的获取 nonce servertime pubkey rsakv pcid第二次目的获取 ticket loginUrl第三次目的获取 Cookie1.将用户名先urlencode编码再Base64Encode编码2.根据http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSO

2015-07-24 23:56:00 3516 9

原创 Hadoop2.6+HA+Zookeeper3.4.6+Hbase1.0.0安装

Hadoop2.6+HA+Zookeeper3.4.6+Hbase1.0.0安装Author : WHP 安装hadoop2.6+HA1.准备一台CentOS6.4系统2.环境CentOS6.4 共5台机器名 ip地址 安装软件 运行进程 maste

2015-04-25 17:44:28 13232

原创 ajax初运用

昨晚调ajax调到12点多,终于调通了,记录下心路历程,以备日后回顾。前台把数据变成json数据用ajax传到指定的url,后台把json解析后在封装传回前台,前台显示出来。前台:function whp(){ var json = []; json.push({"id":"123","age":"12","name":"whp"

2015-03-25 11:47:57 447

原创 用HtmlCleaner抓取新闻

HtmlCleaner 用来做html的网页分析 能够做到过滤一些标签  提取一些标签他能够利用xpath来进行筛选,非常方便。这里简单的做点介绍首先导入jar包然后建立对象HtmlCleaner  根据URL和charset来分析出网页所有的标签。然后筛选我们想要的信息Demo如下://HtmlCleaner Demo //读取了http://w

2014-04-14 18:03:51 1263

原创 CF 270D 最长不下降子序列 优化

n个数,每个数属于m个种类中的一种。要求将这n个数重排列,使其种类为1到m这样排列。用最小次数的移动方式。求出这个数列的最大不下降子序列,用n减去这个子序列数。#include#include#include#includeusing namespace std;#define MAXN 5001int s[MAXN],d[MAXN],a[MAXN]

2014-03-24 13:32:36 643

原创 hdu 4699 模拟栈

5种操作I x  光标前插入x这个数D 删除光标前的数L 光标左移一位 若已到最左边移不动,就不移R 光标右移一位 若移不动,就不移了Q k 输出光标前的序列 从1到k中最大连续序列和光标前序列和光标后序列看为两个栈,这样易于操作。sum[x]数组存储前x个数的和dp[x]数组存储前x个数中连续最大和  dp[x]=max(dp[x-1],sum[x]);

2014-03-23 21:19:50 1409 3

原创 CF #div.1 B.good sequences

不会DP真不行啊,要开始练习DP了给n个数,他们是严格上升序列,问他们的子序列保持严格上升且相邻两个有公约数。一个数组max[j]去记录  当前子串的最后一个数 含有因子j的 最长长度。另一个数组dp[x]去记录最后一个数是数x的最长长度。最后遍历一遍dp[x]找最大。#include#includeusing namespace std;#define

2014-03-23 14:41:41 608

转载 Eclipse启动时报错

A Java RunTime Environment (JRE) or Java Development Kit (JDK) must be available in order to run Eclipse. No java virtual machine was found after searching the following locationscd eclipse/

2014-02-22 11:47:16 891

原创 C#项目之 GMap.net 标记点及 绘制多点之间的距离

花了两天的时间,粗略的学习了一下GMap,把学习的地方写下来,不足之处,望大家多多指正!GMap是codeplex上的一个很好的开源项目,可用于winform WPF和windows mobile。GMap官网主要支持对地图(eg.google bing yahoo等等)的运用。通过demo我们可以看到GMap的强大。STEP. 1 准备工作首先我们在官网上下载dll文件,但是我的

2014-02-13 14:58:41 20189 6

转载 socket连接两台电脑通信java

网上看的,测试成功,写下来服务器端import java.net.*;import java.io.*; public class Server { private ServerSocket server; private Socket client; public Server() { boolean flag

2013-12-07 19:22:19 16421 13

转载 CentOS上yum安装JDK

为了搭建测试环境1 在vmware 下安装了x86-64-bit的linux2 新建虚拟机中选择 iso,然后一路next3 root登入新的虚拟机4 查看有无安装jdk命令:#java -version5 yum安装jdk 首先,我们来看看yum库是否有java安装包[root@233797 www.ctohome.com]yum

2013-12-07 17:23:39 38200

转载 JDK在ubuntu下的安装方法

一、下载 JDK (本文以 jdk-7u9-linux-i586.tar.gz 为例)  到 Oracle 官网下载 JDK 。下载地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html 二、解压右击下载下来的 jdk-7u9-linux-i586.tar.gz 压缩包,选择“解压缩到此处

2013-12-07 17:00:07 756

原创 我的java web 更改步骤笔记

先把wabacusBlank导入进来,更改 Tomcat文件夹下的conf/server.xml              在其中添加然后把数据库更改为我之前order这个库然后把ztree中的css和js导进来在tree.html中实验, 注意js前面不能有/   就是不能写成 地址 http://localhost:9090/WabacusBlank/tree.html

2013-11-21 20:08:55 678

转载 用myeclipse创建servlet

原文地址:servlet在Myeclipse中的添加方法   如果不用myeclipse,则写一个servlet,编译,把class放到WEB-INF的classes下面,再修改web.xml,很麻烦。所谓“工欲善其事必先利其MyEclipse是java开发的利器,既然有这么好的利器,那就要好好利用。闲话少说,下面进入正题。(1)首先启动MyEclipse,(至于MyEclipse

2013-11-21 19:27:04 713

原创 重新开始

自从离开了实验室,就没怎么碰过算法了。很遗憾,也许当时应该听从老师的建议,留在acm继续学习算法。唉,事已至此,也没法回头了。只能接续走下去。这几天心情起伏很大,为了自己的渺小与懒惰。要下定决心,鞭策自己了。

2013-10-13 10:26:50 449

原创 mysql 关于 系统服务 和 连接出错:1067

以前安装过mysql 卸载时把所有的都卸了,解压了一个非安装版的。但发现在管理工具-服务 中仍然有mysql,不解。但是没关系,可以删掉。我们用管理员权限(!!)进入cmd进入我们解压后的mysql路径,mysql \ bin > mysqld --remove   (就会把服务删除了)mysql \ bin > mysqld --install    (添加了mysql的服务

2013-07-22 12:46:37 483

原创 二分匹配 点独立集数=n-匹配数

男女有的有喜欢的关系,有的没有,找出一个最大集合,使集合中任何两个学生都没有关系。sample in70: (3) 4 5 61: (2) 4 62: (0)3: (0)4: (2) 0 15: (1) 06: (2) 0 1sample out5此外,输入还可以这样输入啊。。。scanf("%d: (%d)",&u,&k);

2013-06-09 21:07:24 693

转载 linux下安装flash player

因为是64位的,所以下载了一个install_flash_player_11_linux.x86_64.tar.gz然后开始了。1.找到正确目录  #whereis firefox     //这个可以不用最高权限也可以查找到firefox,主要是找到firefox在哪。firefox: /usr/bin/firefox /usr/share/man

2013-06-06 10:01:14 1399

原创 用java将数据库表中内容读取出来并存入txt中

/* * DesktopApplication1.java */package desktopapplication1;import org.jdesktop.application.Application;import org.jdesktop.application.SingleFrameApplication;import java.io.BufferedReader;

2013-05-26 10:14:37 3844

转载 java.sql.resultset方法与使用技巧

原网址接口 ResultSetpublic interface ResultSet 表示数据库结果集的数据表,通常通过执行查询数据库的语句生成。 ResultSet 对象具有指向其当前数据行的指针。最初,指针被置于第一行之前。next 方法将指针移动到下一行;因为该方法在ResultSet 对象中没有下一行时返回false,所以可以在while 循环中使用它来迭

2013-05-26 09:27:49 5421

mingw-win64

MinGW win64位安装包

2016-05-12

xgboost编译后.rar

xgboost利用make编译后,直接在python-package文件夹下进行python setup.py install即可,适用于win64

2016-05-12

git-win64.ext

git-win64

2016-05-12

scipy_0.14.0.win_amd64_py2.7.exe

scipy_0.14.0.win_amd64_py2.7.exe

2016-05-12

numpy-MKL-1.8.0.win-amd64-py2.7

numpy-MKL-1.8.0.win-amd64-py2.7.exe

2016-05-12

java模拟浏览器登陆新浪微博爬取用户信息

java模拟浏览器登陆新浪微博爬取用户信息 新建java工程把包导入即可,仅供参考

2015-07-25

hadoop+HA+zookeeper+hbase配置文件

hadoop2.6.0+HA+Zookeeper3.4.6+hbase1.0.0安装配置步骤详细文档,包括各种xml配置文件

2015-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除