自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 资源 (1)
  • 收藏
  • 关注

原创 jupyter notebook中安装了TensorFlow之后import pandas失败的解决方法

花了一天时间把TensorFlow弄好了,也能在jupyter notebook中引用了,但是第二天来再次打开jupyter的时候ModuleNotFoundError: No module named 'pandas'第一反应就是:pip install pandas然后再次引用一看还是不行,于是在Anaconda Prompt里进入python 再引用pandas,正常啊...

2019-04-03 17:32:06 4774 6

原创 Anaconda安装TensorFlow,并在Jupyter Notebook使用

1,安装Anaconda我安装的是python3.7,这个简单,直接安装即可(感觉有坑)https://repo.continuum.io/archive/下载地址2,创建一个虚拟的TensorFlow环境conda create -n tensorflow python=3.6然后激活3,安装TensorFlow我按照网上的指导,改为清华的镜像conda ...

2019-03-28 11:14:30 1255

原创 TEST

import pandas as pdimport numpy as npimport reimport sklearnimport xgboost as xgbimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlineimport plotly.offline as pypy.init_not...

2019-03-28 08:45:59 246

转载 普吉岛扫盲攻略

(转自同学公众号)普吉岛扫盲攻略(仅适用初级驴友,高级慎入)原创: iEvent kikyocode 本攻略内容初级,地点泰国普吉岛,内容主要为自由行,不包含跟团事项和景点介绍,不包含免税店购物指南,此文送给想去泰国玩的朋友和同事。为什么选择泰国?因为我有一天看了一个泰剧,正好赶上北京很冷,正好赶上元旦放假,正好公众号1岁了。就是生活中有太多需要庆祝,生活要有仪式感。好吧说的我都信了。...

2019-01-25 11:37:44 722

原创 特征工程

内容整理自网上

2019-01-25 11:32:38 129

原创 数据分析大框架

内容整理自网上

2019-01-25 11:31:20 879

原创 数据分析之电商数据分析基础指标体系

图片内容整理自网上 

2019-01-25 11:29:16 918

原创 kaggle API(windows)

kaggle出了一个api,下载数据比较方便了官方地址:https://github.com/Kaggle/kaggle-api一,安装kaggle直接pip install kaggle 即可二,下载kaggle.json文件登录你的kaggle https://www.kaggle.com/<username>/account点击下载会得到一个kag...

2018-10-10 10:41:28 4180

原创 数据挖掘之数据探索

 以上为个人整理资料,资料来源百度。 

2018-09-25 16:08:18 1239

原创 linux命令一些常用总结

1,ftp上传/下载shell:#!/bin/bashftp -n<<!open 10.139.0.130  --打开连接ftp IPuser odsftp AhvRab5!  --用户名和密码prompt off  --关闭密码询问Binary --开启二进制cd /app/odsftp/credit/znn  --文件所在目录mget credit_...

2018-08-14 16:05:20 295

原创 pyspark脚本并行执行

最近一个模型在预测数据时因为数据量太大而速度很慢,想要做成并行,结果不知道怎么动态命名变量。 最后选择动态传入驱动程序名称得以解决 代码如下:#导入所需模块from pyspark import SparkContext,SparkConffrom pyspark.sql import HiveContextimport timeimport pandas as pdimport nu

2018-01-05 16:53:28 3746

原创 kaggle菜鸟-Mercari

kaggle菜鸟入门kaggle上一个预测商品价格的featured级比赛, 描述:预测一个商品的价格 数据情况: train_id or test_id - 训练数据和测试数据的id name - 商品名称 item_condition_id - the condition of the items provided by the seller category_name - 商品分类

2018-01-02 18:02:04 954

原创 数据结构 僵尸问题

数据结构 僵尸问题有1个人和99个僵尸,僵尸吃了人就会恢复成人类,一个人可以让两个僵尸吃,但是被僵尸吃了人就会死掉。问:最后可以活下来的人有多少个? 解: 这个问题可以有二叉树解决,或者的人是二叉树的头,当一个结点有父节点时,父节点一定会被子节点吃掉,也就是只要有子节点的结点,就是被僵尸吃掉的人。如图: 代码如下代码块代码块语法遵循标准markdown代码,例如:package Str

2017-11-30 15:40:36 405

原创 kaggle 入门

kaggle 入门1,注册kaggle账号 以前从来没有接触过kaggle,有次在某乎上看到还有这东西,于是注册了账号准备试试。 注册的时候邮件验证显示不了验证码,在网上看到说是要翻墙才能看到。于是让能翻墙的同学给我填的验证码。 注册之后就随便摸索一下里面的布局和内容 找一个经典入门项目开始分析,选了个Digit Recognizer,因为在机器学习实战上看到过这个案例,就选了它

2017-09-28 17:51:29 1067

原创 Window下安装GraphViz用PyCharm调用

1,下载官网下载,路径:http://www.graphviz.org/Download_windows.php2,安装下载msi然后安装,很简单,一路next, 记住安装路径,后面会设置环境变量3,设置环境变量将安装路径添加到环境变量中4,pip install graphviz刚开始我是将pygraphviz的whl文件下载了,在cmd下 ,

2017-09-01 15:44:35 4869

原创 PLSQL连接32位Oracle客户端

第一步:下载oracle简易版客户端地址:http://download.csdn.net/download/kandeet/4282943解压后目录如下图:配置环境变量:变量名:TNS_ADMIN变量值:D:\oracle\product\10.2.0\client_1\NETWORK\ADMIN(安装目录即可)变量名:NLS_LANG变量值:AMER

2017-08-25 17:19:30 7708

原创 机器学习实战读书笔记-第一章k-近邻算法

才开始看机器学习实战这本书,确实有些晚了,还只能在碎片时间来看,不过确实非常有用接下来按照书上的例子实际操作了一遍,源代码和数据在书前面的链接里就能找到我用的python3+win8.1第一章 k-近邻算法1.工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的

2017-07-14 11:50:38 393 1

原创 PyCharm运行Scrapy小示例

1.新建一个Scrapy项目目录结构如下所示:2.打开pyCharm选择open选择刚新建的项目->ok然后Alt+1下图为目录结构3.定义Item官网上的代码在tutorial\spiders目录下新建dmoz_spider.py并保存,代码如下图4.在tutori

2017-06-20 19:23:35 2223

原创 安装Anaconda+Scrapy出现的问题

CondaHTTPError: HTTP None None for url <https://repo.continuum.io/pkgs/free/win-64/repodata.json.bz2>Elapsed: None

2017-06-18 09:50:37 6851

原创 hive错误锦集

我的hive错误锦集-1性能问题:一个条件的错误在去年写了一个hive脚本,今年需求有变,条件细分。于是脚本改动较大,也没有考虑太多就开始改动。完成后测试运行速度,发现运行时间为改动前的三倍,当时需求很急,草草跑出数据提交了。后来又需要该脚本来用,才想起来效率问题,于是开始研究速度慢下来的原因。第一次将37个步骤的运行时间分离出来,发现问题出在某一个步骤上。这就好办了,单独拿出

2017-03-15 11:43:54 474

原创 数据分析之数据预处理

数据预处理步骤及方法1、缺失值处理1.1、造成缺失值原因缺失值处理原则:使用最可能的值代替缺失值,使缺失值与其他数值之间的关系保持最大。缺失值处理的方法很多,比如删除记录、均值填充、中位数填充等,具体方法如表1所示。2、异常值处理异常值是数据集中偏离大部分数据的数据。从数据值上表现为:数据集中与平均值的偏差超过两倍标准差的数据,其中与

2017-03-06 18:01:53 19155 1

原创 hive查询,连接left join、inner join

1、创建表1.1、直接将一个表里的字段查出来放到新建的表中,字段hive会自动建好。create table temp_table stored as rcfile asselect id, name, age, schoolfrom table1where id=xxx;1.2、将表字段创建好,根据性别和省份分区,(分区字段不用写到字段里)create table temp_table1 (id...

2016-12-08 10:15:28 16042 2

原创 hive优化

学习笔记:hive优化1.join查询操作的基本原则:应该将条目少的表/子查询放在join操作符的左边,原因是在join操作的Reduce阶段,位于join操作符左边的表内容会被加载进内存,将条目少的表放在左边,可以减少发生内存溢出错误的几率。2、group by 优化数据倾斜聚合优化,设置参数hive.groupby.skewindata = true,当选项设定为 true,生

2016-11-28 12:54:23 325

原创 BeanFactory的对象注册与依赖绑定方式。(读书笔记)

Spring的IoC容器之BeanFactory1, Spring提供了两种容器类型:BeanFactory和ApplicationContext》BeanFactory。基础类型IOC容器,提供完整的Ioc服务支持。如果没有特殊指定,默认采用延迟初始化策略(lazy-load)。只有当客户端对象需要访问容器中某个受管对象的时候,才对该受管对象进行初始化以及依赖注入操作。所以,相对来说,B

2016-10-13 20:02:38 469

原创 IoC的基本概念 (读书笔记)

2,IoC的基本概念在我们自己写的代码中,被注入对象会直接依赖于被依赖对象,但是在IOC的情况下,二者之间通过IoC Service Provider来打交道。所有的被注入对象和依赖对象都会由IoC Service Provider统一管理。被注入对象需要什么,告诉IoC Service Provider,IoC Service Provider就会把相应的被依赖对象注入到被注

2016-10-10 13:17:07 399

原创 Spring基本架构(读书笔记)

1,如下图所示,Spring的基本模块划分。(1)Core ContainerCore Container(核心容器)包含有Core、Beans、Context和Expression Language 模块。Core 和Beans模块是框架的基础部分,提供IOC(转控制)和依赖注入。基础概念是BeanFactory,它提供对Factory模式的经典实现来消除对程序性单利模式

2016-10-10 11:01:48 256

原创 数据库优化的方法

数据库优化的方法:1,表结构优化      表结构优化是数据库中最基础也是最重要的。一般根据实际情况处理2,SQL语句优化      是语法层面的优化,最重要的是处理逻辑的优化,也需要根据实际情况处理,而且要和索引缓存等配合使用。一个通用的做法是:      首先要将涉及大叔级的业务的SQL语句执行时间详细记录下来,然后通过仔细分析日志(同一条语句对不同条件的执行时间也可能不同

2016-09-29 12:06:59 307

原创 虚拟机类加载机制

虚拟机类加载机制1,类加载的时机类从被加载到虚拟机内存中开始,到卸载出内存为止,他的整个生命周期包括:加载(Loading)、验证(Verification)、准备(Preparation)、解析(Resolution)、初始化(Initialization)、使用(Using)、和卸载(Unloading)7个阶段。其中验证、准备、解析3个部分统称为链接(Linking),这7个阶段的发

2016-09-21 18:44:51 227

原创 JDK的命令行工具

JDK的命令行工具1JDK/bin目录下的文件这些工具的大小都在25k左右。2,jps:虚拟机进程状况工具命令格式:jps [options] []hostid3,jstat: 虚拟机统计信息监视工具jstat(JVM Statistics Monitoring Tool)是用于监视虚拟机各种运行状态信息的命令行工具。它可以显示本地或远程虚拟机进

2016-09-19 11:49:18 211

原创 类文件结构

类文件结构1,魔数和Class文件的版本每个Class文件的头4个字节称为魔数(Magic Number).他的唯一作用是确定这个文件是否为一个能被虚拟机接收的Class文件。紧接着魔数的4个字节存储的是Class文件的版本号:第5和第6个字节是次版本号(Monor Version),第7和第8个字节是主版本号(Major Version)。2,常量池紧接着主次版本

2016-09-19 09:46:55 486

原创 线程和进程之间的区别

线程和进程:1,线程的基本概念:线程是进程中执行运算的最小单位,是进程中的一个实体,是系统独立调度和分配的基本单位。虚拟机栈,本地方法栈,程序计数器,都是线程私有的。线程可以和同一个进程中的其他线程共享进程拥有的资源,如:方法区,堆,本地接口,一个线程可以创建和撤销另一个线程,同一进程中的多个线程之间可以并发执行。这样的好处:1,易于调度。2,提高并发性。通过线程可以方便有效的实现

2016-09-18 11:12:08 1242

原创 kafka+Strom小例子

access.log->kafka->storm1.利用shelllogger.sh脚本实时产生日志数据shelllogger.sh脚本#!/bin/sh# start cmd:# nohup sh shellcrawler.sh  >> shellcrawler.log 2>&1 &# set timerg_getTime=""function get

2016-09-17 17:06:37 731

原创 腾讯笔试编程题(2017暑期实习生编程题)

1 编程题]构造回文给定一个字符串s,你可以从中删除一些字符,使得剩下的串是一个回文串。如何删除才能使得回文串最长呢?输出需要删除的字符个数。输入描述:输入数据有多组,每组包含一个字符串s,且保证:1输出描述:对于每组数据,输出一个整数,代表最少需要删除的字符个数。输入例子:abcdagoogle输出例子:22impo

2016-09-12 23:00:23 1002

原创 搜狐笔试编程题(2016研发岗)

两个搜狐的程序员加了一个月班,终于放假了,于是他们决定扎金花渡过愉快的假期 。游戏规则:共52张普通牌,牌面为2,3,4,5,6,7,8,9,10,J,Q,K,A之一,大小递增,各四张; 每人抓三张牌。两人比较手中三张牌大小,大的人获胜。 对于牌型的规则如下: 1.三张牌一样即为豹子 2.三张牌相连为顺子(A23不算顺子) 3.有且仅有两张牌一样为对子 豹子>顺子>对子>普通牌型 在牌型一样时

2016-09-06 19:41:06 1391

原创 最长递增子序列,(搜狐[编程题]马戏团)

程序员代码面试指南(左程云)读书笔记 第四章最长递增子序列,(搜狐[编程题]马戏团)题目:给定数组arr ,返回arr的最长递增子序列。例如:arr=[2,1,5,3,6,4,8,9,7] 返回【1,3,4,8,9】先介绍O(N*N)的方法,1,生成长度为N数组dp,dp[i]表示在以arr[i]这个数结尾的情况下,arr[0..i]中的最大递增子序列长度。2,对第一个

2016-09-05 16:55:33 762

原创 KMP算法详解

程序员代码面试指南(左程云)读书笔记 第九章KMP算法详解(今天听力左程云老师在牛客网上的课,讲的其中一个就是kmp,所以决定把这个过程记下来,巩固学习。)题目:给定两个字符串str和match,长度分别为N和M。实现一个算法,如果字符串str中含有子串match,则返回match在str中的开始位置,不含则返回-1;举例:str="acbc", match="bc"

2016-09-01 11:35:47 565

原创 在二叉树中找到两个节点的最近公共祖先

程序员代码面试指南(左程云)读书笔记 第三章在二叉树中找到两个节点的最近公共祖先题目:      给定一棵二叉树的头节点head,以及这棵二叉树的两个节点o1和o2,请返回o1和o2的最近公共祖先节点。解答:       后序遍历二叉树,假设遍历到的当前结点为cur,因为是后序遍历,所以先处理cur的两颗子树,假设处理cur左子树时返回left,处理右子树时返回right.

2016-08-30 17:21:54 8124

原创 复杂链表的复制(复制含有随机指针节点的链表)

程序员代码面试指南(左程云)读书笔记 第三章复杂链表的复制(复制含有随机指针节点的链表)题目:输入一个复杂链表(每个节点中有节点值,以及两个指针,一个指向下一个节点,另一个特殊指针指向任意一个节点),返回结果为复制后复杂链表的head。(注意,输出结果中请不要返回参数中的节点引用,否则判题程序会直接返回空)public class ListRandom { class 

2016-08-29 14:49:57 936

原创 二叉树的序列化和反序列化

程序员代码面试指南(左程云)读书笔记 第三章二叉树的序列化和反序列化题目: 二叉树被记录成文件的过程叫做二叉树的序列化,通过文件内容重建原来的二叉树的过程叫做二叉树的反序列化。给定一棵二叉树的头节点head,并已知二叉树节点值得类型为32为整形。请设计一种二叉树序列化和反序列化的方案,并用代码实现。方法一 通过先序遍历实现序列化和发序列化 首先假设序列化的结果字符串为st

2016-08-24 20:53:37 303

原创 数据结构 找到二叉树中的最大搜索二叉子树

程序员代码面试指南(左程云)读书笔记 第三章   找到二叉树中的最大搜索二叉子树题目:给定一棵二叉树的头节点head, 已知其中所有节点的值都不一样,找到含有节点最多的搜索二叉子树,并返回这颗子树的头节点。 例如:如图二叉树          这颗二叉树的最大搜索二叉子树如图所示要求:         如果节点数为N,

2016-08-23 19:42:26 2187

ssh仓库管理系统

ssh仓库管理系统

2016-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除