自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 资源 (4)
  • 收藏
  • 关注

原创 解决Spark窗口统计函数rank()、row_number()、percent_rank()不能忽略空值问题

目录【问题背景】【解决方法1:计算空值占比、非空排序最小值,对结果进行映射】【解决方法2:将排序列单独选出来,filter空值后再排序】【解决方法3:进行两次排序,根据两次排序结果计算最终结果】【优缺点对比】【解决方法推荐】【问题背景】假如我们手头上有100w篇文章,想根据阅读量、点赞率对文章进行评分(阅读量>1000时,点赞率才有效)。这里拿5篇文章作为例子...

2020-01-23 22:12:06 4354 1

转载 计算机视觉数据集大全 - Part2

转载自http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htmIndex by TopicAction Databases Agriculture Attribute recognition Autonomous Driving Biological/Medical Camera calibration Face and...

2020-01-23 22:10:50 10525

转载 计算机视觉数据集大全 - Part1

转载自http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htmIndex by TopicAction Databases Agriculture Attribute recognition Autonomous Driving Biological/Medical Camera calibration Face and...

2020-01-23 22:10:38 16018

原创 解决Spark窗口统计函数rank()、row_number()、percent_rank()的OOM问题

目录1. 窗口函数功能介绍一个简单的例子一个复杂的例子2.数据量过大时的OOM问题问题及原因解决方法1:用SQL处理解决方法2:转为rdd进行处理解决方法3:将数据量过多的分组进行随机打散,从而近似排序1. 窗口函数功能介绍在利用Spark SQL按分组统计每个组内topN,或者相对某个指标归一化到[0,1]区间上时,可以使用spark的窗口函数...

2020-01-22 15:38:43 4555

原创 关于spark persist()的两个坑

目录【坑1:persist() + show()不能缓存全部数据】【坑2:unpersist()一个rdd时会同时unpersist()子RDD】【坑1:persist() + show()不能缓存全部数据】对于一个有100个分区的数据,假如你对其persist()后进行show(10),那么spark只会把第一个分区缓存起来,show前10条数据。如果你show的数据量超过了一个...

2020-01-22 15:16:10 4333 2

原创 Spark如何检查DataFrame/RDD是否已缓存

【方法1:在spark UI中查看】在spark脚本运行后,打开spark UI的Storage界面,便能看到当前已缓存的所有rdd【方法2:利用tempView和catalog】先把数据注册为临时表,然后可以通过catalog来检查临时表是否已缓存package high_quality._historyimport org.apache.log4j.{Level, L...

2020-01-22 14:52:25 952

原创 Spark临时表tempView的注册/使用/注销

【背景】Spark脚本中可以通过sparkContext.sql("xxxx")的方式直接调用SQL代码,但其限制是处理的表必须是在spark context中已注册的临时表。临时表不会占用额外内存,可以理解为是对内存空间重新命名了一下而已。【临时表的创建】// 创建它的SparkSession对象终止前有效df.createOrReplaceTempView("tempVi...

2020-01-22 14:41:07 5258

原创 程序员护眼指南:Windows设置护眼色

白领工作难免长期面对电脑屏幕,时间长了会导致眼镜干涩、视力加深等问题,推荐走以下几步:(1)为显示器贴上防蓝光膜,可在淘宝上搜索“显示器防蓝光膜”(2)降低屏幕亮度,安装护眼软件,如f.lux,或在腾讯电脑管家中打开工具箱-健康小助手-护眼卫士来调整护眼色的色调。个人推荐后者。(3)佩戴防蓝光眼镜,可在京东上搜索“小米防蓝光眼镜”,在小米旗舰店上购买99元的防蓝光眼镜。近视的朋友建议下...

2020-01-22 11:33:19 1671

原创 通过U盘安装windows简易教程

目录【准备工具】【系统盘制作】【系统安装】【准备工具】windows镜像(从MSDN下载)USB启动盘制作工具Rufus4G以上的U盘【系统盘制作】1.将U盘链接电脑,以管理员身份运行Rufus2.安装选项设备:U盘镜像:你下载好的iso文件分区方案和目标类型系统:一般选用于 BIOS 或 MBR 计算机的 UEFI-CSM 分区方案新卷标:...

2020-01-22 11:15:01 2231

原创 将Sumline Text添加到右键

目录【问题原因】【简单的解决方法】【复杂的解决方法】【将sublime text设置为某些文件格式的默认打开方式】【问题原因】有时候我们安装完Sublime Text时会发现windows右键没有open with sublime text选项,其原因时安装过程中没有勾选Add to explorer context menu。【简单的解决方法】重新安装一遍并注...

2020-01-22 10:57:52 315

原创 win10如何添加开机启动项

【适用场景】当你想让某个程序开机自启,如微信、网易云音乐等,但该软件没有开机自启设置。【设置方法】将该程序的快捷方式放到以下路径即可:C:\ProgramData\Microsoft\Windows\Start Menu\Programs\StartUp\...

2020-01-22 10:38:36 272

原创 windows安装Java JDK教程

目录1. jdk下载2.jdk安装3.环境变量配置4.jdk测试1. jdk下载https://www.oracle.com/technetwork/java/javase/downloads/index.html下载对应系统版本的jdk (32/64位)2.jdk安装(1)更改jdk目录(2)等待几分钟后,更改jre目录,其中jre目录要和jdk目录放...

2020-01-22 10:31:39 157

原创 sys.stdout.flush()和python -u的作用

【sys.stdout.flush()】当在某些平台上调度python脚本时,发现print出来的内容并不会实时显示。其原因是print函数会将所打印的内容会先送到缓冲区,等待缓冲区满了之后才会一次性输出。因此我们可以调用sys.stdout.flush()函数来强制刷新缓冲区,例子如下:import timeimport sys# 每秒会输出一个数字for i in range...

2020-01-22 10:30:53 470

原创 一键ghost提示“Cannot open image file'1.4 I:/~1/c_pan.gho'”解决方法

【错误原因】Cannot open image file'1.4 I:/~1/c_pan.gho' 指的是第一个硬盘第四个分区 I盘的 ~1路径下找不到c_pan.gho文件对于 1.1 C: 1.2 E: 1.3 H: 之类的问题都是同样道理可能的原因有:(1)你曾经做过分区操作,或者是用U盘来还原系统,或者更改过驱动器编号。(2)I盘的这个文件真的没了。(如果遇...

2020-01-21 17:52:50 7425

原创 Eclipse出现 you must restart adb and eclipse的解决办法

1.打开命令行,输入adb kill-server2.再输入adb start-server3.重启eclipse若第二步出现错误提示:adb server is out of date. killing... ADB server didn't ACK * failed to start daemon *解决方法:1.命令行输入ne...

2020-01-21 17:43:05 218

原创 Android SDK更新太慢解决方法

打开androidSDKmanager的options菜单httpproxyserver填 :mirrors.neusoft.edu.cnhttpproxyport填 80others的forcehttps://…sources*** 打勾重新reload之后,就可以正常更新...

2020-01-21 17:41:54 326

原创 让Win10 win+e显示我的电脑的方法

按win+e后进入文件资源管理器,点击右上角的下三角符号V,选中“查看”,点击“选项”在“常规”页面下,选择“打开文件资源管理器时打开”--“此电脑”,点击确定。附Win10快捷键:Win键+Tab:激活任务视图Win键+A:激活操作中心Win键+C:通过语音激活CortanaWin键+D:显示桌面Win键+E:打开文件管理器Win键+G:打开Xbox游戏录制工...

2020-01-21 17:32:20 1947

原创 Linux查看CPU核数、型号、内存等信息

# 物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l#核数 = 物理CPU个数 X 每颗物理CPU的核数cat /proc/cpuinfo| grep "cpu cores"| uniq# 逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数cat /proc/cpuinfo|...

2020-01-21 17:29:23 210

原创 更换jupyter notebook主题

目录(1)安装jupyterthemes(2)查看已有主题(3)切换主题(4)启动jupyter查看效果(5)重置主题(6)各主题效果图(1)安装jupyterthemespip install --upgrade jupyterthemes(2)查看已有主题jt -l(3)切换主题jt -t 主题名称(4)启动jupyter查...

2020-01-21 16:44:59 340

原创 中文常用停用词表

目录百度停用词表哈工大停用词表四川大学机器智能实验室停用词库中文停用词表百度停用词表--?“”》--ableaboutaboveaccordingaccordinglyacrossactuallyafterafterwardsagainagainstain'tallallowallowsalmostalonealongalr...

2020-01-21 16:21:10 5425

原创 解决git的fatal: Authentication failed问题

【问题原因】 git密码不正确【解决方法】 打开 控制面板 -> 用户账户 -> 管理Windows凭据 -> 编辑git密码即可

2020-01-21 16:12:32 170

原创 类别型特征处理:sklearn中的one-hot和PCA

在机器学习的分类、聚类等任务中,我们经常会遇到一个或多个类别型的数据特征,如衣服颜色、商品类别等,这些特征的取值之前并无相对大小关系,难以直接作为机器学习模型的输入,因此我们先要对这类特征做转换才能作为模型输入。对于类别型特征,需要需要做2件事:(1)进行one-hot转换(2)进行PCA降维新建一个类别型的特征列import numpy as npfro...

2020-01-21 16:09:35 3950

原创 Linux提示permission denied或Text file busy解决方法

【Permission denied】错误原因:文件没有执行权限解决方法:输入chmod 777 xxx.sh,改变文件权限【Text file busy】错误原因:可能是文件被占用解决方法1:输入fuser xxx.sh,查看占用这个文件的进程的PID,然后输入kill -9 该进程的PID 结束这个进程解决方法2::那就断开ssh重新登录...

2017-11-30 14:36:01 1311

原创 mxnet finetune例子(只finetune某几层)

目录1. 下载预训练模型2. 转换数据格式3. 定义数据读取函数4. 定义模型读取函数5.模型训练6.完整代码:1. 下载预训练模型百度mxnet model zoo下载相应的pre-train model:http://mxnet.incubator.apache.org/model_zoo/index.html2. 转换数据格式把数据转为.re...

2017-11-22 13:19:54 4167 4

原创 非root用户安装python第三方模块出现Permission denied的解决办法

非root用户在使用pip安装模块的时候,将会报“Permission denied”的错误,这是因为python模块默认的安装路径是/usr/local/lib/python2.7/dist-packages/,这是系统路径,需要root权限。【解决方法】用户可以设置自己的site-packages目录,该路径是~/.local/lib/python2.7/site-package...

2017-11-21 16:50:31 23611 2

转载 sklearn特征工程

参考:使用sklearn做单机特征工程1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filter    3.1.1 方差选择法...

2017-10-29 11:46:57 311

原创 图片风格转换(附TensorFlow代码)

论文A NeuralAlgorithm of Artistic Style. 2015 NIPS思路(1)网络结构解析采用ImageNet数据集预训练一个VGG19网络出来,得到网络结构如下图:其中紫色框中的5个layer代表图像风格层,绿色框代表内容层。· 对于输入的风格图片,通过前向传播计算出5个风格层的特征图,元素平铺然后求内积(例如28*28平铺为784...

2017-10-18 22:39:48 7288 6

原创 Windows安装GPU版本TensorFlow

目录1、Python安装2、Python IDE安装3、Cuda安装4、TensorFlow’安装5、Tflearn安装方法1:6、TensorBoard安装安装之前建议先上TensorFlow看看各个模块的版本要求,免得走弯路:https://www.tensorflow.org/install/install_windows可见CUDA的版本要求是8.0,c...

2017-10-15 11:01:42 5451 2

原创 TensorBoard菜鸟教程(包含TFlearn例子)

目录1. 简介2. TnesorBoard启动3.代码解释4.补充例子1. 简介网上关于TensorBoard有很多介绍,但作为一名小白很难操作起来,实现过程中困难重重。本文章从实例解析tensorboard的使用方法。其他文字方面的介绍(如TensorBoard是什么、TensorBoard的作用)可参考大神们的博客。以下代码转自http://www.jianshu.co...

2017-10-13 12:18:29 3399 4

原创 windows环境下python2.7、pycharm、numpy_mkl、scipy、sklearn、Matplotlib、jupyter完整安装教程

本文的最终目标是在windows环境下安装pycharm并安装pip以及一些最基本的包(numpy、mkl、scipy、matplotlib)。TIPS:实践后发现,其实装个Anaconda省事多了。上Anaconda官网下载对应的python版本,就可以当做内核使用了。记得把系统的环境变量的python路径改过来目录1. 安装python:2. 安装pycharm编译器...

2017-05-13 16:02:28 4201 2

原创 NYOJ 74 小学生算术题

描述很多小学生在学习加法时,发现“进位”特别容易出错。你的任务是计算两个三位数在相加时需要多少次进位。你编制的程序应当可以连续处理多组数据,直到读到两个0(这是输入结束标记)。输入输入两个正整数m,n.(m,n,都是三位数)输出输出m,n,相加时需要进位多少次。样例输入123 456555 555123 5940 0样例输出03 1

2016-03-10 18:27:00 630

原创 ACM 阶乘的精确值

输入不超过1000的正整数n,输出n!=1*2*3*...*n的精确结果。样例输入:30样例输出:265252859812191058636308480000000#include int ans[40]; int main() { memset(ans, 0, sizeof(ans)); int n,c=0; scanf("%d",

2016-03-10 18:26:23 345

原创 HDU 2.2.1 Fibonacci

Problem Description2007年到来了。经过2006年一年的修炼,数学神童zouyu终于把0到100000000的Fibonacci数列(f[0]=0,f[1]=1;f[i] = f[i-1]+f[i-2](i>=2))的值全部给背了下来。接下来,CodeStar决定要考考他,于是每问他一个数字,他就要把答案说出来,不过有的数字太长了。所以规定超过4位的只要说出前4位就

2016-03-10 18:25:29 301

原创 HDU 2.1.8 小数化分数2

Problem DescriptionRay 在数学课上听老师说,任何小数都能表示成分数的形式,他开始了化了起来,很快他就完成了,但他又想到一个问题,如何把一个循环小数化成分数呢?请你写一个程序不但可以将普通小数化成最简分数,也可以把循环小数化成最简分数。 Input第一行是一个整数N,表示有多少组数据。每组数据只有一个纯小数,也就是整数部分为0。小数的

2016-03-10 18:24:53 282

原创 HDU 2.1.7 Leftmost Digit

Problem DescriptionGiven a positive integer N, you should output the leftmost digit of N^N. InputThe input contains several test cases. The first line of the input is a single intege

2016-03-10 18:24:15 322

原创 HDU 1.3.8 Who's in the Middle

Problem DescriptionFJ is surveying his herd to find the most average cow. He wants to know how much milk this 'median' cow gives: half of the cows give as much or more than the median; half give as

2016-03-10 18:23:27 234

原创 HDU 1.3.6 Rank

Problem DescriptionJackson wants to know his rank in the class. The professor has posted a list of student numbers and marks. Compute Jackson’s rank in class; that is, if he has the top mark(or is t

2016-03-10 18:22:41 252

原创 HDU 1.3.5 Wooden Sticks

Problem DescriptionThere is a pile of n wooden sticks. The length and weight of each stick are known in advance. The sticks are to be processed by a woodworking machine in one by one fashion. It nee

2016-03-10 18:21:59 279

原创 HDU 1.3.4 百步穿杨

Problem Description时维九月,序属三秋,辽军大举进攻MCA山,战场上两军正交锋.辽军统帅是名噪一时的耶律-James,而MCA方则是派出了传统武将中草药123.双方经过协商,约定在十一月八日正午十分进行射箭对攻战.中草药123早早就开始准备,但是他是武将而不是铁匠,造弓箭的活就交给聪明能干的你了,现在告诉你每种弓箭规格,即箭身的长度,以及每种规格弓箭所需要的数目,要求你把需要

2016-03-10 18:21:30 616

原创 HDU 1.3.3 排名

Problem Description今天的上机考试虽然有实时的Ranklist,但上面的排名只是根据完成的题数排序,没有考虑 每题的分值,所以并不是最后的排名。给定录取分数线,请你写程序找出最后通过分数线的 考生,并将他们的成绩按降序打印。   Input测试输入包含若干场考试的信息。每场考试信息的第1行给出考生人数N (

2016-03-10 18:21:05 311

sklearn特征工程

sklearn的各种特征工程函数,包括归一化、缺失值处理、特征选择等,参考博客http://www.cnblogs.com/jasonfreak/p/5448385.html

2017-10-29

最优化计算方法-蒋金山版-华南理工大学出版社

最优化计算方法,蒋金山版,华南理工大学出版社

2015-10-23

操作系统大作业-文件系统、IPC

操作系统大作业,基于C语言的文件系统和IPC问题,包含实验报告、展示PPT。-Project for operating system, inculding file system and IPC problem

2015-10-23

编译原理实验TINY+编译器

编译原理实验,设计一个TINY+编译器,包含 parser, analyzer, code generator三部分.包含实验报告

2015-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除