qq_32659887-CSDN博客

原创大数据开发笔试题

系统抖动：在请求分页存储管理中，从主存(DRAM)中刚刚换出(Swap Out)某一页面后(换出到Disk)，根据请求马上又换入(Swap In)该页，这种反复换出换入的现象，称为系统颠簸，也叫系统抖动。产生该现象的主要原因是置换算法选择不当。即对刚被替换出去的页，立即又要被访问。需要将它调入，因无空闲内存又要替换另一页，而后者又是即将被访问的页，于是造成了系统需花费大量的时间忙于进行这种频...

2018-05-20 21:35:36 2689

原创京东2016招聘数据开发、数据研究、算法岗位

思路：动态背包问题import java.util.*;class Sugar{ int cat; int x; Sugar(int cat,int x,int index){ this.cat=cat; this.x=x; }}public class Main{ public static void mai...

2018-04-16 12:21:13 380

原创今日头条18春招算法笔试

存在n+1个房间，每个房间依次为房间1 2 3…i，每个房间都存在一个传送门，i房间的传送门可以把人传送到房间pi(1<=pi<=i),现在路人甲从房间1开始出发(当前房间1即第一次访问)，每次移动他有两种移动策略： A. 如果访问过当前房间 i 偶数次，那么下一次移动到房间i+1； B. 如果访问过当前房间 i 奇数次，那么移动到房间pi；现在路人甲想知道移动...

2018-04-14 17:52:50 855

原创今日头条17研发岗笔试

头条的2017校招开始了！为了这次校招，我们组织了一个规模宏大的出题团队，每个出题人都出了一些有趣的题目，而我们现在想把这些题目组合成若干场考试出来，在选题之前，我们对题目进行了盲审，并定出了每道题的难度系统。一场考试包含3道开放性题目，假设他们的难度从小到大分别为a,b,c，我们希望这3道题能满足下列条件： a<=b<=c b-a<=10 c-b<=10 所有出题...

2018-04-14 10:43:01 707

原创今日头条18春招第二批算法笔试

作为一个手串艺人，有金主向你订购了一条包含n个杂色串珠的手串——每个串珠要么无色，要么涂了若干种颜色。为了使手串的色彩看起来不那么单调，金主要求，手串上的任意一种颜色（不包含无色），在任意连续的m个串珠里至多出现一次（注意这里手串是一个环形）。手串上的颜色一共有c种。现在按顺时针序告诉你n个串珠的手串上，每个串珠用所包含的颜色分别有哪些。请你判断该手串上有多少种颜色不符合要求。即询问有多少种颜色在...

2018-04-13 23:11:21 875

原创今日头条18校招算法笔试

P为给定的二维平面整数点集。定义 P 中某点x，如果x满足 P 中任意点都不在 x 的右上方区域内（横纵坐标都大于x），则称其为“最大的”。求出所有“最大的”点的集合。（所有点的横坐标和纵坐标都不重复, 坐标轴范围在[0, 1e9) 内）如下图：实心点为满足条件的点的集合。请实现代码找到集合 P 中的所有 ”最大“ 点的集合并输出。输入描述:第一行输入点集的个数 N，接...

2018-04-13 18:13:16 391

原创今日头条18校招第一批算法笔试

给定一个数组序列, 需要求选出一个区间, 使得该区间是所有区间中经过如下计算的值最大的一个：区间中的最小数 * 区间所有数的和最后程序输出经过计算后的最大值即可，不需要输出具体的区间。如给定序列 [6 2 1]则根据上述公式, 可得到所有可以选定各个区间的计算值: [6] = 6 * 6 = 36; 注意：区间顺序不能变，不可排序 [2] = 2 * 2 = 4; ...

2018-04-13 17:57:22 418

原创《Wide & Deep Learning for Recommender Systems》

推荐系统：检索：机器学习模型+人工规则，根据Item特征和query生成候选集。排序：wide&deep模型对候选集中的query-Item对进行打分排名。排序模型：模型原理：wide：广义线性模型：优点：简单、扩展性好、可解释性好。利用分类特征及其交叉特征可以很好的实现对共现特征对的记忆，挖掘历史信息中的相关特征或Item。缺点：依赖大量的人工特征工程。要实现泛化需要通过更粗粒度

2017-12-13 21:25:10 266

原创 SQL

mysql (1)控制台单句执行 (2)sql文件执行 (3)navicat_mysqlpython 连接 mysqlhdfs+derby+spark.sql(.enableHiveSupport()) hdfs+mysql+spark.sql(.enableHiveSupport()) (1)spark.sql(‘………….’) 使用HIVEQL语句 (2)spark.datafram

2017-12-06 19:58:13 142

原创远程连接Ubuntu14服务器

Windows7—->ubuntu14SSH命令控制方式xshell远程桌面方式ubuntu 上sudo apt-get upate#安装xrdp sudo apt-get install xrdp #安装vnc4server sudo apt-get install vnc4server tightvncserver#安装xubuntu-desktop sudo apt-get

2017-11-17 20:03:08 455

原创 tensorflow_tensorboard

#!/usr/bin/env python# -*- coding: utf-8 -*-from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport argparseimport sysimport tensorflow as t

2017-11-15 18:08:21 229

原创 Python for ML 笔记

1. 正则化正则化是解决特征共线性、过滤数据中噪音和防止过拟合的有效手段。正则化背后的原理是引入额外的信息（偏差）老惩罚过大的权重，起到偏差-方差平衡。2.逻辑斯蒂回归 VS SVM在解决现实的分类问题时,线性逻辑斯蒂回归和线性SVM通常效果近似。逻辑回归目标是最大化训练集的条件似然,使得她更易受奇异值影响。SVM只关心那些离决策界最近的点(即,支持向量)。另一方面,逻辑斯蒂回归的优点是易于实现

2017-10-23 15:22:17 492

原创 Hadoop单机伪分布式安装

Hadoop伪分布式：这种模式是在一台机器上各个进程运行Hadoop的各个模块，伪分布式的意思就是虽然各个模块是在各个进程上分尅运行的，但是只是运行在一个操作系统上，并不是真正的分布式。关闭防火墙su rootservice iptables status 查看防火墙状态service iptables stop 临时关闭chkconfig iptables off 永久关闭，重启生效安装J

2017-10-18 16:41:22 319

转载机器学习常见的算法面试题总结

文章转载自：天池公众号P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B) 所以有：P(A|B)=P(B|A)*P(A)/P(B) 对于给出的待分类项，求解在此项出现的条件下各个目标类别出现的概率，哪个最大，就认为此待分类项属于哪个类别工作原理假设现在有样本x=(a1,a2,a3,…an)这个待分类项(并认为x里面的特征独立) 再假设现在有分类目标Y={y1,y2,y3,y4..yn}

2017-10-17 15:06:24 560

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-10-17 14:48:39 188

原创 DSSTNE

官方文档依次建立，so easy 文档cudn安装没有给定教程，推荐参考作者写的很详细，遇到的问题和我一样，瞬间得到解决由于个人gpu为Pascal架构，查了一下是比费米级和开普勒更高级的新的gpu,所以在运行测试案例时遇到问题：Error: invalid device function launching kernel kScaleAndBias_kernel 经查证作者回复，是因为

2017-10-12 08:53:01 351

翻译预测广告点击率-FACEBOOK2014

摘要本文提出了一个模型结合逻辑回和决策树，比单用任何其中一种方法都提高了3%。然后我们探索了多种参数如何影响系统性能。最重要的是有合适的特征：那些捕获关于用户和广告的历史信息。一旦我们有了合适的特征和合适的模型，其他因素的作用就很小。通过对新鲜的数据最优的处理，学习率策略和数据采样轻微的提高了模型表现。介绍实验设置：为了实现严密的和可控的试验，我们准备了选取13年第四季度中任意一周的数据作为线下

2017-10-12 08:37:26 717

原创装机

Ubuntu安装分区：在windows下找一个空盘，删除卷得到可用空间。 U盘启动。 - 先分逻辑分区： 1. /swap(和电脑内存大小差不多) 2. /home(尽可能大一点) et4文件系统 3. /boot(200,400M都可以) et4文件系统 - 再分主分区： / (挂载点也要大一点) et4文件系统联网安装sudo update-grub 修复和win引导共存

2017-10-01 11:00:15 234

原创 tensorflow学习

第三章 tensorflow入门import tensorflow as tf3.1 tensorflow计算模型——计算图a=tf.constant([1.0,2.0],name="a")b=tf.constant([2.0,3.0],name="b")result=a+btf.get_default_graph()#获取当前默认的计算图g1=tf.Graph()#生成新的计算图with

2017-09-29 12:10:18 332

翻译深度神经网络用于youtobe推荐

ABSTRACTYouTube 是目前最复杂规模最大的推荐系统之一。two-stage信息检索二分法: 深度候选生成模型和深度排序模型。INTRODUCTIONYouTube视频推荐三大主要难点： • 规模:很多现有的方法不适用于如此大规模的推荐系统。高度专业化的分布式学习算法和有效的服务系统对于处理ouTube庞大的用户基础和语料库是必不可少的。 • 及时性:上传量大. 对新上传的内容和用户

2017-09-25 15:48:55 336

原创文章标题

read_book:198万user2:用户列去重 38万得到对应索引 item2:书列去重 7万得到对应索引 content:类别 199训练集:对于同一用户合并同类别的书为大类787966条数据验证集:195915行数据，对于同一用户合并同类别的书为大类150575条数据。去除训练集中没有出现过的用户以及类别没有出现在训练集集中的行数据150569 包括

2017-09-22 20:24:03 150

翻译 wide & deep论文-----2016.6.24

摘要具有非线性特征变换的广义线性模型被广泛应用于具有稀疏输入的大规模回归和分类问题。通过广泛的跨产品特性转换，特征交互记忆是有效的和可解释的。然而泛化性能要求更多的特征工程。基于少量的特征工程，通过对稀疏特征转换为低维密集的embedding，深度神经网络对于新出现的特征组合具有更好的泛化性能。然而深度圣经网络容易过度泛化，当user-item 交互很稀疏和高秩时，从而推荐很少具有相关性的产

2017-09-22 10:36:26 389

转载 python 文件操作

content = f.read(N) # 读取N bytes的数据content = f.readline() # 读取一行content = f.readlines() # 读取所有行，储存在列表中，每个元素是一行。f = open("×××"，'×') #r/w/rw line = f.readline() while line: pri

2017-09-20 20:21:48 190

原创小白安装caffe、py-faster-rcnn艰难历程

安装anaconda：下载：https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ bash anaconda.....sh enteryes..测试 :anaconda是否配置好可以通过在终端输入如下代码的方式： conda list如果提示错误，则说明没有配置好，需要进行下面的步骤： sudogedit ~/.bashrc 打开文件后在末尾

2017-09-19 22:50:19 1791 1

转载梯度下降最优化算法综述

梯度下降的变体批梯度下降一次更新需要计算整个数据集。速度慢，不允许在线更新模型。对于凸函数可以保证收敛到全局最小值，非凸收敛到局部最小值。随机梯度下降一个样本更新一次参数。速度快，可用于在线学习。频繁的更新导致一个大的方差导致损失函数波动明显。当我们慢慢的降低学习速率，收敛行为和批处理方式一样。每轮迭代需要重新打乱样本集。最小批梯度下降mini_batch of n 降低了参数更新的方差，使得更稳

2017-09-19 21:49:21 737

原创在线最优化算法梳理

文章参考自：在线最优化求解-冯杨目的从已有数据中提炼出最适合的模型参数，从而对位置的数据进行预测。当数据是高维高数据量的时候，常见的批处理方式已经显的力不从心。个人理解：因为当数据批输入的时候，高数据量使得计算速度很慢，特征的高维度使得调参不具有针对性和重复性。高维高数据量训练比较注重稀疏性。部分w为零，有特征选择和降低复杂度的作用。预备知识凸函数的定义、严格凸函数的定义一个函数是

2017-09-19 11:33:20 2213

原创 Ubuntu 命令积累

终端字体：放大：’Ctrl’+’shift ’+‘ + ’ 缩小：’Ctrl’+‘ - ‘切换账号到root：sudo -i 退出：exit 到普通用户：su **

2017-09-15 15:42:01 199

原创 Ubuntu MySQL python

安装MySQLsudo apt-get updatesudo apt-get install mysql-server mysql-clientpip install MySQL-python若出现错误：EnvironmentError: mysql_config not found，安装libmysqlclient-devsudo apt-get install libmysqlclient-

2017-09-15 15:30:12 375

原创关于netlfix的学习资料收集

源码分享：/Netflix-PrizeIntroduction to Restricted Boltzmann MachinesNetflix prize

2017-09-12 09:47:14 340

转载数据挖掘参考资源

理论部分：特征工程怎么做通过一个kaggle实例学习解决机器学习问题实践部分：使用sklearn做特征工程使用sklearn优雅的进行数据挖掘

2017-08-14 12:14:30 339

转载 How can we identify the weights of different models for ensemble?

One of the most common challenge with ensemble modeling is to find optimal weights to ensemble base models. In general, we assume equal weight for all models and takes the average of predictions. But,

2017-08-12 19:07:32 253

原创 RandomForest调参，不断总结

class sklearn.ensemble.RandomForestClassifier(n_estimators: int 默认10criterion：gini” or “entropy”(default=”gini”)表示使用基尼不纯度还是信息增益来计算属性，来选择最合适的节点。 max_depth：(default=None)设置树的最大深度，默认为None，直到使每一个叶节点

2017-08-11 15:41:53 9047

翻译七种重要的模型验证错误矩阵

预测模型的类型：1.分类模型：分类问题中有两类算法（1）类别输出：比如SVM，KNN等（2）概率输出：LR，random forest，Gradient boosting,adaboost等都给出概率输出。将概率输出转换为类输出仅仅只需要设定概率阈值2.回归模型：输出连续值验证矩阵：

2017-08-11 09:08:17 552

翻译 pandas 常用方法

1.布尔筛选data.loc[（data['a'] ==a1）＆（data ['B'] ==b1），['A','B']]2.data.apply ( func, axis=0) #axis=0 defines that function is to be applied on each column3.#对于类别变量填补缺失值from scipy.stats import modemo

2017-08-10 21:03:16 453

翻译 python用于数据科学教程

此博文是对原文的一个理解和知识点整理(个人理解可能有误)，只是方便以后快速查阅。不是对原文的完全翻译，原文详细链接点击打开链接一：python数据分析基础二：python库和数据结构三：pandas用于数据探索（1）导入库（2）读入数据：pd.read_csv()（3）查看：df.head() 大致查看数据前几行，了解内容df.describe() 计数，平均值

2017-08-10 11:52:36 287

转载【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法

转载自：在路上 »【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法点击打开链接Python 2.x中的字符编码，设计的的确不好，导致初学者，甚至是即使用Python很长时间的人，都会经常遇到字符编解码方面的错误。下面就把一些常见情，尽量的都整理出来，并给出相应的解决办法。看此文之前Python中字符编码所涉及的背后逻辑（从你输入字符，到

2017-08-03 17:32:33 387

原创做推荐系统细节记录

1.groupby 之后的对象转换为Dataframe object.reset_index()2.替换指定数值 df.A = df.A.map({'F': '000', 'S': '001'})3.DataFrame.to_dict(orient='') dict (default) : dict like {column -> {index

2017-08-03 16:53:09 424

转载浅谈数据挖掘与机器学习

引言在大多数非计算机专业人士以及部分计算机专业背景人士眼中，机器学习(Data Mining)以及数据挖掘(Machine Learning)是两个高深的领域。在笔者看来，这是一种过高”瞻仰“的习惯性错误理解（在这里我加了好多定语）。事实上，这两个领域与计算机其他领域一样都是在融汇理论和实践的过程中不断熟练和深入，不同之处仅在于渗透了更多的数学知识（主要是统计学），在后面的文章中我会努力将

2017-05-23 08:47:20 545

转载【机器学习详解】SMO算法剖析

转载请注明出处：http://blog.csdn.net/luoshixian099/article/details/51227754CSDN−勿在浮沙筑高台本文力求简化SMO的算法思想，毕竟自己理解有限，无奈还是要拿一堆公式推来推去，但是静下心看完本篇并随手推导，你会迎刃而解的。推荐参看SMO原文中的伪代码。1.SMO概念上一篇博客已经详细介绍了SVM原理，为了方

2017-05-15 16:41:49 417

原创 caffe源码学习中--src/caffe/solver.cpp

#include #include #include #include "caffe/solver.hpp"#include "caffe/util/format.hpp"#include "caffe/util/hdf5.hpp"#include "caffe/util/io.hpp"#include "caffe/util/upgrade_proto.hpp

2017-05-10 19:18:20 2043

空空如也

空空如也