6 Bryan__

尚未进行身份认证

我要认证

毕业入职腾讯,工作1年晋升至T2.3; 以C2职级入职vivo; 在vivo工作1年后以T3.1入职腾讯; 研究生期间多次参加国内外数据挖掘竞赛,累计获得10次top3 ijcai-2017冠军,kddcup-2017季军,ijcai-2018亚军; 工作方向:大规模搜索推荐,算法与架构开发

等级
TA的排名 5k+

spark的join和leftJoin使用union和reduce实现

在spark中使用自带的join与leftJoin容易引发性能问题,所以可以改写为union后reduce来提升性能。import scala.reflect.ClassTagdef leftJoin[K:ClassTag,V:ClassTag](left:RDD[(K, V)],right:RDD[(K, V)])={ left.mapValues(x=>Ar...

2018-12-01 15:07:20

使用spark scala计算信息熵,信息增益,信息增益率

找了下,没找到现成的代码,自己写了个,速度还能接受,可以用来做简单的特征选择import org.apache.spark.rdd.RDDclass FeatureSelect { //信息熵 def entropyRDD(data:RDD[String])={ val size=data.count() val p=data.map(x=>(x,1)).r...

2018-10-30 20:40:27

win7+spark

https://blog.csdn.net/u011513853/article/details/52865076https://blog.csdn.net/u011464774/article/details/76697183F:\Program Files\hadoop\bin\winutils.exe chmod 777 /tmp/hive 这一步报错ChangeFileMode...

2018-09-27 19:49:48

IJCAI-18 阿里妈妈搜索广告算法大赛亚军解决方案

代码和解决方案见github: https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution

2018-06-06 20:06:23

基于sklearn同时处理连续特征和离散特征

核心思路:先用LabelEncoder对离散特征编码,因为onehotencoder只能处理数值然后使用OneHotEncoder编码,生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢,因为这样是直接生成的稠密矩阵,内存开销太大# coding=utf-8# @author: bryanfrom skle...

2018-04-12 12:10:42

python计算稀疏表示的TF-IDF

使用sklean的计算方法,这种结果是稠密矩阵,如果数据集太大,计算结果将会占满内存,或者直接报MemeryError的错误。tfidf详细计算参考:https://blog.csdn.net/Eastmount/article/details/50323063import jieba import jieba.posseg as pseg import os import ...

2018-04-02 20:47:20

腾讯2018广告算法大赛思路解析 100行代码带你上0.73

比赛报名地址:algo.qq.com/person/mobile/landingPage?from=dsbryan由于本次比赛我属于内部员工不得参赛,所以我尽量写一些思路解析,为大家提供一个baselinegithub:https://github.com/YouChouNoBB/2018-tencent-ad-competition-baseline1...

2018-03-20 11:33:41

在Python中使用多进程快速处理数据

数据分片:可以将数据分片处理的任务适合用多进程代码处理,核心思路是将data分片,对每一片数据处理返回结果(可能是无序的),然后合并。应用场景:多进程爬虫,类mapreduce任务。缺点是子进程会拷贝父进程所有状态,内存浪费严重。import mathfrom multiprocessing import Pooldef run(data, index, size): # data 传入数...

2017-12-12 21:59:06

python中ndarray与dataframe互转

情况1:输入的数据data为list情况2:输入的数据data为dict情况3:输入的数据data为ndarray

2017-12-11 21:54:43

学习经历与求职经历分享

内容:1.介绍数据挖掘入门学习线路2.BRYAN的学习经历和求职经历分享3.学习资料分享https://tianchi.aliyun.com/competition/new_articleDetail.html?spm=5176.8366600.0.0.1686543adgkJAe&raceId=&postsId=2801ppt:

2017-09-28 10:07:11

图解RNN、RNN变体、Seq2Seq、Attention机制

转自:https://zhuanlan.zhihu.com/p/28054589本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前,首先要了解一下最基本的单层网络,它的结构如图:输入是x,经过变换W

2017-09-07 20:53:52

从ctr预估问题看看f(x)设计—DNN篇

转自:https://zhuanlan.zhihu.com/p/28202287把DNN引入ctr预估无非看重两点:一,改进模型结构,提高“信息利用率”,发现高阶非线性特征,挖掘以前挖不到潜在模式,比如DIN引入attention机制;一般来说Embedding+MLP是标配。二,扩充“信息量”,把图片/文本这类不好处理的数据利用起来,比如DeepCTR;#0 RoadMa

2017-08-24 21:50:57

[天池竞赛系列]IJCAI-17 口碑商家客流量预测冠军思路

题目链接:https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.773ef42fw2ednG&raceId=231591 代码链接:https://github.com/YouChouNoBB/ijcai-17-top1-single-mole-solution  ...

2017-08-20 22:32:13

python快速入门

来源:http://cs231n.github.io/python-numpy-tutorial/#python-basicTable of contents:PythonBasic data typesContainersListsDictionariesSetsTuplesFunctionsClassesNumpyArraysArray inde

2017-08-18 22:12:31

DenseNet 简介

1.首先对深度学习做一个简单的回顾2.介绍DenseNet1.1 DNN回顾如下图所示是一个基本DNN结构,通过forward传播和backword传播来训练一个模型包含input层,L个隐藏层和一个output隐层使用的sigmoid激活函数一般的优化方法有如下几种GD:对所有样本计算完一次梯度然后更新权重SGD:每个样本计算一次梯度就更新权重

2017-08-17 19:00:11

1x1卷积核如何降低参数量

本文介绍1*1的卷积核与googlenet里面的Inception。正式介绍之前,首先回顾卷积网络的基本概念。 1. 卷积核:可以看作对某个局部的加权求和;它是对应局部感知,它的原理是在观察某个物体时我们既不能观察每个像素也不能一次观察整体,而是先从局部开始认识,这就对应了卷积。卷积核的大小一般有1x1,3x3和5x5的尺寸。卷积核的个数就对应输出的通道数,这里需要说明的是对于输入的每个通道,

2017-08-17 15:53:28

基于tensorflow实现word2vec

使用NCE作为损失函数,SGD优化,skipGram模式# -*- coding: utf-8 -*-"""Created on Sat Jul 22 17:35:12 2017@author: bryan"""import collectionsimport mathimport osimport randomimport zipfileimport numpy as

2017-07-31 20:24:48

scala集合操作

Scala是数据挖掘算法领域最有力的编程语言之一,语言本身是面向函数,这也符合了数据挖掘算法的常用场景:在原始数据集上应用一系列的变换,语言本身也对集合操作提供了众多强大的函数,本文将以List类型为例子,介绍常见的集合变换操作。一、常用操作符(操作符其实也是函数)++ ++[B](that: GenTraversableOnce[B]): List[B] 从列表的尾部添加另外一个

2017-07-31 19:22:57

在tensorflow中使用CNN

# -*- coding: utf-8 -*-"""Created on Tue Jul 18 15:48:07 2017@author: bryan"""import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_d

2017-07-19 22:10:06

CNN笔记:通俗理解卷积神经网络

来源:http://blog.csdn.net/v_july_v/article/details/51812459通俗理解卷积神经网络(cs231n与5月dl班课程笔记)1 前言    2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次

2017-07-19 11:40:04

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!