6 东南枝DP

尚未进行身份认证

腾讯数据挖掘工程师

等级
TA的排名 2w+

jieba源码阅读与思考

jieba源码阅读笔记由于在做模型的时候需要对切词这块做些优化,jieba切词目前主要融合了基于词典的分词和HMM两种方法,阅读了一下jieba的源码,思考了几个优化方案,在此mark一下,欢迎各位大牛前来交流,如果有谬误欢迎指正~正常使用切词方法:#模式一精确模式:importjiebas="我们都是好孩子"jieba.cut(s)#re:我们都...

2018-07-09 10:44:15

LDA漫游指南阅读笔记--Gibbs采样

Gibbs采样公式:LDA并行考虑:列某文章的单词A依赖于另外一个文章相同单词A采样后修改的nw,nwsum行同一篇文章的后一个单词依赖于前一个单词修改后的nd,ndsum主题同一个主题后一次采样依赖于同一个主题前一次采样的nwsum解决方案:1. AD-LDA按行进行拆分,nd,ndsum拆分到各台机器,nw,nwsum被完全copy到各台机器.各个节点一轮执行完毕后,进行一次merg...

2018-06-10 22:03:38

从一段代码浅谈pyspark性能优化

问题引出我们在日常的特征工程中,常常需要将多张表进行关联操作,也就是所谓的join。现在有三张表A,B,C,其中A表数据总大小约300M,B表总数据大小约15G,C表数据总大小约400G,现在的需求是对这三张表做join,该如何实现?常规做法最简单的一种实现,就是先将其中的两张表join,再将剩下的一张表做join,代码如下:sc=SparkSession\.builder...

2018-03-14 17:36:51

关于分布式一致性算法一些总结

最近看了看区块链的基本原理,特地又复习了下分布式一致性算法相关的东西,画了个简单的思维导图。

2018-03-02 17:34:36

记一次spark mllib stackoverflow踩坑

以前做als相关的东西的时候,都是用的公司的内部工具居多,今天第一次用了下spark的mlib,拿了个几M的小数据集试了个水。。结果一跑,我擦。。。居然stackoverflow了。。源码如下:frompyspark.mllib.recommendationimportALSfromnumpyimportarrayfrompysparkimportSpar

2017-11-24 17:30:32

xgboost/gdbt/randomforest + lr入门实践

最近在调研gdbt+lr相关的东西,这方面的东西最早是从facebook发表的一篇论文(https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf)开始的。大意就是利用gdbt模型的叶子节点作为lr模型的输入,起到了自动组合特征,简化lr特征工程的作用(如下图)。不多说,具体看代码。#

2017-11-22 17:53:13

centos7安装python机器学习相关环境numpy,scipy,sklearn,lda

最近在学习LDA,打算用python去做些练习,在安装的时候遇到了一些坑,查了不少资料才明白原因,于是在下面做些简单的步骤总结跟大家分享下。1,首先安装pip  yum-yinstallpython-pip  pipinstall--upgradepip(更新pip)2,安装numpy和scipy  yum-yinstallgccgcc

2017-04-30 16:34:52

UDT协议学习笔记(一)UDT概述

UDT协议学习笔记(一)UDT概述本人近来就职于国内某著名互联网血汗工厂,从事分布式后台相关的工作,最近的项目主要是网络相关。我们有许多海外的proxy节点,为了加速海外proxy与国内某机房的通信速率及抢占更多的带宽,于是开始调研一些udpbased的应用层协议,如udt,quic等等。目前还处于调研状态中,尚未投入使用,这里算是分享下一些学到的东西,欢迎大家一起讨论~

2017-02-26 17:05:41

leetcode Super Ugly Number

题目地址:https://leetcode.com/problems/super-ugly-number/SuperUglyNumberMySubmissionsQuestionTotalAccepted: 2812 TotalSubmissions: 9622 Difficulty: MediumWriteap

2015-12-18 17:02:58

redis学习笔记-关于redis服务器的理解

最近一边在学习《Redis设计与实现》,一边在研究Redis的源码。正巧学习了Redis单机服务器端设计这一块,感觉受益良多。下面谈一下关于redis的理解。redis服务器端,本质上就是用C++写的一个后台server程序。Redis服务器将所有的数据库都保存在服务器状态redis.h/redisServer结构的db数组中。每个redisDb结构代表一个数据库,dbnum代表有多少个数据库

2015-12-08 18:26:35

随机森林的简单实现

近日听了七月天空周博的课。现在对随机森林进行一下,简单的实现。随机森林(randomforest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。随机森林是一个最近比较火的算法,它有很多的优点:a.在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合b.在当前的很

2015-11-08 16:51:31

一个ACM渣渣关于找工作的胡扯

先做个自我介绍。本人开学大四,从大一下开始玩acm,无奈能力有限,智商拙计,打铁无数,最好成绩也不过烂铜一个。伤心之余,大三开始一脚踩入互联网企业的浪潮之中,开始翘课奔波于各种面试,实习,项目,工作之间。从实习到校招先后面了百度,腾讯,阿里,360搜索,知乎,敦煌网等n多家公司,最终拿到百度复合搜索部与腾讯即通平台校招等几个offer。至于最后是去哪家企业,还是说选择保研,目前还没有完全做决定。。

2015-09-03 21:09:24

Spark实践之join优化

join优化应该是spark相关岗位面试必考的内容。join其实常见的就分为两类:map-sidejoin和 reduce-sidejoin。当大表和小表join时,用map-sidejoin能显著提高效率。。/***Createdbyshenjiyion2015/7/8.*/packagecom.testimportcom.test.uti

2015-07-08 10:57:05

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

挺好的一篇文章,补充两个我在按照下面的方法部署时遇到的坑1.由于hdfs的data文件权限不对,而导致datanode无法启动。chmodg-w/opt/data/hadoop/hdfs/data解决方法参考:http://blog.csdn.net/caoshichaocaoshichao/article/details/158115752,由于多次hadoopdf

2015-06-24 16:57:44

Linear_regression与 Logistic_regression简单比较与python实现

Linear_regression与Logistic_regression简单比较与实现好久没写博客了,在度厂实习期间更是天天累成了狗的节奏,最近有幸蹭到隔壁组老大小黑黑关于machinelearning这块的培训(以下图片均摘自小黑黑的PPT),甚是感动,决定好好学习下这块的东西。Linear_regression和Logistic_regression其实是非常相似的两种算法。

2015-05-31 23:33:06

大端小端区别与判断

原文地址:http://blog.csdn.net/zhaoshuzhaoshu/article/details/376008571.什么是大端,什么是小端:所谓的大端模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;所谓的小端模式,是指数据的低位保存在内存的低地址中,而数据的高位保存在内存的高地址中。2.为什么会有大小端:为什

2015-03-28 16:45:29

[转]C++中sizeof(struct)怎么计算?

[转]C++中sizeof(struct)怎么计算?版权属于原作者,我只是排版。1、sizeof应用在结构上的情况请看下面的结构:structMyStruct{doubledda1;chardda;inttype;};对结构MyStruct采用sizeof会出现什么结果呢?sizeof(MyStruct)为多少呢?也许

2015-03-21 23:10:29

函数式编程扫盲篇

函数式编程扫盲篇1.概论在过去的近十年的时间里,面向对象编程大行其道。以至于在大学的教育里,老师也只会教给我们两种编程模型,面向过程和面向对象。孰不知,在面向对象产生之前,在面向对象思想产生之前,函数式编程已经有了数十年的历史。那么,接下来,就让我们回顾这个古老又现代的编程模型,让我们看看究竟是什么魔力将这个概念,将这个古老的概念,在21世纪的今天再次拉入了我们的

2015-03-03 16:08:08

Codeforces Round #295 C. DNA Alignment

C.DNAAlignmenttimelimitpertest2secondsmemorylimitpertest256megabytesinputstandardinputoutputstandardoutputVasyabecameinterestedinbioinformatics.

2015-03-02 19:17:30

Codeforces Round #295 B. Two Buttons

B.TwoButtonstimelimitpertest2secondsmemorylimitpertest256megabytesinputstandardinputoutputstandardoutputVasyahasfoundastrangedevice.Onthefro

2015-03-02 19:12:58

查看更多

勋章 我的勋章
    暂无奖章