1 进击的程序员XA51

尚未进行身份认证

从今天开始,为成为一个合格的软件工程师而奋斗

等级
TA的排名 134w+

SQL总结

SQL的执行顺序:(1)from(3)join(2)on(4)where(5)groupby(开始使用select中的别名,后面的语句中都可以使用)(6)avg,sum....(7)having(8)select(9)distinct(10)orderby...

2019-08-21 09:31:10

牛客网编程输入输出问题

单行输入:importsysforlineinsys.stdin:offset,n,l1,l2=list(map(int,line.strip().split()))#输出printstart1,end1,start2,end2多行输入:importsysimportsyswhileTrue:line1=sys....

2019-08-11 14:48:13

XGBOOST

在XGBoost里,每棵树是一个一个往里面加的,每加一个都是希望效果能够提升,下图就是XGBoost这个集成的表示(核心)一开始树是0,然后往里面加树,相当于多了一个函数,再加第二棵树,相当于又多了一个函数...等等,这里需要保证加入新的函数能够提升整体对表达效果。提升表达效果的意思就是说加上新的树之后,目标函数(就是损失)的值会下降。如果叶子结点的个数太多,那么过拟合的风险会越...

2019-07-27 15:40:34

算法记录

面试算法汇总:快速排序:单链表实现非递归实现二叉树中序遍历冒泡排序单链表反转算法最长递增子序列的个数最长公共子串背包问题TOPK二叉树序列化和反序列化二叉树知道前序遍历和中序遍历构造还原LRU算法实现不许用现成的数据结构单链表归并单链表奇数位递增偶数位递减进行排序一个矩阵从左到右增从上到下增查找某个数单例设计模式(双重锁)二叉树...

2019-07-19 15:53:41

spark Sql

读取和存数据:hivre中读取直接就可以写SQL,逻辑类似在hive中一样,但从其他数据源中读取数据时,需要先用registerTempTable命表名,再进行查询。这些数据也可以使用rdd操作函数#从hive中读取:frompysparkimportHiveContextfrompysparkimportSparkContextfrompysparkimp...

2019-07-10 21:45:43

pyspark 语法总结

导入pyspark#coding:utf-8#使用pysparkfrompysparkimportSparkConf,SparkContextimportpysparkfrompysparkimportSparkContextasscfrompysparkimportSparkConfconf=SparkConf().setAppName("mini...

2019-07-08 17:23:55

hadoop 语法积累

查看部分文件内容:hadoopfs-text文件|head-5

2019-05-21 19:49:39

K_means 算法

算法原理kmeans的计算方法如下:1随机选取k个中心点2遍历所有数据,将每个数据划分到最近的中心点中3计算每个聚类的平均值,并作为新的中心点4重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代时间复杂度:O(I*n*k*m)空间复杂度:O(n*m)其中m为每个元素字段个数,n为数据量,I为跌打个数。一般I,k,m均可认为是常量,所以时间和...

2019-04-11 11:35:18

.Xgboost算法的原理及实践

决策树 https://www.cnblogs.com/yonghao/p/5135386.html分类树和回归树的区别,叶子节点的输出值是什么 分类树和回归树的如何选择分裂的属性 算法流程图Xgboost:1,https://yq.aliyun.com/ziliao/2961202,https://www.cnblogs.com/zhouxiaohui888/p/600...

2018-12-13 13:42:46

python 使用笔记

zip的使用:a=[1,2,3]c=['a','b','c']n=a.zip(c)#n=[(1,'a').....]zip(*a):#a=["Hellohello","HelloNewYork","Yorksayshello"],zip(*a)为每个元素的字母依次组成元组的list[('H','H','Y'),('e','e','o')....

2018-12-12 10:26:59

keras 处理文本,分类,数值数据,并添加进网络的步骤和方法

一,读取数据:主要使用pandas读取,以后考虑使用其他方法(libsvm等)二,获取训练集和测试集:这一步主要是划分数据集,drop()掉训练集里的预测那一列三,处理缺失值:可以使用fillna(value,inplace)来把缺失值补全四:送入网络之前的处理:1;分类信息的处理:主要使用Keras的Tokenizer方法进行处理:1,使用Tokenizer类对...

2018-09-21 11:11:01

fasttaxt:数据预处理和生成词向量

数据预处理:1,符号处理:defgo_split(s,min_len):#拼接正则表达式symbol=',;。!、?!'symbol="["+symbol+"]+"#一次性分割字符串result=re.split(symbol,s)return[xforxinresultiflen(x)>...

2018-09-16 19:39:58
勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。