进击的程序员XA51-CSDN博客

原创软件开发面试代码题

排序算法：def bubble_sort(seq): # 冒泡排序 count = len(seq) for i in range(0, count): for j in range(i + 1, count): if seq[i] > seq[j]: seq[i], seq[j] = l...

2019-09-23 20:30:54 227

原创 SQL总结

SQL的执行顺序：(1)from(3) join(2) on(4) where(5)group by(开始使用select中的别名，后面的语句中都可以使用)(6) avg,sum....(7)having(8) select(9) distinct(10) order by...

2019-08-21 09:31:10 118

原创牛客网编程输入输出问题

单行输入：import sysfor line in sys.stdin: offset,n,l1,l2 = list(map(int,line.strip().split())) #输出 print start1,end1,start2,end2多行输入：import sysimport syswhile True: line1= sys....

2019-08-11 14:48:13 1061

原创 XGBOOST

在XGBoost里，每棵树是一个一个往里面加的，每加一个都是希望效果能够提升，下图就是XGBoost这个集成的表示（核心）一开始树是0，然后往里面加树，相当于多了一个函数，再加第二棵树，相当于又多了一个函数...等等，这里需要保证加入新的函数能够提升整体对表达效果。提升表达效果的意思就是说加上新的树之后，目标函数（就是损失）的值会下降。如果叶子结点的个数太多，那么过拟合的风险会越...

2019-07-27 15:40:34 106

原创算法记录

面试算法汇总：快速排序：单链表实现非递归实现二叉树中序遍历冒泡排序单链表反转算法最长递增子序列的个数最长公共子串背包问题TOPK二叉树序列化和反序列化二叉树知道前序遍历和中序遍历构造还原LRU算法实现不许用现成的数据结构单链表归并单链表奇数位递增偶数位递减进行排序一个矩阵从左到右增从上到下增查找某个数单例设计模式（双重锁）二叉树...

2019-07-19 15:53:41 288

原创 spark Sql

读取和存数据：hivre 中读取直接就可以写SQL，逻辑类似在hive 中一样，但从其他数据源中读取数据时，需要先用registerTempTable命表名，再进行查询。这些数据也可以使用rdd操作函数#从hive中读取：from pyspark import HiveContextfrom pyspark import SparkContextfrom pyspark imp...

2019-07-10 21:45:43 119

原创 pyspark 语法总结

导入pyspark# coding:utf-8#使用pysparkfrom pyspark import SparkConf, SparkContextimport pysparkfrom pyspark import SparkContext as scfrom pyspark import SparkConfconf=SparkConf().setAppName("mini...

2019-07-08 17:23:55 1752

原创 hadoop 语法积累

查看部分文件内容：hadoop fs -text 文件 | head -5

2019-05-21 19:49:39 266

原创 K_means 算法

算法原理kmeans的计算方法如下：1 随机选取k个中心点2 遍历所有数据，将每个数据划分到最近的中心点中3 计算每个聚类的平均值，并作为新的中心点4 重复2-3，直到这k个中线点不再变化（收敛了），或执行了足够多的迭代时间复杂度：O(I*n*k*m)空间复杂度：O(n*m)其中m为每个元素字段个数，n为数据量，I为跌打个数。一般I,k,m均可认为是常量，所以时间和...

2019-04-11 11:35:18 425

原创 .Xgboost算法的原理及实践

决策树 https://www.cnblogs.com/yonghao/p/5135386.html分类树和回归树的区别，叶子节点的输出值是什么分类树和回归树的如何选择分裂的属性算法流程图Xgboost:1,https://yq.aliyun.com/ziliao/2961202,https://www.cnblogs.com/zhouxiaohui888/p/600...

2018-12-13 13:42:46 165

原创 python 使用笔记

zip的使用：a = [1,2,3]c = ['a','b','c']n = a.zip(c) #n = [(1,'a').....]zip(*a):#a= ["Hello hello", "Hello New York", "York says hello"],zip(*a)为每个元素的字母依次组成元组的list [('H', 'H', 'Y'), ('e', 'e', 'o')....

2018-12-12 10:26:59 332

原创 keras 处理文本，分类，数值数据，并添加进网络的步骤和方法

一，读取数据：主要使用pandas 读取，以后考虑使用其他方法（libsvm等）二，获取训练集和测试集：这一步主要是划分数据集，drop()掉训练集里的预测那一列三，处理缺失值：可以使用fillna(value,inplace)来把缺失值补全四：送入网络之前的处理：1；分类信息的处理：主要使用Keras的Tokenizer方法进行处理：1，使用Tokenizer类对...

2018-09-21 11:11:01 632

原创 fasttaxt：数据预处理和生成词向量

数据预处理：1，符号处理：def go_split(s,min_len): # 拼接正则表达式 symbol = '，；。！、？!' symbol = "[" + symbol + "]+" # 一次性分割字符串 result = re.split(symbol, s)return [x for x in result if len(x)>...

2018-09-16 19:39:58 1223

chenyangXA51的博客