&捕风的汉子&-CSDN博客

原创 linux64位系统编译32位程序的问题

今天将原来一个64位的程序改编译成32位程序，而我的linux系统是64位的，编译时报错了Error:：/usr/include/features.h:324:26: fatal error: bits/predefs.h: No such file or directory解决办法：sudo apt-get install gcc-multilib附上链接：https://...

2019-12-26 14:54:41 296

原创排序算法-快速排序

今天复习的是快速排序，快速排序是一种不稳定的排序。原理见度娘：原理设要排序的数组是A[0]……A[N-1]，首先任意选取一个数据（通常选用数组的第一个数）作为关键数据，然后将所有比它小的数都放到它左边，所有比它大的数都放到它右边，这个过程称为一趟快速排序。值得注意的是，快速排序不是一种稳定的排序算法，也就是说，多个相同的值的相对位置也许会在算法结束时产生变动。[1]一趟快速排序...

2019-10-13 21:06:49 227

原创排序算法-选择排序

昨天因工作太多，没有时间去复习。在还没有上班前，有点时间，去实现一个选择排序算法。排序算法的原理很简单，就是每次从需要排序的数组中选出最小（大）的数据插入到排好序的数组中。但为是节省空间，一般都是在原数组的空间上直接操作，省去新开辟空间及空间之间的copy。直接上代码：#include <iostream>using namespace std;//选择排序算法...

2019-10-11 09:28:51 173

原创排序算法-插入排序

本篇复习的是插入排序。见度娘的原理：直接插入排序的算法思路：（1）设置监视哨r[0]，将待插入记录的值赋值给r[0]；（2）设置开始查找的位置j；（3）在数组中进行搜索，搜索中将第j个记录后移，直至r[0].key≥r[j].key为止；（4）将r[0]插入r[j+1]的位置上。#include <iostream>using namespace ...

2019-10-09 17:05:17 118

原创排序算法-冒泡排序

今天是国庆上班回来的第一天，心还没办法收敛，还是想着玩，哈哈。完全不在状态，感觉一天效率极差，需要静下心去做点事。无意中看到别人的一篇博客，于是突发奇想，不如写写数据结构的知识吧，虽然日常见到这类博客很多，觉得没太大的新鲜味道。为了静下心来，同时当复习多年前学习过且日常离不开的知识，后面每天一练。加油！！！现在复习的第一篇是冒泡排序算法，算法原理比较简单，见度娘的解释：冒泡排序算法的原理如...

2019-10-08 20:43:51 183

原创 hadoop集群环境动态增加datanode

一、当前环境状况介绍目前我的环境上总共有2个namenode和7个datanode，现在想增加更多的机器（其实就是一堆老旧残的机器，随时都可能有生命危险，哈哈）。上图是我目前的7个datanode节点，我希望有机器增加了，增加多一台storage155。二、前期工作1、保证增加的节点与主节点ssh互通使用ssh-keygen生成本地的rsa-key，或者自己手工在home目...

2019-09-30 17:10:57 489

原创关于logstash的坑，求解

这两天出现一个小事故，是logstash读取文件信息输出到kafka，因为topic没有创建，而导致所有的topic都没有数据。先将配置文件列出来。 input { file { path => "/data/xx/log/xsec_anti_cheat_d/xsec_anti_cheat_d.log" start_position => "end" sincedb...

2019-09-29 16:18:18 1211

原创 tiny-dnn库初识

因为最近的一个模型需要使用C++落地，平时使用的是python，在问google中，发现了tiny-dnn，于是着手去研究下这个库。tiny-dnn是一个C++实现的轻量的深度学习库，里面实现了主流的模型代码框架，如DNN、CNN、RNN。主流模型的示例很完整，示例有手写识别、图片分类等常用的深度学习示例。简单了解下代码组织，我们从两方面去看这个库算很完整了。1、可以支持自定义的网络结构...

2019-09-26 19:52:13 1885 1

原创 matlab内存映射文件操作

日常我们使用matlab进行模型训练，每次训练需要加载的数据都是比较大，都是千万级别的数据，如果从txt或者csv中读取，需要很长时间，这样很影响读取数据的效率。matlab有自己的方式，将数据文件快速加载到内存中。写文件：file = fopen('E:\数据分析\login_00000.csv','r','n','utf-8');data=textscan(file,'%f %f ...

2019-09-09 16:34:24 1347

原创关于multiprocessing的Queue效率问题

今天大半天都在折腾着一个问题，就是从kafka消费消息后，后面的业务处理一直处理不过来，总是延后几个小时。为了解决这个问题，不断去调试代码，查找到相对耗时的位置，最终定位是Qeueue的问题。先上一段简化版的代码。#!/usr/bin/env python#-*- coding:utf-8 -*-from cachetools import TTLCacheimport osimpo...

2019-08-28 16:38:07 2912 4

在职业生涯初期养成的习惯，所有不清楚的函数用法都问下度娘或者google。除了常用的unix系统的标准函数是通过man进行查询，很少使用man函数去查询标准函数库的函数。今天不知为什么心血来潮，很长一段时间也没有写过C++的代码了（最近几个月都是做着数据分析，都是使用python），今天突然想用C++实现一个功能，于是动手去写，发现很多函数自己都忘记原型了。一个个去问google，想了想，能不能不...

2019-08-23 15:36:28 814 1

原创 kafka的应用场景

kafka作为一个消息流处理平台。很多开发人员都作它作为一个生产&消费的中间件，并没有细细去思考kafka可以在哪些应用场景中使用，下面根据我的经验，总结下kafka可以应用在以下场景中。消息队列这种场景是日常用得最多之一。我日常需要将多台服务器上的日志集中收集到一个点上，通过logstash进行扫描并发到kafka队列中，然后通过消费者程序进行消费写到hbase或者es中。...

2019-08-14 20:43:15 2197

原创 IntelliJ IDEA下构建kafka环境与源码编译

最近希望深入研究下kafka的架构，想了解架构必须去阅读其源码。于是自己动手在IDE下构建一个可运行可调试的kafka环境，下面是构建kafka环境及编译源码。一、安装jdkC:\Users\Administrator>java -versionjava version "1.8.0_172"Java(TM) SE Runtime Environment (build 1.8....

2019-08-12 17:21:52 1782

原创 ubuntu上构建jupyter notebook环境

安装conda在anaconda官网下载https://www.anaconda.com/distribution/，我下载的是Anaconda3-2019.03-Linux-x86_64.sh安装包。在ubuntu终端上直接执行shAnaconda3-2019.03-Linux-x86_64.sh，建议使用root用户进行安装，并在/etc/profile配置全局的conda安装目录的pa...

2019-05-21 16:12:53 621

原创使用flask实现restfulapi

今天早上想快速实现几个临时使用的http接口，供其他人调用，之前都是使用java去写的，最近因为都玩着python，第一时间想到使用flask去实现试试，也体验下flask轻量级的框架。在https://flask-restful.readthedocs.io/en/latest/上快速过了一次示例文档，也在度娘上看了下其他人的例子，但很多都是只写了服务端或者只写了客户端，两端同时实现的示例很...

2019-05-09 11:39:05 382

原创 softmax函数python实现

在实现一个神经网络项目落地代码，使用matlab训练完后，为了配合其他问题，使用python进行落地，实现DNN的正向计算，在网上看了一大堆softmax函数的实现，发现所有人都是单样本去计算或者循环去计算矩阵，心里默默吐槽，怎么都是这样写，就不能来个正常的例子，一行行这样算都提高不了效率。看来ctrl+c是解决不了问题了，还是自己动手来吧。首先看下softmax函数公式：不多说，直接...

2019-04-30 18:35:23 2291

原创在spark中通过UDF转字符串ip

今天在spark中需要将字符型(String)的ip转化为长整型（long）的ip，参考了两篇文章https://blog.csdn.net/cjuexuan/article/details/54912215和https://blog.csdn.net/key_xyes/article/details/79818196，通过这两篇文章的抽取出思路。于是封装成UDF函数，如下：sqlConte...

2019-03-13 16:06:42 420

原创关于spark.sql.autoBroadcastJoinThreshold设置

今天使用spark对一组大数据进行合并作join操作，一直都报下面的错：Exception in thread “broadcast-exchange-0” java.lang.OutOfMemoryError: Not enough memory to build and broadcast the table to all worker nodes想来想去，之前也跑过这类的任务，并且都...

2018-11-05 17:30:09 25709 3

原创银行业密钥体系概述

银行业的密钥体系是个很庞大的体系，其覆盖不同的密码学算法及适应不同的业务场景。一方面保证银行的数据安全性，另一方面适应业务的变化且易于理解和使用。银行业的密钥体系与银行监管制度是紧密相关的，密钥体系保证银行内各个业务环节的安全性，而银行监管制度保证密钥体系能够有效地执行，最终依靠对操作人员进行监管使得密钥体系得到有效的实施。提到密钥，一定要先了解下密码学的一些基础算法，银行主要使用的密码学算法...

2018-10-30 09:58:29 9162

原创 spark以standalone运行时的日志清理

spark运行任务的日志一直没太大关注，原因是硬盘资源充足，除非任务出错时才去看一下，但没有清理这些日志的习惯。直到最近遇到的一个问题是，硬盘资源严重缺乏，不得不需要定时去清理日志。第一时间去看下spark本身的配置，是否支持定时清理日志的选项，毕竟spark那么成熟，相信很多人都面临过这样的问题。从spark-env.sh里面看到SPARK_WORKER_OPTS和SPARK_HISTORY...

2018-10-29 21:23:12 1167

原创关于spark以parquet写入时的小问题

今天使用spark对一个dataframe中的数据以某一个为主键做groupby进行求和，数据类似如下：scala> userDF.show+---------+--------+| userid | count |+--------+---------+| 11111111| 102|| 2222222| 97|| 3333333| 10|| 1111111...

2018-10-17 18:02:29 2770

原创 maven本地jar包导入

今天用到第三方一个库，在spark中将数据导入到hbase，使用了shc-core，但将maven配置上去无法下载，那只能另找方法了。先从https://mvnrepository.com/artifact/com.hortonworks/shc-core/1.1.1-2.1-s_2.11好面将jar包下载下来，开始想在maven的仓库中手动配置目录结构的，在google上查了下结果发现有更加简单...

2018-08-13 14:52:59 631

原创 PCA降维

关于PCA算法在机器学习中是经常会用到，特别在维度数比较大的情况下，为了提取主要的维度成分，使用PCA对维度进行降维操作，一方面在保证数据高精确性情况下，另一方面减少维度数量，降低由于维度带来的运算资源的消耗及运算的时间消耗。PCA能够有效解决因维度带来的灾难。关于PCA的原理在很多书本、博客等地方都有所介绍，关于原理在这里不再详述。在这里我主要介绍PCA在matlab及python的实现。...

2018-08-09 14:56:35 404

原创 spark环境构建

spark是个分布式运算平台，在火热的大数据时代，很多企业很多场景都使用spark作为运算平台。一方面是其在计算的高效性，另一方面是其稳定性。官网有个很形象的说明，spark的运算效率是hadoop运算效率的100倍以上。广泛被运用在各种场景中，原因spark支持很多语言的接口：java、scala、python、R等，降低了开发人员的使用门槛。下面介绍spark的构建过程：1、环境准备，...

2018-08-08 22:22:28 151

原创 logstash的logstash-output-jdbc插件安装

突然来的一个需求，将日志文件中json串的内容写入到数据库中，作为一个偷懒coder，第一个时间想到就是偷懒的做法：将logstash扫描的结果直接输入到mysql库表中。关于logstash的安装就不再详述，后面如果写安装的介绍时再回头补充链接，我安装的logstash版本是5.6.6。从google上查了下logstash关于mysql的output插件：https://github....

2018-08-02 17:52:54 9884 10

原创 python的re模块

正则表达式是我们日常编程经常使用到的，运用检索或替换字符串中匹配的子串。对于python语言来说，已有基础的正则表达式模块（即re模块），当然还有其它第三方的正则表达式模块，通常第三方的正则表达式模块也包含re模块中实现的所有API接口。在我们解释API之前，我们先简单了解python的正则表达式的写法：. 在默认模式下，它匹配除换行符之外的任何字符。如果DOTALL已指定该标志，则匹配包...

2018-07-26 22:35:27 133

原创 elasticsearch的head插件安装与使用

为了增强对elasticsearch集群的管理与操作，在社区存在很多相关的插件，其中head插件是其中应用得最广泛的插件之一。head插件一方面可以查看到集群的状态，同时可以对集群上的索引进行管理，包括增加索引、删除索引、对索引数据进行基础查询和复合查询等。head下载插件：https://github.com/mobz/elasticsearch-head环境参考前一篇：https://...

2018-07-23 14:47:28 410

原创 elasticsearch集群环境构建

前面已经简单介绍过单节点elasticsearch环境的构建，单节点的elasticsearch既充当master也充当data node。集群环境的节点可根据需要将不同节点设置成不同的服务功能。elasticsearch节点类型的配置在官网上有详细的说明（https://www.elastic.co/guide/en/elasticsearch/reference/current/modules...

2018-07-20 11:24:31 347

原创 openssl系列--DES/3DES算法加解密（1）

des/3des对称加密算法在我们日常保护数据或者保护传输时使用得较多的对称加密算法，des的原理不在这里再作详细介绍，des/3des属于一种分组算法，以8个字节为一个分组。例如下面使用3des对一组数据进行加密：例如：密钥：0x01 0x23 0x45 0x67 0x89 0xAB 0xCD 0xEF 0xEF 0xCD 0xAB 0x89 0x67 0x45 0x01 0x2...

2018-07-19 16:30:29 5424 3

原创 numpy的基础

NumPy是在Python中进行科学计算的基础包。它提供多维数组（矩阵）对象各种各样的函数操作。在数组上的快速操作，包括数学、逻辑、转换、排序、选择、方差、期望、离散傅里叶变换转换等等，我们在科学计算中常用的基本的线性代数，基本的统计运算，随机模拟等等都在numpy得到支持，可见numpy是多么的强大。我第一次接触numpy时是由于需要将matlab训练完成的模型落地，发布到ubuntu服务器...

2018-07-18 15:43:37 142

原创 numpy与matlab互转操作

在日常使用中，matlab作为我们机器学习以及深度学习的模型训练使用的工具，而线上使用python实现模型落地。因为不可避免常遇到matlab与numpy之间有些操作需要相互转换。1、常用操作（参考numpy官方说明）MATLAB numpy 说明 help func info(func) or help(func) or func? (in ...

2018-07-17 11:21:19 7909 2

原创 elasticsearch简述与单节点安装

Elasticsearch 是一个分布式的 RESTful 风格的搜索和数据分析引擎，能够解决不断涌现出的各种用例。（官方的定义）。其有以下特点：1、查询：支持结构化与非结构化数据的快速查询，支持简单及复杂的查询；2、分析：可根据需求对数据进行聚合，折分等操作，建立各类模式的分析策略；3、速度：一定字，快，在查询方面TB级别的数量也是非常快的，PB级别需要看集群大小；4、可扩展：...

2018-07-15 12:51:50 429

原创 zookeeper环境构建

关于zookeeper的作用这里不再作详述，相信很多开发人员在很多场景都使用zookeeper作为任务协调。1、安装jdk(这里不述详述)下载jdk压缩包，并在/etc/profile中增加相关的环境变量配置：export JAVA_HOME=/usr/java/jdk1.8.0_121/export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib...

2018-07-14 19:22:57 143

原创 python2.7与python3.5关于TCP通讯样例

关于python2.7及python3.5之间在网络通讯方面出现一定的差异，尽管差异比较小，但对于新手或者没有踩过此坑的人可能会感觉到困惑。python3.5 服务端# -*- coding: utf-8 -*-"""Created on Sat Jul 14 14:39:04 2017@author: linxiaojie"""from socket import ...

2018-07-14 17:01:21 828 1

原创 storm环境构建

初次构建storm的环境，在ubuntu12的环境上构建，机器列表的IP:61.145.55.163、61.145.55.164、61.145.55.165安装包列表包名链接版本JDK http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html1.8stormhttp://s...

2018-06-08 11:06:05 441

原创 ODBC连接ORACLE

使用root权限分别对下面两个文件进行配置配置/etc/odbcinst.ini文件[Oracle 10g ODBC Driver]Description = Oracle ODBC 10gDriver = /oracle/product/10.2.0/db_1/lib/libsqora.so.10.1Driver64

2013-03-02 16:07:27 1612

原创 unixODBC连接DB2

使用unixODBC连接DB2其实也是很方便的，虽然这样没有Embeded SQL那么高效，但是可以有效解决因数据库操作代码变更带来的版本控制的烦恼。以下是unixODBC连接数据库一个简单实例。testODBCConnectDB2.c：#include #include #include #include "sql.h"#include "sqlext.h"int m

2013-03-01 17:16:18 816

原创 Java实现des及3des加解密

今天客户需求一个java的des加解密库，之前做加解都是调用加密机指令的，而现在提供的是一个静态库，找下以前的库，没有个合适的，只能自己去写一个了。在网上找了下，发现网上基本都是一个，而且标题写着是des加解密，实际有的是base64编码，有的还不知区分des和3des，找不到一个比较合适的，最后只能自己去写一个了。在这把代码贴出来，给有需要的人参考下。package com.crypto.u

2011-11-21 23:01:17 2424 1

获取浏览器当前页面地址栏的URL

VSS的使用方法锦集

C程序设计实例集合，非常合适初学者

基于TCP/IP协议下的聊天系统

空空如也