12 WotChin

尚未进行身份认证

Gauss lab

等级
TA的排名 2w+

大规模数据处理系统的最新技术与应用

当我们看到这个标题后,不知道大家会先想到什么。我们可能识别到的几个关键字是:架构、大规模、数据处理、最新。那么,实际上我们在这里希望探讨的话题就是最新的数据处理技术,以及这些最新的数据处理技术给实际生产带来的基于与挑战。从数据处理说起我首先提出一个命题——“IT 系统最核心的内容便是数据处理”,互联网尤甚。熟悉 Web 架构的读者可以知道,当前互联网架构大致可以拆分为三层:Web 前端与...

2019-07-26 21:43:46

中小型企业基于大数据技术的项目实践

前言ps. 此片博客来源于很久以前的一次gitchat分享,现在搬运到blog中,由于时间久远,里面已经有一些思想和技术已经现在不主流了,供大家参考借鉴。我们这次 Chat 主要交流的主题是:中小型企业基于大数据技术的项目实践,笔者将就大数据技术栈开始说起,同时,在后面的内容中,将涉及笔者在工程实践中的一些具体经验。下面,我们将从大数据技术的干货介绍开始,这部分内容对于有基础的童鞋来说,可以...

2019-06-04 22:59:18

数据库并发业务中的乐观锁与悲观锁详解

数据库与并发业务并发业务是一种非常常见且重要的业务场景。比较典型的业务场景是电商业务,尤其是秒杀场景,这里面会涉及到非常多的并发事务,像金融业务等等交易相关的业务也都是如此。这在数据库的应用中称之为TP场景的业务,与AP业务相对应。当前主流的互联网业务架构大致可以分为三层,第一层是前端层,主要与用户产生交互式关系;第二层可以认为是业务层,所有的业务处理逻辑,诸多if-else判断逻辑等都可以抽...

2019-05-03 00:42:25

Linux与Windows在物理机上双系统有关grub引导的若干问题

背景作为一名专业的计算机科学从业者,Linux的重要性自然是不言而喻。由于对文档处理和一些娱乐工作的需要,Windows操作系统又不可抛弃,安装双系统便是每一个Geek的首选。双系统对于虚拟机的优点不言而喻,而对于专业从业者来说,缺点又足可以规避,因此我们推荐使用双系统而不是虚拟机。安装双系统首先需要考虑的就是引导问题,Linux采用的是Grub引导工具,而Windows默认采用的是按照磁盘的...

2019-03-02 22:58:30

How Linux Works: Linux内核概述

Linux内核概述Linux内核大家或许都不陌生,这是Linux操作系统中最核心和关键的部分,也是最为复杂的部分。Linux操作系统具有稳定/高系能/容易维护等优点,这与Linux优秀的内核实现是分不开的,我们在这里以How Linux Works这本书中的主要内容为依据,对Linux内核做一个整体的阐述。Linux 的抽象层次Linux把系统层和用户层分开,硬件系统之上便是内核,直接负责与...

2019-02-02 00:06:46

工程上的图像检索技术概述

从图像特征说起以人脸识别场景为例,我们通过机器学习算法可以对人脸图片实现降维,即某张图片的尺寸是6464的RGB图像,那么这个图像的维度就是6464*3 = 12288维。直接将这个维度用于图像识别显然是不合适的,这是图像的原始维度,不是图像的特征。提取图像特征的过程是一个降维过程,常用的维度通常是512维,1024维等,也就是将一个图片进行特征提取。提取到的特征向量的维度,说白了就是这个向量...

2018-12-06 23:05:02

Python操作Mongodb的用法,并将其简单封装起来

Pymongopip install pymongopymongo是python的mongodb client,这里将其使用方法封装成class,并提供单元测试用以展示其基本用法。直接看代码。Code list# mongodb databasefrom pymongo import MongoClientclass Database(object): def __in...

2018-10-20 14:53:04

SimilarVocabulary--动手实现一个基于NLP的相近单词检索器

介绍SimilarVocabulary是我在github上的一个开源项目,项目本身并不复杂,使用了NLP中的词向量来检索到关联程度较大的单词,项目套用了NLP中一个开源的库spacy.该库自带了一个训练好的模型,可以进行英文文本的预测。项目地址:https://github.com/wotchin/SimilarVocabulary代码细节下面,我们以这个简单的demo演示一下spa...

2018-09-26 21:31:46

erlang开源web框架mochiweb资料帖分享

前言: erlang虽然就有良好的并发编程模型,能够应对编程中的副作用,充分利用CPU各个核心,但是毕竟是小众语言,编程入门门槛又比较高,因此一直难以壮大。作为其用途最广的web框架——mochiweb,资料实在是少得可怜。这里整理出一部分可用的资料。应用篇: https://www.ibm.com/developerworks/cn/opensource/os-erlang2/ htt...

2018-08-12 17:34:10

谈谈大数据时代下的数据仓库

大数据背景众所周知,当前是一个数据爆炸的时代,大数据背景下的数据治理是每一个企业应该重点考虑的问题。例如金融机构、电信运营商这种“传统”行业每日需要处理的数据量都已经十分巨大了,更不必说掌握着上千万日活的互联网公司。传统行业的数据治理以电信运营商为例,一个省级的电信运营商在好多年前一年积累的信息量就已经达到数个PB了,在数据爆炸的时代,我们通过移动互联网随时随地就可以surfing...

2018-08-12 17:14:11

使用深度学习,预测比特币价格的分享与总结

原文概述现有的比特币预测思路大多采用LSTM(长短期记忆网络)来实现的,笔者在AI领域比较知名的微信公众号中阅读到这篇文章,现将文章分享给大家。 文章地址是: https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA%3D%3D&mid=2247486897&idx=2&sn=fe86054ab8bf0221cb6d29e...

2018-07-05 11:56:06

使用Python的scikit-learn库实现回归预测,实战对房价的评估预测

前言自己动手,爬取58同城上的租房网站信息,然后用该数据预测未知的房源价格。爬虫部分不是我写的,我只是完成了其中的一部分预测功能。 预测主要是使用回归预测,预测结果比较简陋,但是也可以通过这个小项目,来简单地学习一下基于Python的回归预测。 在本文中,我实现了三种回归预测算法: 1. 支持向量回归(SVR) 2. logistic回归 3. 以及使用核技巧的岭回归(L2回归)...

2018-05-21 14:39:15

机器学习与人脸识别领域的一些代表性论文清单及简介

[1] Tolba A S, El-Baz A H, El-Harby A A A. Face Recognition: A Literature Review[J]. International Journal of Signal Processing, 2006, 2(1):88-103. 综述[2]Hinton, G.E., Osindero, S. and Teh, Y. (2006...

2018-05-13 17:34:43

机器学习中多分类模型的评估方法之--kappa系数

引言分类是机器学习中监督学习的一种重要应用,基于统计的机器学习方法可以使用SVM进行二分类,可以使用决策书,梯度提升树等进行多分类。 对于二分类模型,我们通常可以使用ROC曲线来评估模型的预测效果。这里,我们介绍一下在多分类中衡量模型评估准确度的一种方法–kappa系数评估方法。Kappa系数首先,我们介绍一下kappa系数: kappa系数是用在统计学中评估一致性的一种方法,我们...

2018-05-09 13:58:34

白话大数据--Hash分片

引言大数据系统其中一个典型的特点就是集群化,方便节点横向扩展,也就是所说的弹性扩容。之所以进行横向扩展,是因为纵向扩展难以处理庞大的数据量。将大数据进行切分,是实现数据集群化存储和计算的一种常用手段。 这个过程的学名叫做数据分片,将一个整体的数据划分到不同的节点去存储,然后通过路由来寻找到指定的节点,进行数据的读写操作。常用的数据分片方法有Hash分片和范围分片。而Hash分片包含所说的哈希...

2018-05-07 22:18:40

Java高级技术第五章——高并发之线程池

前言前言点击此处查看: http://blog.csdn.net/wang7807564/article/details/79113195线程池线程的开启和回收是要消耗系统性能的,对于大量使用线程的场景,使用线程池来进行管理,实现单个线程的复用,提高并发效率。Callable对Runnable进行了扩展,相对于Runnable接口,Callable的调用是可以有返回值的。...

2018-04-23 11:59:34

Java高级技术第五章——高并发之并发容器详解

前言前言点击此处查看: http://blog.csdn.net/wang7807564/article/details/79113195并发容器ConcurrentHashMap:在上面已经提到过ConcurrentHashMap,ConcurrentHashMap相比Hashtable能够进一步提高并发性,其原理图如下: HashMap,Hashtable与Conc...

2018-04-23 11:54:46

Java高级技术第五章——高并发之同步容器

前言前言点击此处查看: http://blog.csdn.net/wang7807564/article/details/79113195同步容器问题引出: 有N张火车票,每张票都有一个编号,同时有10个窗口对外售票,写一个模拟程序。public class TicketSeller { static List<String> tick...

2018-04-23 11:52:29

Java高级技术第五章——高并发之常用的线程安全的单例模式

前言前言点击此处查看: http://blog.csdn.net/wang7807564/article/details/79113195线程安全的单例模式单例模式就是说系统中对于某个类只能有一个实例,多线程下面单例模式的线程安全问题是一个典型应用场景。一般常用单例模式做资源控制与调配,例如使用单例模式做一个线程池,数据库链接池等等。饿汉模式饿汉模式是在该类被加载的时候,就已...

2018-04-23 11:50:35

Java高级技术第五章——高并发之ThreadLocal线程局部变量

前言前言点击此处查看: http://blog.csdn.net/wang7807564/article/details/79113195ThreadLocal线程局部变量ThreadLocal是线程局部变量,使用空间换时间,而synchronized是使用时间换空间。比如在hibernate中session就存在于ThreadLocal中,避免了synchronized的使用。 ...

2018-04-23 11:47:34

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。