5 沈子恒

尚未进行身份认证

计算机视觉 图像处理 深度学习

等级
TA的排名 249

Java中恒等条件判断:“equals”和“==”

1. 起因:字符串恒等判断//String is reference typeString str1 = new String("hello");String str2 = new String("hello");System.out.println(str1==str2);// falseSystem.out.println(str1.equals(str2));// tru...

2019-11-27 19:36:02

OCR-PIL.Image与Base64 String的互相转换

1. 基本环境py2: python2.7.13 py3: python3.6.2 PIL: pip(2/3) install pillow, PIL库已不再维护,而pillow是PIL的一个分支,如今已超越PIL2.Convert PIL.Image to Base64 Stringpy2 :先使用CStringIO.StringIO把图片内容转为二进制流,再进行base64编码...

2019-11-14 10:02:24

Bert演变总结

2019-11-03 21:41:36

基于bert模型的文本分类研究:“Predict the Happiness”挑战

1. 前言在2018年10月,Google发布了新的语言表示模型BERT-“Bidirectional Encoder Representations from Transformers”。根据他们的论文所言,在文本分类、实体识别、问答系统等广泛的自然语言处理任务上取得了最新的成果。2017年12月,参加了Hackerreath的一个挑战“Predict the Happiness”。在这...

2019-11-03 20:11:57

faiss(2):理解product quantization算法

近几年,深度学习技术被广泛用于图像识别、语音识别、自然语言处理等领域,能够把每个实体(图像、语音、文本)转换为对应的embedding向量。如这里千人千面智能淘宝店铺背后的算法研究登陆人工智能顶级会议AAAI 2017。而对于推荐、搜索或者广告投放问题,都可以描述为从大规模候选中给用户提供有限的展现结果。那么,这里就会涉及到向量检索的问题。向量检索最简单的想法是暴力穷举法,如果全部实体的个数是...

2019-11-03 13:04:56

faiss(1):简介 安装 与 原理

1. 简介Faiss是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集(备注:向量集大小由RAM内存决定)的算法,以及用于算法评估和参数调整的支持代码。Faiss用C++编写,并提供与Numpy完美衔接的Python接口。除此以外,对一些核心算法提供了GPU实现。...

2019-11-03 12:17:18

热词抽取与话题发现系列(1):郝晓玲研究

1. 背景社区内容的数据挖掘方面主要可分为两大类:内容关联挖掘和用户关系挖掘, 热词/热点话题发现属于社区内容挖掘范畴,是指从大量的UGC文本中检测出用户广泛讨论的话题。涉及两个关键性技术:中文分词技术,中文话题发现技术。中文分词算法主要分为两种:一是基于语言规则的方法,即计算机可以通过自然语言的语法、词性等内部规则分析出文本正确含义并分词,判断文本串是否成词主要依赖词库。 主要方法包括:...

2019-10-20 13:05:26

Spark写Redis+Spark资源配置总结

1. 起源于Error19/10/16 11:22:06 ERROR YarnClusterScheduler: Lost executor 28 on **********: Container marked as failed: container_********** on host: **********. Exit status: 137. Diagnostics: Contain...

2019-10-17 20:37:03

ABtest用于推荐系统性能衡量

1. 背景介绍无法衡量就无法优化,对于互联网产品而言,不仅是推荐系统,整个 app 系统的更新迭代必然需要建立一套度量衡,来把控整个流程优化的方向。而 ABtest 系统就是一个很好的进行变量控制和优化方向选取的工具,循环:衡量 - 发现 - 迭代 - 验证。所谓精细化迭代是一种建立在数据基础上的思维方式——用较少的成本获得较好的效果。无数据,不优化, 线上分流实验是进行推荐算法优化的必由之路...

2019-10-13 19:48:24

SQL中的distinct的使用方法

1. distinct含义与使用方法distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。注意事项distinct 【查询字段】,必须放在要查询字段的开头,即放在第一个参数; 只能在SELECT 语句中使用,不能在 INSERT, DELETE, U...

2019-10-13 18:47:25

[scala-spark]12. RDD行动操作

firstfirst返回RDD中的第一个元素,不排序。scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)scala> rdd1.firstres1: (String, String) = (A,1)countcount返回RDD中的元素数量。scala> var rdd1...

2019-09-23 01:14:13

[scala-spark]11. RDD控制操作

Spark可以将RDD持久化到内存或者磁盘,持久化到内存可以极大的提高迭代计算以及计算模型之间的数据共享,一般情况下,执行节点60%内存用于缓存数据,剩下40%用于运行任务。Spark使用persist、cache进行操作持久化,其中cache是persist的特例。cache():RDD[T] persist():RDD[T] persist(level:StorageLevel):RD...

2019-09-23 01:06:16

[scala-spark]10. RDD转换操作

RDD提供了一组非常丰富的操作来操作数据,如:map,flatMap,filter等转换操作,以及SaveAsTextFile,conutByKey等行动操作。这里仅仅综述了转换操作。mapmap是对RDD中的每一个元素都执行一个指定的函数来产生一个新的RDD,RDD之间的元素是一对一的关系。val rdd1: RDD[Int] = sc.parallelize(1 to 9, 3)...

2019-09-23 00:31:30

[scala-spark]9. RDD创建操作

1.从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]目的:从一个Seq集合创建RDD参数1:Seq集合,必须参数2:分区数,默认为该Application分配到的资源的CPU核数s...

2019-09-23 00:20:50

[scala-spark]8. RDD的实现和编程接口

1. RDD的实现作业调度当对RDD执行“转换操作”时,调度器(DGAScheduler)会根据RDD的血统来构建由若干调度阶段(State)组成的有向无环图(DAG),每个调度阶段包含尽可能多的连续“窄依赖”转换。调度器按照有向无环图顺序进行计算,并最终得到目标RDD。调度器(TaskScheduler)向各节点分配任务采用延时调度机制并根据数据存储位置来确定(数据本地性:移动计算而非...

2019-09-23 00:10:10

[scala-spark]7. list 与 map

1. listScala 语言中提供的数组是用来存储固定大小的同类型元素,数组对于每一门编辑应语言来说都是重要的数据结构之一。声明数组变量并不是声明 number0、number1、...、number99 一个个单独的变量,而是声明一个就像 numbers 这样的变量,然后使用 numbers[0]、numbers[1]、...、numbers[99] 来表示一个个单独的变量。数组中某个指定...

2019-09-22 23:33:45

[scala-spark]6. 继承与特质trait

1. 继承定义抽象类abstract class Element{ def contents:Array[String]}抽象类的方法没有实现,抽象类的类本身必须被abstract修饰。而方法只要没有实现,它就是抽象的,不需要加abstract。定义无参方法abstract class Element{ def contents:Array[String] def...

2019-09-22 23:18:21

[scala-spark]5. 伴生类和伴生对象

单例对象与类同名时,这个单例对象被称为这个类的伴生对象,而这个类被称为这个单例对象的伴生类。伴生类和伴生对象要在同一个源文件中定义,伴生对象和伴生类可以互相访问其私有成员。不与伴生类同名的单例对象称为孤立对象。(弥补了Scala中缺少static关键字的缺陷,可以与java无缝对接)import scala.collection.mutable.Map class ChecksumAcc...

2019-09-22 23:11:32

[scala-spark]4. 函数式编程

1. 几个概念说明在Scala中,方法与函数几乎可以等同(定义 使用 运行机制),只是函数的使用方法更加灵活多样 函数式编程是从编程方式的角度来谈的。函数式编程把函数当成一等公民,充分利用函数、支持函数的多种使用方式(调用)。既可以作为函数的参数使用,也可以将函数赋值给一个变量;此外函数的创建不用依赖类或者对象,而在Java中,函数的创建需要依赖类/抽象类或者接口package com....

2019-09-22 21:30:39

[scala-spark]3. 变量 数据类型 分支与循环

1. 变量定义与初始化package com.lineshen.chapter2 object variable { def main(args: Array[String]): Unit = { val age: Int = 10 val sal: Double = 10.9 val name: String = "lienshen" val isP...

2019-09-22 17:40:32

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。