9 显天

尚未进行身份认证

江湖人士

等级
TA的排名 1w+

【数据采集】-目前比较流行的几种数据采集方式

总的来说目前互联网常用的数据采集分为APP采集和web端采集对于APP采集最常用的方式就是通过集成SDK,进行埋点采集对于这种方式,目前分为有无埋点采集,可视化埋点采集,手工埋点采集大类分别针对于:日志的全量收集,日志的可编辑收集,和自定义埋点收集对于web目前比常见的可以参考:Tony_老七 总结的文章在这里需要细分一下目前用户访问的平台,根据目前以及短期内技术发展,可以分为三种APP|PC|W...

2018-02-12 11:31:08

[数据采集]APP启动时长统计

先列出了友盟平台的统计方式Android平台:sdk版本v5.2.0及之后:app的单次使用时长=本次启动的结束时间减去本次启动的开始时间,即end_time减去start_time。如果在本次启动过程中,应用退到后台运行(例如启动应用的过程中接了个电话,接电话的时候应用会退到后台运行),后台运行时间不超过30s,则此时间会被计算到应用的单次使用时长中;后台运行时间超过

2017-10-23 13:46:41

产品构架图

什么是产品架构图产品架构图是产品经理用来表达自己产品设计机制的一张概念图:它将可视化的具象产品功能,抽象成信息化、模块化、层次清晰的架构,并通过不同分层的交互关系、功能模块的组合、数据和信息的流转,来传递产品的业务流程、商业模式和设计思路。由于产品架构图通常用于比较复杂的产品项目中,目前介绍产品架构图的相关书籍

2017-09-21 16:59:39

电商基础概念-商品

spu 属性(不会影响到库存和价格的属性, 又叫关键属性) >>毛重: 420.00 g产地: 中国大陆sku 属性(会影响到库存和价格的属性, 又叫销售属性) >>容量: 16G, 64G, 128G颜色: 银, 白, 玫瑰金sku 在生成时, 会根据 属性生成 相应的 笛卡尔积.想像一下扑克牌的黑红梅方和 A-K, 扑克牌是这样的 sku 属

2017-07-26 10:40:01

如何用数据来做渠道效果的分析

几乎所有的运营人员都会接触到渠道推广。这些渠道推广可能是付费渠道,可能是免费渠道,无论是哪一种渠道推广,都是需要我们付出成本的。在与渠道打交道的过程中,有时候涉及到跟渠道分成或者跟渠道合作,我们需要统计从渠道获取的用户的数量;有时候涉及到渠道付费,我们需要鉴别渠道用户的质量的好坏,控制并提高渠道的效果。工欲善其事,必先利其器。我们可以利用第三方统计工具来对渠道投放进行监控,通过一些指标来有

2017-07-20 14:56:56

大数据系统数据采集产品的架构分

任何完整的大数据平台,一般包括以下的几个过程:数据采集数据存储数据处理数据展现(可视化,报表和监控)其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括:数据源多种多样数据量大,变化快如何保证数据采集的可靠性的性能如何避免重复数据如何保证数据的质量我们今天就来看看当前可用的一些数据采集的产品,重点关注一些它

2017-06-07 14:31:33

电商运营指标

2017-05-27 17:14:38

全球零售新力量

德勤全球《2017全球零售力量:消费者的艺术与科学》报告显示,2015财年全球250强零售商共计收入4.31万亿美元,复合增长5.2%。德勤全球首席经济学家Ira Kalish博士解释道:“全球主要发达国家经济增长缓慢、新兴国家债务水平居高不下、富裕国家深陷于通缩或低通涨之中、以及贸易保护主义抬头抵制全球化等一系列变化,导致零售商面临严峻的经济形势。但是消费者仍有购物需求,因而推动零售行业持续增长

2017-04-12 10:11:20

管中窥豹,从快消品B2B模式看“新零售”

所谓新零售,即用互联网的思想和技术来改造零售业,打通物流系统、供应商系统及商品系统,实现线上、线下融合,以大数据分析为基础,为客户提供更多个性化的产品需求和体验。快消品市场发展一直伴随着零售业态的发展,在零售业中占据重要作用,本期我们将以快消品为切入口,探讨“新零售” 时代背景下零售业的经营模式变革。快消品是指使用寿命较短,消费速度较快的消费品,主要包括食品、饮料、烟酒等产品。快消品消费具

2017-04-12 10:09:09

大数据技术-数据仓库

nice的博客:http://webdataanalysis.net数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层

2017-04-06 16:20:49

大数据技术-数据采集-Flume.logstash等

随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache FlumeFluentdLogstashChukwaScribeSplunk Forwarder大数据平台与数据采集任何完整的大数据平台,一般包括以下的几个过程:数据采集-->数据存储-->数据处理-->数据展现(可视化,报表和监控)其中,数据采集是

2017-04-06 11:26:33

大数据技术-消息队列-Kafka

背景假设你意气风发,要开发新一代的互联网应用,以期在互联网事业中一展宏图。借助云计算,很容易开发出如下原型系统:Web应用:部署在云服务器上,为个人电脑或者移动用户提供的访问体验。SQL数据库:为Web应用提供数据持久化以及数据查询。这套架构简洁而高效,很快便能够部署到百度云等云计算平台,以便快速推向市场。互联网不就是讲究小步快跑嘛!好景不长。随着用户的迅速增长,所有的访问

2017-04-06 11:22:40

数据分析:在天猫开一个店需要多少成本?

有的人做了3、4年电商,还弄不明白“成本”里包含哪几项。事实上,在今天,如果你在“天猫”开店经营,20元出厂价的产品,以3倍的价60元卖出去,结果也只能是亏本。一、一般的商家举个例子,我来帮大家做个测算,其实“成本”不止是产品本身,而是产品整个销售过程中不可避免发生的费用,最基础的来说,“成本”一共包括6大项:1、产品成本(比如20元);2、包装成本(内包装,外包装

2017-04-04 10:52:30

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

转载于:点击打开链接简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。

2017-02-26 15:07:41

数据产品文章集锦

1、有埋点和无埋点的埋点真相https://toutiao.io/posts/p0bmdk/preview

2017-02-20 09:52:00

Hive对应MapReduce操作

转载自:http://tech.meituan.com/hive-sql-to-mapreduce.htmlMapReduce实现基本SQL操作的原理详细讲解SQL编译为MapReduce之前,我们先来看看MapReduce框架实现SQL基本操作的原理Join的实现原理select u.name, o.orderid from order o join

2016-11-15 11:58:17

纳什均衡说了些什么

而纳什的观点是,在一个纳什均衡的组合里,每个人其实不选择对自己“最优”的那个策略,而是选择“次优”的那个策略,从而达成“均衡的合作”。当博弈次数不止一次地进行着时,博弈结果将重复定格在某个状态,那个状态即是纳什均衡点。公理解释是如果博弈在某情况下无任一参与者可以通过独自行动而增加收益,则此时的策略组合被称为纳什均衡。简单的博弈案例看上去似乎有趣,但博弈论始终是一门深奥复

2016-08-30 08:59:28

【前端开发】HTML标签总结-行标签和块标签

一,基本概念HTML(Hypertext Markup Language) 超文本标记语言,是用于描述网页文档的一种标记语言,XHTML是一种遵循更严格的XML规则的HTML新版本,这种新的XML兼容版本的HTML被称为XHTML。 声明必须是 HTML 文档的第一行,位于  标签之前。它是指示 web 浏览器关于页面使用哪个 HTML 版本进行编写的指令。二.大体框架 

2016-07-15 20:29:40

【前端开发】CSS布局

CSS布局 ——从display,position, float属性谈起页面布局,或者是在页面上做些小效果的时候经常会用到 display,position和float 属性,如果对它们不是很了解的话,很容易出现一些莫名其妙的效果,痛定思痛读了《CSS Mastery》后总结一下。让我们从基础的CSS知识谈起,相信很多初学者和小弟一样不明白CSS原理,一味追求效果,

2016-07-15 20:14:48

[hive]hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2016-06-24 19:10:32

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!