博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
移动采集技术演变
阅读量:5823 次
发布时间:2019-06-18

本文共 2673 字,大约阅读时间需要 8 分钟。

本文由【友盟+】技术专家马巍源、张永峰共同撰稿

随着移动互联网和大数据技术的发展,智能手机的普及,几乎所有工作、学习、生活中的所有场景都离不开手机,手机 APP 已经取代了传统的生活方式,让人们可以体验便捷高效的服务,当然它也承载着大量丰富的信息,收集这些 APP 的数据,集中对数据进行清洗和分析,就能将这些海量数据变为有价值的数据能源。数据采集是开发数据能源的第一步,如何采集数据,什么样的技术架构能够支持海量数据的采集、甄别和传输,这是本文需要讨论的问题。

移动数据采集特点

与 PC 端不同,对于手机、iPad、智能手表、电视盒子等移动设备,我们触达它们的载体就是 APP。原生 SDK 在多语言上支持上需要投入很多的开发资源,跨平台应用开发渐成趋势,但 JS SDK 在各框架上的实现也各有差异,因此,目前移动采集 SDK 在对多平台、多语言的支持上难度较大。

难度更大的是对 Android 设备的机型适配问题。由于 Android 系统的开源特性,各厂商为了在各家机型上有更好的用户体验,都有针对性的做了 ROM 改良,尤其近些年 Android 在虚拟机、编译器上的改动较大,这就给机型适配带来更大的难度。为了不给 APP 带来卡顿、闪退、黑屏、崩溃、加载速度慢等差的体验,还需要支持开发者各种异常方式的接口调用,需要有极强的容错性。

移动端的流量在持续的增长,【友盟+】在移动端覆盖的 APP 超过 135 万款,覆盖全球移动设备日活跃数超过 14 亿个,每天处理的数据量达 280 亿,庞大的数据每天都在考验着我们的采集 SDK 和服务端的承载能力,【友盟+】在移动端采集技术上不断更新迭代,持续多年保持市场覆盖领先的地位。

SDK 与服务器通信协议的演进

我们最初 SDK 的设计思想是简单高效,因此在 SDK 端没有任何对数据预处理的逻辑,甚至缓存策略也非常简单,所有实时产生的数据都会实时上报服务器。但随着移动端流量的暴涨,这种高并发的请求对服务器带来很大的压力。下图是 1.0 版本的通信协议。

于是考虑通过控制发送频率来减小并发,开发者可以根据业务需要采用不同的发送策略:启动、间隔、退出发送,并且在【友盟+】平台可随时变更。虽然有效减小了服务端的压力,但又带来了另一个问题,单条数据的包体大小有可能超过 request-body 的上限,导致请求超时。并且流量压力同样是需要亟待解决的问题,于是,在 2.0 版本上我们对数据进行了压缩,并增加了安全机制。服务端增加了数据预处理的逻辑,完善了对数据的校验。

只能单向通信的协议是不灵活的,有很多时候我们需要 SDK 的行为进行一些控制,比如发送策略的修改、屏蔽错误埋点数据,或者发现数据被污染决定抛弃,这些操作服务器需要通知到 SDK,并且在没有长连接的情况下该怎么做。在 3.0 版本上我们把 http 请求的 response 的信息包体设计控制语义,SDK 除了从 response 获得服务器的接收状态,同时可以获得服务器的控制指令,从而实现服务器想要得到的效果。

如果每一条 Log 都必须等待并解析服务器返回的控制信息,显然服务器对数据处理的时效性和并发处理能力会大大折损,并且有些业务数据其实无需解析并执行这些控制信息。因此,我们对业务数据进行了精细的分解,一些业务数据使用双向通信协议,能够解析并执行控制指令,其余的业务数据属于状态无关数据,仍然使用单向通信协议。

那么未来其实还可以将控制协议与业务传输协议分离,各自使用不同的发送频率,但又能保证所有业务数据是受服务器指令控制的。

SDK 技术架构解析

移动数据采集 SDK 架构主要由三部分组成:用户接口、业务模块和控制模块。

我们可以从几个场景的时序图来解析这几个模块的工作原理。

APP 启动

用户启动 App 的时候,其实是触发了开发者调用的初始化接口,Service Moudle 和 Control Moudle 会异步的进行一些初始化的操作:创建 Session、加载设备信息等。

APP 在前台运行中

当用户在 APP 中有点击、滑动屏幕的行为,会触发开发者在 APP 中预设置埋点事件。

Servie Moudle 会生成相应的事件数据,调用 Control Moudle 的接口检查发送策略和安全策略,之后 Servie Moudle 会将事件数据放到缓存队里中待发送。

APP 退出

无论用户退出 APP 后,SDK 还会在短暂的瞬间完成很多操作:结束 Session、持久化保存数据,在 iOS 中还会直接完成数据封装、打包、上报的工作。

SDK 组件化架构

我们提供的产品功能越来越多,业务场景越来越复杂,为了满足各种各样的解决方案的需求,SDK 需要为各个业务场景维护多个分支、多个版本,开发资源浪费、版本迭代周期拉长,为了解决这个问题,我们必须要设计一个灵活的架构,使每个产品功能变成可自由组合、拆卸的组件。

组件化将统一约定 package 和 public API 的文件规范。针对当前【友盟+】业务的需求,建立标准的 SDK 产品公共库(如:network,serialize,configure,cache 等),组件化结构分为两部分,Common 将作为一个独立的 library package,而 Component 中每个产品作为独立 library。

其结构如下:

业务组合灵活,适用更多场景

组件的划分的颗粒度,可以根据业务需求,我们的设计是根据产品,或者业务来划分组件。一个产品可能包含很多功能,比如统计产品包含事件数据采集、错误数据采集、A/B Test 等功能,Push 产品包含消息推送和应用内消息,在某些场景下,可能有些开发者会只使用部分功能,比如,只用错误分析功能和 Push 的消息推送,那么组件颗粒细化到功能层,就会更加灵活,可满足更多场景的需求,并且体积的减小是对开发者来说是非常有吸引力的。

业务逻辑解耦,代码更加健壮

组件化的架构改变了以前业务逻辑与基础功能深度耦合的状况,业务开发人员可以专注于业务逻辑的实现,而不需要考虑如网络通信、消息队列管理、设备信息采集等基础功能的实现。业务逻辑代码的任何改动,不会影响基础功能逻辑,加强了代码的健壮性,同时在回归测试周期上也大大缩短。

【友盟+】数据采集技术将持续的适应业务场景的变化,未来我们的目标是让我们的 SDK 更加智能,更加安全,让企业及开发者集成更加简单、数据更加精准。

转载地址:http://vgbdx.baihongyu.com/

你可能感兴趣的文章
$\frac{dy}{dx}$ 是什么意思?
查看>>
Go开发之路(目录)
查看>>
RHEL6.5安装成功ORACLE11GR2之后,编写PROC程序出错解决方法
查看>>
(50)与magento集成
查看>>
Ubuntu设置python3为默认版本
查看>>
日期Calendar/Date的用法
查看>>
JsonCpp 的使用
查看>>
问题账户需求分析
查看>>
JavaSE-代码块
查看>>
爬取所有校园新闻
查看>>
32、SpringBoot-整合Dubbo
查看>>
python面向对象基础
查看>>
HDU 2044 一只小蜜蜂(递归)
查看>>
docker 下 安装rancher 笔记
查看>>
spring两大核心对象IOC和AOP(新手理解)
查看>>
数据分析相关
查看>>
Python LDAP中的时间戳转换为Linux下时间
查看>>
微信小程序蓝牙连接小票打印机
查看>>
环境错误2
查看>>
C++_了解虚函数的概念
查看>>