返回 发新帖回复
查看: 2962|回复: 1

[资料] 移动互联网大数据关键技术

[复制链接]

2158

主题

9

好友

7366

积分

论坛元老

Rank: 8Rank: 8

发表于 2015-11-2 09:56:11 |显示全部楼层
随着智能终端的普及,移动互联网得到蓬勃发展。其产生维护了海量的数据信息,包括系统的日志、服务质量、服务调用关系、用户的行为、位置、业务使用偏好等。越来越多的数据使得数据量变得过于庞大、内容过于复杂,难以通过传统的方法进行有效地处理。本文将讨论移动互联网大数据处理的关键技术,包括移动互联网的多源数据采集、海量异构数据管理、实时数据挖掘、高效数据分析与呈现等技术。
    随着智能手机的应用,中国的移动互联网已经步入大数据时代。社交网络逐渐成熟、移动带宽迅速提升,更多的移动终端、传感设备接入网络,产生的数据及其增长速度是前所未有的。新型应用、业务的不断涌现(例如移动支付、移动搜索、移动社交、移动阅读、移动购物、移动音乐视频下载等),其产生的海量数据所带来的价值难以估量,移动互联网大数据对这些新兴产业和业务模式也产生了强有力的几何级数叠加效应。

    移动互联网大数据分析是针对移动互联网中的海量数据进行分析研究,以揭示其内部隐藏的模式和数据间的相关性。通过获得的有用信息帮助企业和机构,使其对客户的需求和体验、业务的发展具有更丰富、更深刻的理解,帮助其在竞争中取得优势。

    本文将分析移动互联网大数据处理所面临的挑战,讨论移动互联网大数据处理的关键技术,希望通过对移动互联网大数据高效率、低成本的处理,为用户提供更好的体验,为企业的发展提供指引。

    1.移动互联网大数据的机遇与挑战

    移动互联网大数据是指用户使用智能终端在移动网络中产生的数据,主要包括:

    (1)与网络信令、协议、流量等相关的网络信息数据。

    (2)与用户信息相关的用户数据。

    (3)与业务相关的数据。

    移动网络中产生着越来越多的数据,电信运营商在提供网络服务的同时,也拥有了这些宝贵的数据资源。这些数据信息对于市场和业务的发展是极其宝贵的,蕴藏着巨大的、造福社会的潜力。而这些数据是运营商管理网络的基础,很多信息高度个人化,如何合理、有效地发挥这些数据资源的作用,为电信运营商带来了机遇与挑战。

    1.1 移动互联网大数据的机遇

    移动互联网大数据可以为电信行业提供海量的通信网络运营数据,包括网络信令、网络运营服务质量、亿万用户的基础信息和位置信息、各类应用的使用信息、物联网和视频网络的使用信息等。对这些数据的处理、分析是了解网络运营状态、互联网应用发展趋势和改善客户体验的重要技术。

    通过大数据分析超越客户支持范畴在整个客户生命周期中帮助客户,能够提升客户体验。大数据分析也是简化网络和服务管理流程,提高运营效率的重要技术。移动客户体验方案结合大数据分析可以提供客户在任何时间、地点、经历了何种体验的完整信息,可

    以帮助运营商预期、理解网络上发生的情况和客户体验,同时做出适当响应。这些信息能够帮助服务提应商优先考虑重要的问题,提供积极的技术支持、改善客户体验、减少客户流失倾向。

    1.2 移动互联网大数据面临的挑战

    移动互联网大数据是网络运营发展和创造新的商业模式和价值的核心。这些数据产生于网上交易、电子邮件、视频、音频、图像、点击流、日志、帖子、搜索查询、健康档案、社交互动、科学数据、传感器和移动电话及其应用。由于数据量规模巨大,传统的技术已经难以撷取、存储、管理、共享、分析,并将结果可视化。这些是移动互联网大数据所面临的挑战。

    1.2.1 多源数据采集问题

    大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。举例来说,一个用户的一条位置信息的价值是很小的,但是很多这样的低价值数据可以完整刻画出用户的运动轨迹,获得本质上的价值提升。

    然而,在已有的数据采集系统中,数据收集不全面是一个普遍的问题,如何处理来自多源的数据是移动互联网大数据时代面临的新挑战。其中,迫切需要解决如下几个问题:

    ●无线移动网络结构复杂,需要在网络中高效地采集数据。

    ●多源数据集成和多类型数据集成的技术。

    ●兼顾用户的隐私和数据的所有权和使用权等。

    1.2.2 移动互联网海量异构数据管理问题

    据统计,2003 年前人类共创造了5 艾字节(Exabytes)的数据,而今天两天的时间就可以创造如此大量的数据。这些数据大部分是异构数据,有些具有用户标注、有些没有;有些是结构化的(比如数值、符号)、有些是非结构化话的(比如图片、声音);有些时效性强、有些时效性弱;有些价值度高、有些价值度低。

    移动互联网海量异构数据管理平台包含以下关键研究和技术:海量异构大数据传输控制、大数据存储、大数据质量管理。

    1.2.3 移动互联网大数据实时数据挖掘问题

    传统意义上的数据分析(Analysis)主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系。首先,利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(OLAP,Online Analytical Processing),可以进行多个维度的下钻(Drill-down)或上卷(Roll-up)操作。对于从数据中提炼更深层次的知识的需求促使了数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化数据时极为高效。但是,对于移动互联网来说,涉及更多的是多模态数据挖掘,这些数据包括手机上的传感器,包括加速度计、陀螺仪、指南针、GPS、麦克风、摄像头、以及各种无线信号(如GSM、Wi-Fi)和蓝牙等。这些原始数据在不同维度上刻画被感知的对象,需要经过不同层次的加工和提炼才能形成从数据到信息再到知识的飞跃。移动互联网半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。

    1.2.4 高效资源管理与分析问题

    移动互联网通过物理空间和信息空间的感知互动,高效灵活地为用户提供智慧服务。移动互联网系统存在高度的混杂性特征,诸如终端类型多样、数量巨大,感知属性、特征、控制与处理方法等差异巨大,使得移动互联网的运行场景和待处理因素极为复杂多样。

    这就对移动互联网的资源可靠性提出了要求,使其需要相应检测方法的研究。支持移动互联网大数据的资源管理是移动互联网运行的基础,为移动互联网大数据的感知、采集、交互、处理和决策提供了重要支撑,因而移动互联网的高效资源管理与分析机理是亟待解决的基础科学问题。

    在移动互联网中,由于泛在业务的异构性、大规模性与时空复杂性,如何在这样的异构非线性复杂巨型系统中建立基于Web 的无限泛在网业务环境体系架构,是目前亟待解决的问题。

    2.移动互联网大数据的关键技术

    移动互联网大数据的关键技术涉及多源数据采集、海量异构数据管理、实时数据挖掘、高效资源管理与分析等,这些技术的核心是数据的管理、分析和呈现。

    2.1 海量异构数据管理技术

    移动互联网时刻都在产生海量的多源异构数据。

    这些数据具有4 大特点,第一,数据体量巨大。从TB级别,跃升到PB 级别;第二,数据类型繁多,如网络日志、视频、图片、地理位置信息等;第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;第四,处理速度快,1 秒定律,即要求在秒级时间范围内给出分析结果,时间太长就失去了价值。最后这一点也是和传统的数据挖掘技术有着本质的不同。为此,业界将大数据的特点归纳为4 个“V”——Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)。

    针对这4 个特点给海量异构数据的管理带来的挑战,海量异构数据管理需重点关注如图1 所示架构中的关键模块,具体有:



图1 移动互联网大数据处理架构图


    (1)流处理与批处理模块。

    (2)异构数据融合与海量数据集成模块。

    (3)文件系统模块。

    (4)数据库系统模块。

    (5)数据管理易用性模块。

    (6)为数据管理、挖掘、呈现提供接口的数据访问层。

    针对移动互联网大数据处理的不同要求,数据探测模块可将数据分别送给实时流处理系统和批处理系统。很多互联网公司(如职业社交网站Linkedin)根据处理时间的要求将业务划分为在线(Online)、近线(Nearline)和离线(Offline)。这种划分方式是按处理所耗时间来划分的。其中,在线的处理时间一般在秒级,甚至是毫秒级,通常采用流处理技术。离线的处理时间可以以天为基本单位,基本采用批处理方式,以便最大限度地利用系统I/O。近线的处理时间在分钟级或小时级,对其处理模型并没有特别的要求,可以根据需求灵活选择,实际中多采用批处理模式。

    流式处理系统主要采用Flume、Kafka、Storm 的系统架构,数据处理后存入数据库系统,并向数据访问层提供数据服务。其特点是具备实时处理能力。

    批处理系统,是首先将数据进行存储,再进行计算和处理,在某些场景下时延较大。其存储系统可选用HDFS 或HBase,对于冷数据可采取存入GlusterFS 的策略,以降低成本。常用的批处理系统通过ETL(Extraction TransformationLoading),即数据的提取、转换和加载,然后利用OLAP(On- LineAnalytical Processing)技术对多维异构数据进行建模分析,也可以进行更复杂的数据模型的建立。

    Hadoop 批处理系统里面具体可利用组件包括最常用的MapReduce,以及Hive、Impala、Shark 等SQLon Hadoop,这些组件的灵活使用可以给下一层的数据挖掘模块提供丰富的统一的结构化数据基础。

    随着移动互联网大数据处理技术的发展,相关技术也在不断地发展和演进中。如高效的分布式计算系统Spark,将中间数据存放在内存中,提高迭代运算效率,支持实时批计算。Pregel 计算模型,用于解决分布式图计算问题,绘制大量网上信息间的“图形数据库”,如网页链接关系和社交关系图等。

    数据访问层重要的功能是抽取下层处理的结果数据,屏蔽下层处理的复杂性,通过某种接口(如Restful API)提供给前端应用接口进行展现,开发应用、提供服务。


哈哈,今天灰常开心!
发表于 2015-11-2 09:57:08 |显示全部楼层
    2.2 实时数据挖掘技术

    移动互联网大数据纷繁复杂,对不同的使用目的,有不同的实时数据挖掘技术。图2 关注运营商对网络的维护和业务推广两个重要功能,对无线网络数据挖掘技术和应用数据挖掘技术进行了分析。

    2.2.1 无线网络数据挖掘技术

    随着移动网络的发展,网络结构变得比较复杂,体现在网元多、多种无线技术同时存在、网络故障诊断困难、干扰用户体验的因素很多等方面。无线网络数据挖掘模块,根据对无线网络的理解,以及网络中能够产生的各类日志文件、信令采集系统、计费信息、用户签约信息等系统,综合大数据分析,通过统计和数据挖掘,生成报表,并对外提供数据分析能力、开放API。具体可以提供的信息包括:



图2 实时数据挖掘技术


    (1)网络分析:包括全网的流量分析、会话和告警分析、漫游分析、网络的使用变化趋势分析、网络性能KPI分析。

    (2)网元分析:包括网元对比分析、网元组对比分析、网元时间变化趋势分析、全网Cell 累计分布分析和RNC性能负载分析。

    (3)终端分析:终端设备使用趋势分析、终端设备每天小时时段变化趋势的分析、终端设备的性能指标分析等。

    (4)用户分析:用户比较分析、无线共享路由用户对比分析、无线共享路由用户的资源使用、无线共享路由用户的设备型号/操作系统构成分析、用户组的比较分析、全网用户累积分布分析、单用户时间变化趋势分析等。

    (5)应用分析:应用业务使用趋势分析、应用业务每天小时时段趋势变化分析、指定终端设备类型上的TopN 应用业务分析、应用业务性能分析、应用业务系统分组的性能KPI 分析、应用业务组使用趋势分析、应用业务组每天小时时段趋势变化分析。

    (6)其他组合分析:各类QoS/QoE 指标分析;不同纬度的用户、业务、网络状况分析;各类网络安全、负等统计和告警信息分析。

    2.2.2 多媒体数据挖掘技术(见图3)



图3 多媒体数据挖掘技术


    针对移动互联网中的用户行为数据,多媒体信息数据挖掘技术,以典型的视频应用为例,其关键技术包括精准的用户画像建立、视频推荐、广告投放等。

    用户画像挖掘的基础数据主要依赖用户的视频播放记录、用户注册信息、搜索行为、社交行为数据等。其关键是通过大数据机器学习分类算法训练出一系列可泛化的模型,包括行业定向模型、性别模型、年龄段模型等。使用这些分类预测模型,对注册用户属性信息和行为信息的数据清洗,之后合并形成原始训练用户数据。对线上的匿名用户的属性进行预测判断,完善用户画像。

    视频推荐技术基于用户行为数据,定期计算视频的热度、视频的新鲜度、用户的长期兴趣和用户的短期反馈数据。实时计算视频内容相似度、解析线上请求、了解推荐意图、识别用户ID。获取推荐的候选列表,经过合并、重排,过滤用户已经看过的视频等工作,最后生成推荐给该用户的个性化推荐结果。

    通过建立更加完整的用户画像,实时挖掘视频推荐的可能,为广告主定制有针对性的人群定向模式,合理配置和优化多媒体平台的广告资源,这些关键技术可以有效提高多媒体平台的运营能力,以及精准广告的变现能力。

    3.结束语

    随着移动互联网的发展,与其相关的大数据成为各方关注的焦点。本文分析了移动互联网大数据的潜在价值和面临的挑战,总结了使用移动互联网大数据的关键技术,包括移动互联网大数据的采集、数据存储和分析、海量数据的深度挖掘与处理,同时分析了如何对海量数据进行整合和呈现,提供数据中的有效价值。希望这些分析能够为移动互联网大数据的分析和应用提供有益的借鉴。


哈哈,今天灰常开心!
回复

使用道具 举报

返回 发新帖 回复
您需要登录后才可以回帖 登录 | 注册

Powered by e-works © 2002-2012 中国制造业信息化门户网 版权所有
回顶部