大数据
内容简介:
大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前最为热门的信息技术应用领域。本书由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。最后,对大数据面临的挑战和未来的趋势进行了展望。 本书既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。
目录:
第1 章 大数据的概念和发展背景..........................................................................1 1.1 大数据的发展背景..................................................................................................1 1.2 大数据的概念和特征..............................................................................................4 1.2.1 大数据的概念.................................................................................................4 1.2.2 大数据的特征.................................................................................................4 1.3 大数据的产生..........................................................................................................5 1.3.1 数据产生由企业内部向企业外部扩展...........................................................5 1.3.2 数据产生从Web 1.0 向Web 2.0、从互联网向移动互联网扩展.....................6 1.3.3 数据产生从计算机/互联网(IT)向物联网(IOT)扩展..............................7 1.4 数据的量级..............................................................................................................7 1.4.1 数据大小的量级.............................................................................................7 1.4.2 大数据的量级.................................................................................................8 1.5 大量不同的数据类型..............................................................................................8 1.5.1 按照数据结构分类.........................................................................................9 1.5.2 按照产生主体分类....................................................................................... 12 1.5.3 按照数据作用方式分类................................................................................ 13 1.6 大数据的速度........................................................................................................ 14 1.7 大数据的潜在价值................................................................................................ 14 1.8 大数据的挑战........................................................................................................ 15 1.8.1 业务视角不同带来的挑战............................................................................ 15 1.8.2 技术架构不同带来的挑战............................................................................ 15 1.8.3 管理策略不同带来的挑战............................................................................. 16 第2 章 大数据应用的业务需求................................................................. 17 2.1 大数据应用的业务流程........................................................................................ 17 2.1.1 产生数据...................................................................................................... 17 2.1.2 聚集数据...................................................................................................... 18 2.1.3 分析数据...................................................................................................... 19 2.1.4 利用数据...................................................................................................... 19 2.2 大数据应用的业务价值........................................................................................ 19 2.2.1 发现大数据的潜在价值................................................................................ 20 2.2.2 实现大数据整合创新的价值........................................................................ 20 2.2.3 新领域再利用的价值................................................................................... 21 2.3 各行业大数据应用的个性需求............................................................................ 21 2.3.1 互联网与电子商务行业................................................................................ 21 2.3.2 零售业.......................................................................................................... 27 2.3.3 金融业.......................................................................................................... 28 2.3.4 政府.............................................................................................................. 32 2.3.5 医疗业.......................................................................................................... 34 2.3.6 能源业.......................................................................................................... 36 2.3.7 制造业.......................................................................................................... 37 2.3.8 电信运营业.................................................................................................. 39 2.3.9 交通物流业.................................................................................................. 41 2.4 企业级大数据应用的共性需求............................................................................ 42 2.4.1 客户分析...................................................................................................... 42 2.4.2 绩效分析...................................................................................................... 46 2.4.3 欺诈和风险评估........................................................................................... 48 2.5 以银行客户分析为例,分析一个大数据的应用场景....................................... 49 第3 章 大数据应用的总体架构和关键技术.............................................................. 51 3.1 总体架构................................................................................................................. 51 3.1.1 业务目标...................................................................................................... 51 3.1.2 架构设计原则............................................................................................... 52 3.1.3 总体架构参考模型....................................................................................... 55 3.1.4 总体架构的特点........................................................................................... 58 3.2 大数据存储和处理技术........................................................................................ 59 3.2.1 Hadoop:分布式存储和计算平台................................................................ 59 3.2.2 Hadoop 之HDFS:分布式文件系统............................................................. 65 3.2.3 Hadoop 之MapReduce:分布式计算框架.................................................... 72 3.2.4 Hadoop 之NoSQL:分布式数据库.............................................................. 98 3.2.5 Hadoop 之外的大数据计算技术................................................................. 113 3.3 大数据查询和分析技术:SQL on Hadoop ....................................................... 126 3.3.1 Hive:基本的Hadoop 查询和分析............................................................. 127 3.3.2 Hive 2.0:Hive 的优化和升级.................................................................... 137 3.3.3 实时互动的SQL:Impala 和drill .............................................................. 140 3.3.4 基于PostgreSQL 的SQL on Hadoop........................................................... 146 3.4 大数据高级分析和可视化技术.......................................................................... 147 3.4.1 传统数据仓库与联机分析处理技术........................................................... 147 3.4.2 大数据对传统分析的挑战.......................................................................... 150 3.4.3 大数据挖掘与高级分析.............................................................................. 150 3.4.4 大数据挖掘与高级分析库:Mahout........................................................... 155 3.4.5 非结构化复杂数据分析.............................................................................. 156 3.4.6 实时预测分析............................................................................................. 163 3.4.7 开源可视化工具:R 语言.......................................................................... 170 3.4.8 可视化技术................................................................................................ 178 3.5 以银行客户分析为例的大数据的技术环境部署............................................. 187 3.5.1 银行客户大数据应用体系架构................................................................... 187 3.5.2 技术环境安装与配置................................................................................. 189 第4 章 大数据与企业级应用的整合策略............................................................... 202 4.1 大数据传输、整合和流程管理平台................................................................. 203 4.1.1 数据传输.................................................................................................... 203 4.1.2 数据整合.................................................................................................... 209 4.1.3 流程管理.................................................................................................... 211 4.2 大数据与存储架构的整合.................................................................................. 215 4.2.1 传统存储架构比较..................................................................................... 215 4.2.2 大数据平台的存储架构的选择................................................................... 216 4.2.3 集群存储的发展......................................................................................... 217 4.2.4 基于HDFS 的集群存储.............................................................................. 219 4.2.5 固态硬盘(SSD)对内存计算的支持........................................................ 221 4.3 大数据与网络架构的发展.................................................................................. 221 4.4 大数据与虚拟化技术的整合.............................................................................. 227 4.5 在云计算平台上的大数据云.............................................................................. 229 4.6 大数据与信息安全.............................................................................................. 231 4.7 以银行客户分析为例,分析一个大数据的平台整合..................................... 234 第5 章 大数据应用的实践方法与案例................................................................... 235 5.1 实践方法论.......................................................................................................... 235 5.1.1 业务需求定义............................................................................................. 235 5.1.2 数据应用现状分析与标杆比较................................................................... 237 5.1.3 大数据应用架构规划和设计...................................................................... 238 5.1.4 大数据技术切入与实施.............................................................................. 239 5.1.5 大数据试用和评估..................................................................................... 240 5.1.6 大数据应用推广......................................................................................... 241 5.2 应用案例............................................................................................................... 241 5.2.1 亚马逊........................................................................................................ 241 5.2.2 雅虎............................................................................................................ 242 5.2.3 淘宝网........................................................................................................ 242 5.2.4 Facebook .................................................................................................... 243 5.3 以银行客户分析为例的实施案例分析............................................................. 244 5.3.1 银行基于大数据的客户分析的业务需求.................................................... 244 5.3.2 银行基于大数据的客户分析的现状与标杆比较......................................... 245 5.3.3 银行基于大数据的客户分析的应用架构规划与设计................................. 246 5.3.4 银行基于大数据的数据分析的实施、试点和推广..................................... 247 第6 章 大数据应用的主流解决方案...................................................................... 248 6.1 产业链................................................................................................................... 248 6.1.1 国际上的大数据生态环境.......................................................................... 248 6.1.2 国内产业链主要力量................................................................................. 251 6.2 主流厂商解决方案.............................................................................................. 252 6.2.1 Cloundera ................................................................................................... 252 6.2.2 Hortonworks ............................................................................................... 254 6.2.3 MapR.......................................................................................................... 254 6.2.4 IBM ............................................................................................................ 255 6.2.5 Oracle ......................................................................................................... 257 6.2.6 EMC ........................................................................................................... 258 6.2.7 Intel ............................................................................................................ 259 6.2.8 SAP ............................................................................................................ 260 6.2.9 Teradata ...................................................................................................... 262 第7 章 大数据应用的未来挑战和趋势........................................................................ 263 7.1 隐私保护............................................................................................................... 263 7.1.1 法律保护.................................................................................................... 264 7.1.2 技术保护.................................................................................................... 266 7.1.3 理念革新.................................................................................................... 267 7.2 技术标准............................................................................................................... 268 7.2.1 ISO 标准化进展......................................................................................... 268 7.2.2 评价基准和基准测试................................................................................. 269 7.2.3 标准套件.................................................................................................... 273 7.3 大数据治理.......................................................................................................... 273 7.3.1 数据治理框架............................................................................................. 274 7.3.2 数据质量管理............................................................................................. 274 7.3.3 大数据的组织、角色和责任...................................................................... 276 7.4 适应商业社会的未来趋势.................................................................................. 277 7.4.1 从产品推销向数据营销的转变................................................................... 277 7.4.2 从流程驱动到分析驱动的转变................................................................... 277 7.4.3 从私有资源到公共服务的转变................................................................... 278
评论