首页 / 行业
大数据工程师的工作内容有哪些
2019-05-07 16:54:00
大数据工程师工作内容取决于你工作在数据流的哪一个环节。
从数据上游到数据下游,大致可以分为:
数据采集 -》 数据清洗 -》 数据存储 -》 数据分析统计 -》 数据可视化 等几个方面
工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:522189307,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
具体说说吧,
数据采集:
业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。
数据清洗:
原始的日志,数据是千奇百怪的
一些字段可能会有异常取值,即脏数据。为了保证数据下游的“数据分析统计”能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。
一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。
一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用‘*’字符替换。
数据存储:
清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的“数据分析统计”对实时性要求比较高,则可以把日志记录入到kafka。
数据分析统计:
数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。
数据可视化:
用数据表格、数据图等直观的形式展示上游“数据分析统计”的数据。一般公司的某些决策会参考这些图表里头的数据~
当然,大数据平台(如CDH、FusionInsight等)搭建与维护,也可能是大数据工程师工作内容的一部分喔~
最新内容
手机 |
相关内容
什么是空心电抗器,空心电抗器的基本
什么是空心电抗器,空心电抗器的基本结构、技术参数、工作原理、类型、执行标准、绝缘等级及适用环境,类型,等级,工作原理,执行,结构什么是带阻三极管,带阻三极管的基本
什么是带阻三极管,带阻三极管的基本结构、工作原理、电阻比率、常用型号、应用、检测、操作规程及发展历程,三极管,检测,工作原理,什么是射流继电器,射流继电器的基本
什么是射流继电器,射流继电器的基本结构、技术参数、工作原理、负载分类、如何选用、操作规程及发展历程,继电器,工作原理,分类,负什么是直流滤波器,直流滤波器的基本
什么是直流滤波器,直流滤波器的基本结构、特点、工作原理、类型、保护原理、直流滤波器不平衡保护动作原因分析及发展状况,滤波器,什么是电机启动器,电机启动器的基本
什么是电机启动器,电机启动器的基本结构、优缺点、工作原理、类型、检测、操作规程及发展历程,工作原理,类型,检测,结构,启动,断开,什么是真空接触器,真空接触器的基本
什么是真空接触器,真空接触器的基本结构、优缺点、工作原理、应用、安装、检测、故障原因及发展历程,原因,故障,检测,安装,结构,工什么是热继电器,热继电器的基本结构
什么是热继电器,热继电器的基本结构、技术参数、工作原理、作用、保护功能、选择和安装、日常维护及发展历程,继电器,安装,选择,作位移传感器结构类型及工作原理与应
位移传感器结构类型及工作原理与应用,工作原理,类型,结构,位移传感器,常见,效应,FDV302P位移传感器是一种用于测量物体位移或位置的