首页 / 行业
一名数据分析工程师的实习经历
2019-07-10 17:03:00
从进入大学,我就常在思考,未来要做什么,自己的兴趣是什么。我的大学阶段,在保证本专业的成绩优秀的情况下,我尽一切努力探索更多未知的领域。参加过全国物流设计大赛,电子商务大赛,机械设计大赛,创新创业大赛,全国大学生数学建模大赛,还参与各种社团,学生活动,只是为了找寻真正喜欢的方向。后面,我发现能从心底里感兴趣,真正喜欢的就是参与数学建模的整个过程,这也在最后奠定了以后的方向。
保研后,在完成学校所有的论文要求和实验室项目的同时,我开启了数据分析的实习道路,现在已经在互联网实习快一年了,记录一下所有的成长历程吧!
首先是面试,有两轮的面试,因为是技术岗,第一个面试官问了两个算法题和一个数学题,第二个面试官问了一个用sql处理数据的问题和两个数学题,而第二个面试官就是我们数据组的老大。
开始的一周,需要搭建跳板机,vpn和git的环境,接着就开始工作了。
我们组的工作内容:
我们组的工作是分析公司各业务的log日志,包括服务器和客户端,还有每个业务服务的数据库中的数据。最后搭建数据仓库,完成一整套数据收集,处理,分析到展示的过程,其中还涉及监控和报警,有离线数据还有实时数据的分析。我们提供一个数据报表展示平台,每一个报表由运维,产品,运营,服务器开发等同事提出数据需求,最后由我们完成,同时,我们还会处理各种临时需求,数据分析等工作,并提供一个方便大家查询数据的sql查询接口。
技术流:
首先,各业务的产品经理想要分析某个点击行为或者功能,需要和对应的开发,和我们组协商打点的数据格式,参数,对应的服务器名,日志路径,或者jdbc,库名与表名,对应的字段名称,具体业务逻辑和含义。业务产品需要给我们提出数据分析需求,不同的维度的筛选,统计指标的定义。接着需要大数据工程师,如果是离线数据,需要用sqoop将数据导入hdfs上,存入规定地标准路径和文件中,建立partition以天为分区。然后数据分析工程师需要搭建整个数据仓库,公司的数据仓库是用php搭建的框架,对应格式基本一致的数据源,用hive建表,可以对应csv,用jave写serde进行解析等方式处理,如果是非格式化且记录之间的格式变动较大,需要用pig处理,pig中调用python,处理后再用hive建表,也有需要用r进行处理的数据,最后数据经过ods,dw层以hive表记录,到最后dm层时实现产品最后的统计分析需求,dm以mysql表记录,数据仓库的建立需要伴随着业务不断修改逻辑,最后展示到web中,web中还需要进行一些简单的sql进行展示,用js插件可以调用不用的数据展示形式。实时数据是用kafak进行收集,然后实时查询,离线数据是晚上12:00开始跑job,其中包括任务调度,依赖等的设置。如果有以月跑的数据,还crontab进行调度,有些数据还需要外部信息,比如ip地址的对应,手机型号等,要写对应爬虫收集相关数据。公司有三个业务,业务的数据还会内嵌,交叉统计,有时候某一个业务逻辑修改会影响很多数据的统计结果,因此数据分析工作是一个复杂的系统工程。
作为一个数据分析工程师,我的工作主要是分析离线数据,在产品提出需求后,分析要统计的逻辑,提出倒数需求log或mysql,建立数据仓库hive,pig,python,php,从ods层到dm层写出数据统计的逻辑,最后把数据放如mysql,最后配置web页面,有时候会写简单的爬虫,跑临时数据,会用shell写个简单的脚本,用crontab进行调度等。仓库的代码用git管理。
结语:
喜欢我们组的氛围,大家都热爱各种创新的技术和分析方法,热爱分享。很感激老大带领我进入了公司,进入了我们组,感谢大家对我的帮助,开启了我数据分析的道路。
最新内容
手机 |
相关内容
AI换脸换声太逼真!遇到AI视频诈骗如
AI换脸换声太逼真!遇到AI视频诈骗如何识别?,活动,社交媒体,确认,账户,验证,真实照片,随着DCP010505BP-U人工智能技术的不断发展,AI换脸清华大学研发光电融合芯片,算力超商
清华大学研发光电融合芯片,算力超商用芯片三千余倍,芯片,研发,商用,测试,计算,科学研究,近日,清华大学发布了一项重要科研成果,他们成芯片电源电流测试方法是什么?有什么
芯片电源电流测试方法是什么?有什么测试条件?,测试,有什么,测试方法,条件,芯片,设置,芯片电源电流测试是对芯片在不同工作状态下的电高精度铁芯直线模组针对传感器性能
高精度铁芯直线模组针对传感器性能测试设计,测试设计,性能,传感器,高精度,数据分析,信号,高精度铁芯直线模组是一种常用于传感器测DigiKey 推出 2023 Back2School 抽
DigiKey 推出 2023 Back2School 抽奖活动,推出,支持,年度,活动,美元,产品,全球供应品类丰富、发货快速的现货技术元器件和自动化产AI导向的EDA 2.0时代
AI导向的EDA 2.0时代,时代,协作,可视化,集成,工具,数据,在AI导向的EDA(探索性数据分析)2.0时代,数据分析的方式和工具发生了巨大的变革探索数字时代前沿,共谋AI时代创新安
探索数字时代前沿,共谋AI时代创新安全生产力,时代,前沿,数字,预防,数据安全,数据分析,随着数字时代的到来,人工智能(AI)正在成为推动社变配电智能化系统:提高效率与安全性
变配电智能化系统:提高效率与安全性,安全性,提高效率,系统,实时,智能,控制,随着科技的不断发展,变配电智能化系统已经成为现代电力系