近几年,随着大数据的成熟有发展,大数据已经开始向人工智能方向有所发展,所以有些同学会就纠结大数据和编程的发展前景哪个好点?其实这个是一点都不冲突,你要想从事大数据,必须学会一定的编程,这也是未来发展的趋势。
1.大数据从事岗位
(1)基础架构师
公司由于性质的不同,数据也不同,所以数据架构和设计方法,引入的组件也有所不同,需要有人设计,搭建和维护相应的基础架构。
(2)数据可视化
数据可视化不是简单的视觉映射,而是一个以数据流向为主线的一个完整流程,大数据开发主要包括数据采集、数据处理和变换、可视化映射、用户交互和用户感知。一个完整的可视化过程,可以看成数据流经过一系列处理模块并得到转化的过程,用户通过可视化交互从可视化映射后的结果中获取知识和灵感。
(3)ETL
ETL是Extract-Transform-Load的缩写,常见的一些情况是从某一个系统把数据导到另外一个系统,导入的过程时会对数据进行一些加工,做一些数据的增强, 数据清洗,数据规整等工作。绝大部分从事大数据的开发者都在做的一个事,区别是有的人只做这个,有的人部分工作在做这个,也或许从来没有意识到自己的大数据工作都是ETL的工作。
(4)数据分析
不同的数据分析师可以解释相同的数据。结论可能不同甚至相反,但结论不对或错,所以从客观数据到主观人都需要有一些科学的分析方法作为桥梁,帮助数据信息更好,更全面,更快。
2.大数据编程技术
从事基础架构和ETL类,主要是Java+Scala为主,Python为辅。从事数据可视化,可以根据前端的要求来, HTML + JS + CSS。从事分析类,基于现有的大数据架构的分析,还Java+Scala为主,Python为辅。如果是从事AI/ML,那么现阶段Python为主, C++(Tensorflow等底层实现)为辅。我们说大数据开发普遍就在说基于Hadoop生态系的基础架构和ETL类的技术体系。Hadoop,Hadoop有三个组件,MapReduce+HDFS+YARN, 现在手写MapReduce的已经很少,Hadoop能用的常见的是HDFS(分布式文件系统), YARN(资源调度系统)
大数据处理不仅仅是简简单单的数据分类处理等,更重要的是对数据的敏感程度和积累,这些都需要经验来积累,南京北大青鸟培训有着大数据实训,企业级项目,让你更早的接触到公司的需求!