logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据开发之Spark和Flink的对比(转载)

大数据计算引擎的起源Hadoop和其他基于mapreduce的数据处理系统的出现首先是为了满足传统数据库无法满足的数据处理需求。随着2004年谷歌发布MapReduce白皮书以来的发展浪潮,利用Hadoop的开源生态系统或类似系统处理大数据已经成为行业的基本需求。尽管最近努力降低进入门槛,但在开发自己的数据处理系统时,大数据培训组织不可避免地会遇到一系列问题,常常会发现从数据中获得价值所需的投资大

文章图片
#big data#spark#flink
大数据开发之运维面试题汇总分享

Q1:集群线上扩容如何达到自动化?线上扩容,规模正常都是以 10+以上,如果都以课堂所示,人肉操作,时间投入与产出比不匹配,人力造成很大的不必要浪费,想学习老师线上集群实际扩容的方案。A:课堂所示兼顾了小白同学,所以是手把手纯人肉搭建,产线环境扩容数量少则几十多则上百,人肉肯定不行,我们公司的运维分为 IAAS 运维、大数据运维、应用运维,大数据运维工程师在扩容集群时,需要向 IAAS 运维工程师

文章图片
#运维#big data#大数据
大数据开发之SparkSQL面试篇

1.谈谈你对Spark SQL的理解Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生大数据培训。Spark SQL在汲取了shark诸多优势如内存列存储、兼容hive等基础上,做了重新的构造,因此也摆脱了对hive的依赖,但

文章图片
#big data#面试
大数据开发HDFS的Shell操作(开发重点)

1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2.命令大全[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> … <dst>][-cat [-ignoreCrc] <src> …][-checksum &

文章图片
前端开发之JS中localStorage的使用

前言在前端开发过程中,对于数据的缓存处理这块也是非常重要的操作,缓存数据可以解决很多业务需求,前端培训而且在实际开发过程中无处不在的数据缓存操作,常用的需要缓存的操作无所不在,而且本地存储数据也是一种非常常用的需求,实现的方法也很多,作为前端开发都很熟悉的cookie,但是cookie的缺点:读写困难、容量有限的问题也是很明显的,localStorage的功能主要就是用来替代cookie的,那么本

文章图片
#javascript#前端#开发语言
大数据开发之sparkSQL的使用分享

SparkSQL,使用SQL来完成大数据操作Spark之前使用RDD操作大数据,非常方便,但是也有各种问题,例如RDD每次读取的都是字符串,以及语法比较比较麻烦。大数据培训针对这种情况,spark在新版本中升级RDD为DataFrame和DataSet,并使用SQL的方式去操作数据DataFrame,RDD的升级版,分布式的数据集,并且以列的方式组合的,类似于二维表格式,除数据外保存数据结构信息D

大数据开发之Flink + TiDB

一、实时数仓经典架构实时数仓有三个著名的分水岭:第一个分水岭是从无到有,Storm 的出现打破了 MapReduce 的单一计算方式,让业务能够处理 T+0 的数据。第二个分水岭是从有到全,Lambda 与 Kappa 架构的出现,使离线数仓向实时数仓迈进了一步,而 Lambda 架构到 Kappa 架构的演进,实现了离线数仓模型和实时数仓模型的紧密结合。第三个分水岭是从繁到简,Flink 技术栈

大数据开发之Spark和Flink的对比(转载)

大数据计算引擎的起源Hadoop和其他基于mapreduce的数据处理系统的出现首先是为了满足传统数据库无法满足的数据处理需求。随着2004年谷歌发布MapReduce白皮书以来的发展浪潮,利用Hadoop的开源生态系统或类似系统处理大数据已经成为行业的基本需求。尽管最近努力降低进入门槛,但在开发自己的数据处理系统时,大数据培训组织不可避免地会遇到一系列问题,常常会发现从数据中获得价值所需的投资大

大数据开发之Hive应用分析

Hive架构1.用户接口:ClientCLI(hive shell) JDBC(java访问hive) WEBUI(浏览器访问hive)2.元数据(Metastore)-数据库元数据包括:表名称、表所属的数据库、表的拥有者、列/分区字段名、表的类型(外部/内部)、表的数据所在的目录默认存储在自带的derby的数据库中,推​​大数据培训​​荐使用Mysql来存储元数据3.hadoophive使用HD

【转】大数据开发之Spark面试八股文

1. Spark 的运行流程?具体运行流程如下:SparkContext 向资源管理器注册并向资源管理器申请运行 Executor资源管理器分配 Executor,然后资源管理器启动 ExecutorExecutor 发送心跳至资源管理器SparkContext 构建 DAG 有向无环图将 DAG 分解成 Stage(TaskSet)把 Stage 发送给 TaskSchedulerExecuto

文章图片
#spark#面试#big data
    共 29 条
  • 1
  • 2
  • 3
  • 请选择