- UDF - 输入单列、输出单行单列
- UDTF - 输入单列、输出多行多列
北方工业大学/CS/硕士在读
在基础篇中学习了以下内容
本文主要学习以下内容
什么是离线计算?
什么是流式计算?
流式计算一般架构图
/
离线计算与实时计算最大的区别?
Storm与Hadoop对比
 - 基础篇/15118782566404.jpg)
Q1: 为什么会有HBase?
假设有100W个access.log,每个log大小为1KB,如果使用API向HDFS集群中写,NameNode的压力会很大。
使用HBase可以解决这个问题(文件合并与拆分)
Q2: HBase存储和HDFS存储的关系?
HDFS: Client -> NameNode -> DataNode
HBase: Client -> HMaster -> HRegionServer -> Zookeeper(元数据) -> HDFS(数据文件)
例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:
在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:

tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent:
meta: false
pages: false
posts:
title: true
date: true
path: true
text: false
raw: false
content: false
slug: false
updated: false
comments: false
link: false
permalink: false
excerpt: false
categories: false
tags: true