- UDF - 输入单列、输出单行单列
- UDTF - 输入单列、输出多行多列
北方工业大学/CS/硕士在读
在基础篇中学习了以下内容
本文主要学习以下内容
什么是离线计算?
什么是流式计算?
流式计算一般架构图
/
离线计算与实时计算最大的区别?
Storm与Hadoop对比
Q1: 为什么会有HBase?
假设有100W个access.log,每个log大小为1KB,如果使用API向HDFS集群中写,NameNode的压力会很大。
使用HBase可以解决这个问题(文件合并与拆分)
Q2: HBase存储和HDFS存储的关系?
HDFS: Client -> NameNode -> DataNode
HBase: Client -> HMaster -> HRegionServer -> Zookeeper(元数据) -> HDFS(数据文件)
例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:
阅读全文 >>在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true