本部分基于图书《Flask Web开发》学习总结,后续将继续深入学习扩展知识。
学习计划
- Flask框架学习与实战
- Celery任务调度框架的深入学习与研究
- 基于WebSocket的网络通讯研究
- 高并发PyWeb框架Tornado
北方工业大学/CS/硕士在读
本部分基于图书《Flask Web开发》学习总结,后续将继续深入学习扩展知识。
学习计划
广泛性
使用Java实现字符串类型的题目时,要掌握StringBuffer、StringBuilder、toCharArray方法。
需要掌握的概念
需要掌握的操作
什么是Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
为什么使用Hive
直接使用Hadoop所面临的问题
为什么要使用Hive
Hive的特点
[TOC]
github: https://github.com/seawaylee/maven-ssh-quickstart
|
|
访问 https://${SVN_IP}/svn/${project_name}
查看项目结构
pip install scrapy=1.4.0
vim quotes_spider.py
|
|
scrapy runspider quotes_spider.py -o quotes.json
正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制。
Hadoo的HA机制可以分成各个组件的HA机制
双NameNode工作要点如下:
B. 需要一个状态管理功能模块
在生产环境中,其实很少自己去写MR程序,一般都是直接在Hive上写SQL完成业务逻辑,但动手写MR程序有助于我们理解MR原理,而不是一个只会写SQL的所谓的“数据分析师”。: )
需求: 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果。
|
|
分析:
基本思路:
Job1:Map读取文件后输出
Job2:Map输出
实现自定义的bean来封装流量信息,并将bean作为map输出的key来传输。
MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前,会排序),排序的依据是map输出的key。
所以,我们如果要实现自己需要的排序规则,则可以考虑将排序因素放到key中,让key实现接口:WritableComparable,然后重写key的compareTo方法
阅读全文 >>tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true