PythonWeb - 学习笔记（一）- Flask

2017-08-27

本部分基于图书《Flask Web开发》学习总结，后续将继续深入学习扩展知识。

学习计划

Flask框架学习与实战
Celery任务调度框架的深入学习与研究
基于WebSocket的网络通讯研究
高并发PyWeb框架Tornado

阅读全文 >>

C4-栈和队列

2017-08-08

栈和队列

1 概念

栈和队列的基本性质

栈：先进后出
队列：先进先出
栈和队列在实现结构上可以有数组和链表两种形式
- 数组结构容易实现
- 链表结构复杂，因为有很多指针操作

栈结构的基本操作

pop操作
top或peek操作
push操作
size操作

队列基本操作

与栈不同的是，push操作为在队头加入元素，而pop操作是从队列尾部弹出一个元素。

其他

栈和队列的基本操作，都是时间复杂度为O(1)的。
双端队列的首尾都可以亚茹和弹出元素
优先级队列根绝元素的优先级值，决定元素的弹出顺序
优先级队列的结构为堆结构，并不是线性结构

阅读全文 >>

C3-字符串相关算法

2017-08-07

1 字符串面试题的特点

广泛性
1. 字符串可以看做字符类型的数组，与数组排序、查找、调整有关
2. 很多其他类型的面试题可以看做字符串类型的面试题

使用Java实现字符串类型的题目时，要掌握StringBuffer、StringBuilder、toCharArray方法。

需要掌握的概念
1. 回文
2. 子串（连续）
3. 子序列（不连续）
4. 前缀树（Trie树）
5. 后缀树和后缀数组
6. 匹配
7. 字典序
需要掌握的操作
1. 与数组有关的操作：增删改查
2. 字符的替换
3. 字符串的旋转

阅读全文 >>

C2-排序算法总结

2017-08-02

1 对比分析图

阅读全文 >>

Hive学习笔记（一）- 详解Hive

2017-07-02

1 Hive基础知识

1.1 简介

什么是Hive
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

为什么使用Hive

直接使用Hadoop所面临的问题
- 学习成本高
- 一般项目周期要求短
- MapReduce实现复杂的查询呢逻辑开发难度较大
为什么要使用Hive
- 操作接口采用类SQL语法，可以快速开发
- 避免编写MR，减少学习成本
- 扩展功能很方便

Hive的特点

可扩展： Hive可以自由的扩展集群规模，一般情况下不需要重启服务
延展性： Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数
容错：良好的容错性，节点出现问题SQL仍然可以完成执行

阅读全文 >>

Maven_SSH_Oracle项目搭建全流程

2017-06-27

[TOC]

系统搭建

github: https://github.com/seawaylee/maven-ssh-quickstart

1 SSH框架搭建

1.1 SVN创建项目

cd /svn
sudo svnadmin create nwrd2017    # 创建下面
sudo chown -R www-data:www-data /svn  # 修改权限
cd /svn/auth
sudo vim dav_svn.authz  # 为项目配置用户及权限
sudo htpasswd dav_svn.passwd ${username}  # 为新用户设置密码
sudo service apache2 restart   # 重启项目

访问 https://${SVN_IP}/svn/${project_name} 查看项目结构

阅读全文 >>

Scrapy学习笔记（一）- 快速入门

2017-06-24

1 概览

1.1 安装

pip install scrapy=1.4.0

1.2 测试Demo

vim quotes_spider.py

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.xpath('span/small/text()').extract_first(),
            }
        next_page = response.css('li.next a::attr("href")').extract_first()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

scrapy runspider quotes_spider.py -o quotes.json

阅读全文 >>

Docker学习笔记（一）- 快速入门

2017-06-22

[TOC]

本文是我通过Docker官方文档学习时做的一些笔记。能够快速理清Docker中的各种概念并进行实践。

阅读全文 >>

Hadoop学习笔记（六）- Hadoop的HA原理与配置

2017-06-13

1 Hadoop的HA机制

正式引入HA机制是从hadoop2.0开始，之前的版本中没有HA机制。

Hadoo的HA机制可以分成各个组件的HA机制

HDFS的HA
YARN的HA

1.1 HDFS的HA

通过双NameNode消除单点故障
双NameNode工作要点如下：
- A. 元数据管理方式需要改变
  1. 双NameNode各自在内存中保存一份元数据(fsimage+edits合成结果)
  2. edits日志只能有一份，只有Active状态的NameNode节点可以对其进行写操作
  3. 双NameNode都可以读取edits
  4. 共享的edits仿造一个共享的存储介质中管理（qjournal和NFS两个主流实现）
- B. 需要一个状态管理功能模块
  1. 实现了一个ZKFC（ZooKeeperFailContrl），常驻在每一个NameNode所在的节点
  2. 每一个ZKFC负责监控自己所在的NameNode节点，利用ZK进行状态标识
  3. 当需要进行状态切换时，由ZKFC来负责切换（RPC调用NameNode中的方法）
  4. 切换时需要放置BrainSplit（多个NameNode都是Active状态）现象的发生（新Active节点主动发送杀死被取代Active状态的节点的命令，防止假死）

阅读全文 >>

Hadoop学习笔记（五）- MapReduce实践

2017-06-12

在生产环境中，其实很少自己去写MR程序，一般都是直接在Hive上写SQL完成业务逻辑，但动手写MR程序有助于我们理解MR原理，而不是一个只会写SQL的所谓的“数据分析师”。: )

1 流量分析排序

需求： 对日志数据中的上下行流量信息汇总，并输出按照总流量倒序排序的结果。

1363157985066 	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157995052 	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4			4	0	264	0	200
1363157991076 	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99			2	4	132	1512	200
1363154400022 	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4			4	0	240	0	200
1363157993044 	18211575961	94-71-AC-CD-E6-18:CMCC-EASY	120.196.100.99	iface.qiyi.com	视频网站	15	12	1527	2106	200
1363157995074 	84138413	5C-0E-8B-8C-E8-20:7DaysInn	120.197.40.4	122.72.52.12		20	16	4116	1432	200
1363157993055 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200
1363157995033 	15920133257	5C-0E-8B-C7-BA-20:CMCC	120.197.40.4	sug.so.360.cn	信息安全	20	20	3156	2936	200
1363157983019 	13719199419	68-A1-B7-03-07-B1:CMCC-EASY	120.196.100.82			4	0	240	0	200
1363157984041 	13660577991	5C-0E-8B-92-5C-20:CMCC-EASY	120.197.40.4	s19.cnzz.com	站点统计	24	9	6960	690	200
1363157973098 	15013685858	5C-0E-8B-C7-F7-90:CMCC	120.197.40.4	rank.ie.sogou.com	搜索引擎	28	27	3659	3538	200
1363157986029 	15989002119	E8-99-C4-4E-93-E0:CMCC-EASY	120.196.100.99	www.umeng.com	站点统计	3	3	1938	180	200
1363157992093 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			15	9	918	4938	200
1363157986041 	13480253104	5C-0E-8B-C7-FC-80:CMCC-EASY	120.197.40.4			3	3	180	180	200
1363157984040 	13602846565	5C-0E-8B-8B-B6-00:CMCC	120.197.40.4	2052.flash2-http.qq.com	综合门户	15	12	1938	2910	200
1363157995093 	13922314466	00-FD-07-A2-EC-BA:CMCC	120.196.100.82	img.qfc.cn		12	12	3008	3720	200
1363157982040 	13502468823	5C-0A-5B-6A-0B-D4:CMCC-EASY	120.196.100.99	y0.ifengimg.com	综合门户	57	102	7335	110349	200
1363157986072 	18320173382	84-25-DB-4F-10-1A:CMCC-EASY	120.196.100.99	input.shouji.sogou.com	搜索引擎	21	18	9531	2412	200
1363157990043 	13925057413	00-1F-64-E1-E6-9A:CMCC	120.196.100.55	t3.baidu.com	搜索引擎	69	63	11058	48243	200
1363157988072 	13760778710	00-FD-07-A4-7B-08:CMCC	120.196.100.82			2	2	120	120	200
1363157985066 	13726238888	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157993055 	13560436666	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200

分析：
基本思路：
Job1：Map读取文件后输出 Reduce计算flowSum 输出到文件
Job2：Map输出,Map->Reduce之间的shuffle会帮助我们对flowbean进行排序，Reduce不用作任何操作。

实现自定义的bean来封装流量信息，并将bean作为map输出的key来传输。

MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前，会排序)，排序的依据是map输出的key。

所以，我们如果要实现自己需要的排序规则，则可以考虑将排序因素放到key中，让key实现接口：WritableComparable，然后重写key的compareTo方法

阅读全文 >>