Hadoop学习笔记（四）- MapReduce运行剖析

2017-06-12

1 MapReduce中的Shuffle机制

1.1 Shuffle概述

MR中，Map阶段处理的数据如何传递给Reduce阶段是MR框架中最关键的一个流程–Shuffle。
Shuffle的核心机制：数据分区、排序、缓存
具体来说就是将MapTask输出的处理结果分发给ReduceTask，并在分发的过程中对数据按key进行了分区和排序。

Shuffle缓存流程

阅读全文 >>

InfluxDB学习笔记（一）- InfluxDB简介

2017-06-12

1 简介

InfluxDB 是一个开源分布式时序、事件和指标数据库。使用 Go 语言编写，无需外部依赖。其设计目标是实现分布式和水平伸缩扩展。
它有三大特性：

Time Series （时间序列）：你可以使用与时间有关的相关函数（如最大，最小，求和等）
Metrics（度量）：你可以实时对大量数据进行计算
Eevents（事件）：它支持任意的事件数据

特点

schemaless(无结构)，可以是任意数量的列
Scalable
min, max, sum, count, mean, median 一系列函数，方便统计
Native HTTP API, 内置http支持，使用http读写
Powerful Query Language 类似sql
Built-in Explorer 自带管理工具

阅读全文 >>

Hadoop学习笔记（三）- MapReduce详解

2017-05-12

1 MapReduce背景及原理

1.1 背景

Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；
Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上；

Why MapReduce?

（1）海量数据在单机上处理因为硬件资源限制，无法胜任
（2）而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度
（3）引入mapreduce框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理

阅读全文 >>

Hadoop学习笔记（二） - HDFS详解

2017-05-02

HDFS详解

1 HDFS 基本概念

1.1 前言

设计思想

分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；

在大数据系统中作用

为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务

重点概念

文件切块，副本存放，元数据

1.2 HDFS概念和特性

首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件；
其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；

重要特性如下：

HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M
HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data
目录结构及文件分块信息(元数据)的管理由namenode节点承担。namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的block块信息（block的id，及所在的datanode服务器）
文件的各个block的存储管理由datanode节点承担。datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设置dfs.replication）
HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改(注：适合用来做数据分析，并不适合用来做网盘应用，因为，不便修改，延迟大，网络开销大，成本太高)

阅读全文 >>

Hadoop学习笔记（一）- Hadoop快速入门

2017-04-24

1 Hadoop生态圈简介

重点组件：

HDFS：分布式文件系统
MAPREDUCE：分布式运算程序开发框架
HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具
HBASE：基于HADOOP的分布式海量数据库
ZOOKEEPER：分布式协调服务基础组件
Mahout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
Oozie：工作流调度框架
Sqoop：数据导入导出工具
Flume：日志数据采集框架

阅读全文 >>

JVM学习笔记（一）- 基础知识

2017-04-19

1 Java内存模型

1.1 内存模型图解

Java虚拟机在执行Java程序的过程中，会把它所管理的内存划分为若干个不同的数据区。
这些区域有各自的用途，以及创建和销毁的时间，有的区域随着虚拟机进程的启动而存在，有的区域则依赖用户线程的启动和结束而建立和销毁，
我们可以将这些区域统称为Java运行时数据区域。

如下图是一个内存模型的关系图（详情见图：内存划分.png）：

如上图所示，Java虚拟机运行时数据区域被分为五个区域：堆(Heap)、栈(Stack)、本地方法栈(Native Stack)、方法区(Method Area)、程序计数器(Program Count Register)。

阅读全文 >>

Netty学习笔记（一）

2017-04-18

1 Netty简介

Netty是基于Java NIO的网络应用框架.

Netty是一个NIO client-server(客户端服务器)框架，使用Netty可以快速开发网络应用，例如服务器和客户端协议。Netty提供了一种新的方式来使开发网络应用程序，这种新的方式使得它很容易使用和有很强的扩展性。Netty的内部实现时很复杂的，但是Netty提供了简单易用的api从网络处理代码中解耦业务逻辑。Netty是完全基于NIO实现的，所以整个Netty都是异步的。

网络应用程序通常需要有较高的可扩展性，无论是Netty还是其他的基于Java NIO的框架，都会提供可扩展性的解决方案。Netty中一个关键组成部分是它的异步特性.

阅读全文 >>

SpringMVC - 拦截器与过滤器区别

2017-04-11

1 过滤器和拦截器的区别：

①拦截器是基于Java的反射机制的，而过滤器是基于函数回调。
②拦截器不依赖与servlet容器，过滤器依赖与servlet容器。
③拦截器只能对action请求起作用，而过滤器则可以对几乎所有的请求起作用。
④拦截器可以访问action上下文、值栈里的对象，而过滤器不能访问。
⑤在action的生命周期中，拦截器可以多次被调用，而过滤器只能在容器初始化时被调用一次。
⑥拦截器可以获取IOC容器中的各个bean，而过滤器就不行，这点很重要，在拦截器里注入一个service，可以调用业务逻辑。

阅读全文 >>

Java实现Socket通讯

2017-04-10

Socket 服务端

/**
 * Socket服务端
 * @author NikoBelic
 * @create 2017/4/10 20:51
 */
public class SocketServer
{
    public static void main(String[] args) throws IOException
    {
        // 创建Socket服务端，绑定到本地8899端口
        ServerSocket serverSocket = new ServerSocket();
        serverSocket.bind(new InetSocketAddress("localhost", 8899));
        // 使用线程池异步处理业务逻辑（否则将不支持多客户端）
        ExecutorService threadPool = new ThreadPoolExecutor(0, 3,
                60L, TimeUnit.SECONDS,
                new LinkedBlockingDeque<>(2));
        Socket socket;
        while (true)
        {
            // 接收客户端请求（阻塞方法）
            socket = serverSocket.accept();
            // 创建线程 处理业务逻辑
            threadPool.execute(new SocketTask(socket));
        }
    }
}

阅读全文 >>

动态代理和反射

2017-04-10

1 反射

通过反射的方式可以获取class对象中的属性、方法、构造函数等

阅读全文 >>