BigData - Hadoop - Peakin

Introduction of Big Data
- Big Data Characteristics
- Sources of big data
- Typical Data flow

Components in HADOOP
- HDFS
- Map Reduce
- Hive
- PIG
- SQOOP
- YARN
- OOZIE

HADOOP Framework
- Hadoop System
- Master-Slave architecture
- Distributed
- Fault Tolerance
- Scalable
- Parallel processing

HADOOP ARCHITECTURE
- Name Node
- Data Node
- Job Tracker
- Task Tracker
- Secondary Name Node

HDFS architecture
- Block
- Split
- Block Representation
- High Availability
- Rack Awareness

UNIX & HDFS Commands

Map Reduce
- Map Reduce Flow
- Map Reduce Execution
- Speculative Execution
- Input Formats
- Distributed Cache
- Combiner
- Partitioner
- Compression Techniques
- Counters
- Optimization Techniques in Map Reduce

PIG
- Input and Output for PIG
- Execution Modes
- Explanation of 20+ PIG relations
- UDF in PIG
- Optimization Techniques in PIG
- Replication Joins
- Skewed Joins
- Merge Joins
- Optimization Techniques in PIG

HIVE
- Meta Store
- Managed tables
- External Tables
- Loading Data
- Data Types
- Hive Query Language
- File Formats
- Partitioning
- Bucketing
- Vectorization
- Script Mode
- Advanced Hive Commands
- UDF in HIVE
- Optimization Techniques in HIVE

SQOOP

Meta Store
Import
Incremental Importing
Query base importing
Conditional Base Importing
Export
SQOOP Jobs
Optimization Techniques in SQOOP
Code Generator
Evaluation Function

OOZIE

OOZIE Flow
Components in OOZIE
Scheduling jobs

YARN
- Yarn Architecture
- Yarn Flow