Chi tiết khóa học
Hình thức đào tạo
- Tham gia học trực tiếp tại OpenLab
- Hoặc theo yêu cầu doanh nghiệp (In house Training)
- Cấp chứng nhận hoàn thành sau khóa học
Sơ lược chương trình
Giới thiệu về Big Data (4 giờ)
- Định nghĩa và đặc điểm của Big Data (5V: Volume, Velocity, Variety, Veracity, Value)
- Các thách thức và cơ hội trong xử lý Big Data
- Kiến trúc Big Data: Lambda và Kappa
- Các công nghệ và framework Big Data phổ biến
Hadoop Ecosystem (12 giờ)
- Hadoop Distributed File System (HDFS) (3 giờ)
- Kiến trúc và nguyên lý hoạt động của HDFS
- Thực hành: Cài đặt và cấu hình Hadoop cluster
- MapReduce Programming Model (4 giờ)
- Nguyên lý MapReduce
- Viết chương trình MapReduce với Python (MRJob)
- Thực hành: Phân tích log files với MapReduce
- YARN (Yet Another Resource Negotiator) (2 giờ)
- Kiến trúc và vai trò của YARN trong Hadoop ecosystem
- Hive và Impala (3 giờ)
- Sử dụng Hive để truy vấn dữ liệu lớn với HiveQL
- So sánh Hive và Impala
- Thực hành: Phân tích dữ liệu bán hàng với Hive
Apache Spark (16 giờ)
- Giới thiệu Spark và RDD (Resilient Distributed Datasets) (3 giờ)
- Kiến trúc Spark
- Các operations trên RDD: transformations và actions
- Spark SQL và DataFrames (4 giờ)
- Làm việc với structured data trong Spark
- Thực hành: Phân tích dữ liệu với Spark SQL
- Spark Streaming (3 giờ)
- Xử lý dữ liệu streaming với Spark
- Thực hành: Phân tích dữ liệu Twitter real-time
- MLlib (Machine Learning Library) (4 giờ)
- Các thuật toán Machine Learning trong Spark
- Thực hành: Xây dựng hệ thống gợi ý sản phẩm với Spark MLlib
- GraphX (2 giờ)
- Xử lý và phân tích dữ liệu đồ thị với Spark GraphX
NoSQL Databases cho Big Data (8 giờ)
- Apache Cassandra (4 giờ)
- Kiến trúc và mô hình dữ liệu của Cassandra
- CQL (Cassandra Query Language)
- Thực hành: Xây dựng hệ thống lưu trữ time-series data với Cassandra
- Apache HBase (4 giờ)
- Column-oriented data model
- HBase shell và API
- Thực hành: Xây dựng hệ thống lưu trữ và truy xuất dữ liệu lớn với HBase
Stream Processing (8 giờ)
- Apache Kafka (4 giờ)
- Kiến trúc và concepts của Kafka
- Producers, Consumers, và Kafka Streams
- Thực hành: Xây dựng hệ thống xử lý log real-time với Kafka
- Apache Flink (4 giờ)
- Stream processing với Flink
- Windowing và Time handling trong Flink
- Thực hành: Phát hiện anomaly real-time với Flink
Big Data Visualization (4 giờ)
- Các thách thức trong việc visualize Big Data
- Công cụ visualize Big Data: Tableau, Apache Superset
- Thực hành: Tạo dashboard cho dữ liệu lớn với Apache Superset
Quản lý và Bảo mật Big Data (4 giờ)
- Data Governance trong môi trường Big Data
- Bảo mật và quyền riêng tư trong Big Data
- Compliance và regulations (GDPR, CCPA)
Dự án tổng hợp (4 giờ)
- Xây dựng một pipeline Big Data end-to-end
- Từ thu thập dữ liệu đến phân tích và visualize kết quả
/* Nội dung chương trình có thể thay đổi theo yêu cầu đào tạo của Doanh nghiệp */
------------------------------------