Chi tiết khóa học
Hình thức đào tạo
- Tham gia học trực tiếp tại OpenLab
- Hoặc theo yêu cầu doanh nghiệp (In house Training)
- Cấp chứng nhận hoàn thành sau khóa học
Sơ lược chương trình
Thu thập và xử lý dữ liệu (24 giờ)
- Phương pháp thu thập dữ liệu (6 giờ)
- Web scraping với BeautifulSoup và Scrapy
- Sử dụng APIs (RESTful và GraphQL)
- Kết nối và truy xuất dữ liệu từ các loại cơ sở dữ liệu (SQL và NoSQL)
- Thực hành: Thu thập dữ liệu từ một trang web thương mại điện tử
- Xử lý dữ liệu thô và làm sạch dữ liệu (6 giờ)
- Kỹ thuật xử lý dữ liệu với Pandas
- Chuẩn hóa và mã hóa dữ liệu
- Xử lý dữ liệu văn bản, số và categorical
- Thực hành: Làm sạch một bộ dữ liệu thực tế
- Xử lý dữ liệu thiếu và outliers (6 giờ)
- Phương pháp phát hiện dữ liệu thiếu
- Kỹ thuật điền giá trị thiếu: mean, median, mode, KNN imputer
- Phát hiện outliers với phương pháp thống kê và học máy
- Xử lý outliers: loại bỏ, biến đổi, winsorization
- Thực hành: Xử lý dữ liệu thiếu và outliers trong bộ dữ liệu y tế
- Xử lý dữ liệu mất cân bằng và Feature Engineering (6 giờ)
- Kỹ thuật xử lý dữ liệu mất cân bằng: oversampling, undersampling, SMOTE
- Feature scaling: standardization, normalization
- Feature creation: polynomial features, interaction features
- Feature selection: filter methods, wrapper methods, embedded methods
- Thực hành: Xử lý dữ liệu mất cân bằng trong bài toán phát hiện gian lận
Khai phá dữ liệu và phân tích nâng cao (20 giờ)
- Khai phá dữ liệu văn bản (6 giờ)
- Tiền xử lý văn bản: tokenization, stemming, lemmatization
- Biểu diễn văn bản: Bag of Words, TF-IDF, Word Embeddings
- Topic Modeling với LDA
- Sentiment Analysis
- Thực hành: Phân tích sentiment từ đánh giá sản phẩm
- Phân tích mạng xã hội (4 giờ)
- Biểu diễn mạng xã hội bằng đồ thị
- Các metrics trong phân tích mạng: centrality, clustering coefficient
- Phát hiện cộng đồng trong mạng xã hội
- Thực hành: Phân tích mạng xã hội Twitter
- Phân tích chuỗi thời gian nâng cao (6 giờ)
- Decomposition: trend, seasonality, residuals
- ARIMA và SARIMA models
- Prophet for forecasting
- Thực hành: Dự báo doanh số bán hàng
- Phân tích dữ liệu không gian và Association Rule Mining (4 giờ)
- Visualization của dữ liệu không gian với GeoPandas
- Spatial autocorrelation
- Apriori algorithm cho Association Rule Mining
- Thực hành: Phân tích dữ liệu địa lý và tìm quy luật mua sắm
Học sâu và ứng dụng (28 giờ)
- Neural Networks cơ bản (6 giờ)
- Kiến trúc của Neural Network
- Activation functions, loss functions, optimizers
- Backpropagation và gradient descent
- Thực hành: Xây dựng NN đơn giản với TensorFlow/Keras
- Convolutional Neural Networks (8 giờ)
- Kiến trúc CNN: convolutional layers, pooling layers, fully connected layers
- Transfer Learning với pre-trained models (VGG, ResNet)
- Data augmentation cho Computer Vision
- Thực hành: Phân loại hình ảnh với CNN
- Recurrent Neural Networks và LSTM (8 giờ)
- Kiến trúc RNN và LSTM
- Bidirectional RNNs
- Seq2Seq models
- Thực hành: Dự báo chuỗi thời gian với LSTM
- Generative Adversarial Networks (6 giờ)
- Kiến trúc GAN: Generator và Discriminator
- Training GANs
- Ứng dụng của GANs: image generation, style transfer
- Thực hành: Tạo hình ảnh giả với DCGAN
Xử lý ngôn ngữ tự nhiên (NLP) (16 giờ)
- Tiền xử lý văn bản và Word Embeddings (4 giờ)
- Advanced text preprocessing techniques
- Word2Vec, GloVe, FastText
- Contextual embeddings: ELMo, BERT
- Thực hành: Tạo và visualize word embeddings
- Phân loại văn bản và phân tích cảm xúc (4 giờ)
- Phân loại văn bản với deep learning
- Fine-tuning BERT cho phân loại văn bản
- Aspect-based sentiment analysis
- Thực hành: Xây dựng hệ thống phân loại chủ đề và phân tích cảm xúc
- Mô hình ngôn ngữ và sinh văn bản (4 giờ)
- N-gram models
- Neural language models
- Text generation với RNNs và Transformers
- Thực hành: Fine-tuning GPT-2 cho sinh văn bản
- Dịch máy và chatbots (4 giờ)
- Seq2Seq models cho dịch máy
- Attention mechanism
- Xây dựng chatbot với Rasa
- Thực hành: Tạo một chatbot đơn giản
Big Data và Hệ thống phân tán (16 giờ)
- Giới thiệu về Big Data (2 giờ)
- Định nghĩa và đặc điểm của Big Data (Volume, Velocity, Variety)
- Các thách thức trong xử lý Big Data
- Kiến trúc lambda và kappa
- Apache Hadoop và MapReduce (4 giờ)
- Kiến trúc Hadoop: HDFS, YARN
- Lập trình MapReduce
- Hadoop ecosystem: Hive, HBase
- Thực hành: Chạy job MapReduce trên cluster Hadoop
- Apache Spark (6 giờ)
- RDDs và DataFrames
- Spark SQL
- Spark Streaming
- MLlib cho machine learning trên big data
- Thực hành: Phân tích dữ liệu lớn với PySpark
- Hệ thống lưu trữ phân tán và xử lý dữ liệu streaming (4 giờ)
- NoSQL databases: Cassandra, MongoDB
- Apache Kafka cho xử lý dữ liệu streaming
- Thực hành: Xây dựng pipeline xử lý dữ liệu real-time với Kafka và Spark Streaming
Triển khai mô hình và MLOps (12 giờ)
- Đóng gói và triển khai mô hình (4 giờ)
- Serialization của mô hình machine learning
- RESTful API với Flask
- Containerization với Docker
- Thực hành: Đóng gói và triển khai mô hình ML như một API
- CI/CD cho dự án Data Science (4 giờ)
- Version control cho data và models
- Automated testing cho ML pipelines
- Continuous integration và deployment
- Thực hành: Thiết lập CI/CD pipeline với Jenkins hoặc GitLab CI
- Monitoring và quản lý hiệu suất mô hình (4 giờ)
- Logging và monitoring cho ML systems
- Detecting model drift
- A/B testing cho mô hình ML
- Thực hành: Thiết lập hệ thống monitoring cho mô hình ML
- Đạo đức trong khoa học dữ liệu và AI (4 giờ)
- Quyền riêng tư và bảo mật dữ liệu: GDPR, CCPA
- Bias và fairness trong mô hình AI: định nghĩa và đo lường
- Interpretable AI: LIME, SHAP
- Case studies về các vấn đề đạo đức trong AI
/* Nội dung chương trình có thể thay đổi theo yêu cầu đào tạo của Doanh nghiệp */
------------------------------------