Khoa học Dữ liệu - Data Science Nền Tảng: Làm chủ dữ liệu từ con số đến chiến lược
Mục tiêu - Sứ mệnh

✅ Biết cách thu thập, xử lý, làm sạch và trực quan hóa dữ liệu.

✅ Ứng dụng tư duy phân tích dữ liệu để đưa ra kết luận thực tiễn.

✅ Xây dựng nền tảng để tiếp tục học Machine Learning, AI, hoặc Data Engineering.

  • Khoa học Dữ liệu - Data Science Nền Tảng: Làm chủ dữ liệu từ con số đến chiến lược

    Lớp cấp tốc: 40 giờ

    Kết quả đầu ra:

    ✅ Nắm vững các khái niệm cốt lõi: dữ liệu có cấu trúc, phi cấu trúc, dữ liệu lớn (big data), pipeline phân tích.
    ✅ Thành thạo sử dụng Python và thư viện phổ biến: Pandas, NumPy, Matplotlib, Seaborn.
    ✅ Tự thực hiện phân tích dữ liệu mô tả từ đầu đến cuối.
    ✅ Biết cách trực quan hóa dữ liệu và kể chuyện bằng biểu đồ (Data Storytelling).
    ✅ Có thể tham gia vào các dự án phân tích cơ bản hoặc ứng tuyển vị trí Data Analyst Fresher.

Chi tiết khóa học

Phần 1: Thu thập và xử lý dữ liệu

  • Phương pháp thu thập dữ liệu 
    • Web scraping với BeautifulSoup và Scrapy
    • Sử dụng APIs (RESTful và GraphQL)
    • Kết nối và truy xuất dữ liệu từ các loại cơ sở dữ liệu (SQL và NoSQL)
    • Thực hành: Thu thập dữ liệu từ một trang web thương mại điện tử
  • Xử lý dữ liệu thô và làm sạch dữ liệu 
    • Kỹ thuật xử lý dữ liệu với Pandas
    • Chuẩn hóa và mã hóa dữ liệu
    • Xử lý dữ liệu văn bản, số và categorical
    • Thực hành: Làm sạch một bộ dữ liệu thực tế
  • Xử lý dữ liệu thiếu và outliers 
    • Phương pháp phát hiện dữ liệu thiếu
    • Kỹ thuật điền giá trị thiếu: mean, median, mode, KNN imputer
    • Phát hiện outliers với phương pháp thống kê và học máy
    • Xử lý outliers: loại bỏ, biến đổi, winsorization
    • Thực hành: Xử lý dữ liệu thiếu và outliers trong bộ dữ liệu y tế
  • Xử lý dữ liệu mất cân bằng và Feature Engineering 
    • Kỹ thuật xử lý dữ liệu mất cân bằng: oversampling, undersampling, SMOTE
    • Feature scaling: standardization, normalization
    • Feature creation: polynomial features, interaction features
    • Feature selection: filter methods, wrapper methods, embedded methods
    • Thực hành: Xử lý dữ liệu mất cân bằng trong bài toán phát hiện gian lận

Phần 2: Khai phá dữ liệu và phân tích nâng cao 

  • Khai phá dữ liệu văn bản 
    • Tiền xử lý văn bản: tokenization, stemming, lemmatization
    • Biểu diễn văn bản: Bag of Words, TF-IDF, Word Embeddings
    • Topic Modeling với LDA
    • Sentiment Analysis
    • Thực hành: Phân tích sentiment từ đánh giá sản phẩm
  • Phân tích mạng xã hội 
    • Biểu diễn mạng xã hội bằng đồ thị
    • Các metrics trong phân tích mạng: centrality, clustering coefficient
    • Phát hiện cộng đồng trong mạng xã hội
    • Thực hành: Phân tích mạng xã hội Twitter
  • Phân tích chuỗi thời gian nâng cao 
    • Decomposition: trend, seasonality, residuals
    • ARIMA và SARIMA models
    • Prophet for forecasting
    • Thực hành: Dự báo doanh số bán hàng
  • Phân tích dữ liệu không gian và Association Rule Mining 
    • Visualization của dữ liệu không gian với GeoPandas
    • Spatial autocorrelation
    • Apriori algorithm cho Association Rule Mining
    • Thực hành: Phân tích dữ liệu địa lý và tìm quy luật mua sắm

Phần 3: Học sâu và ứng dụng 

  • Neural Networks cơ bản 
    • Kiến trúc của Neural Network
    • Activation functions, loss functions, optimizers
    • Backpropagation và gradient descent
    • Thực hành: Xây dựng NN đơn giản với TensorFlow/Keras
  • Convolutional Neural Networks 
    • Kiến trúc CNN: convolutional layers, pooling layers, fully connected layers
    • Transfer Learning với pre-trained models (VGG, ResNet)
    • Data augmentation cho Computer Vision
    • Thực hành: Phân loại hình ảnh với CNN
  • Recurrent Neural Networks và LSTM
    • Kiến trúc RNN và LSTM
    • Bidirectional RNNs
    • Seq2Seq models
    • Thực hành: Dự báo chuỗi thời gian với LSTM
  • Generative Adversarial Networks 
    • Kiến trúc GAN: Generator và Discriminator
    • Training GANs
    • Ứng dụng của GANs: image generation, style transfer
    • Thực hành: Tạo hình ảnh giả với DCGAN

Phần 4: Xử lý ngôn ngữ tự nhiên (NLP) 

  • Tiền xử lý văn bản và Word Embeddings (4 giờ)
    • Advanced text preprocessing techniques
    • Word2Vec, GloVe, FastText
    • Contextual embeddings: ELMo, BERT
    • Thực hành: Tạo và visualize word embeddings
  • Phân loại văn bản và phân tích cảm xúc (4 giờ)
    • Phân loại văn bản với deep learning
    • Fine-tuning BERT cho phân loại văn bản
    • Aspect-based sentiment analysis
    • Thực hành: Xây dựng hệ thống phân loại chủ đề và phân tích cảm xúc
  • Mô hình ngôn ngữ và sinh văn bản (4 giờ)
    • N-gram models
    • Neural language models
    • Text generation với RNNs và Transformers
    • Thực hành: Fine-tuning GPT-2 cho sinh văn bản
  • Dịch máy và chatbots (4 giờ)
    • Seq2Seq models cho dịch máy
    • Attention mechanism
    • Xây dựng chatbot với Rasa
    • Thực hành: Tạo một chatbot đơn giản

Phần 5: Big Data và Hệ thống phân tán 

  • Giới thiệu về Big Data 
    • Định nghĩa và đặc điểm của Big Data (Volume, Velocity, Variety)
    • Các thách thức trong xử lý Big Data
    • Kiến trúc lambda và kappa
  • Apache Hadoop và MapReduce 
    • Kiến trúc Hadoop: HDFS, YARN
    • Lập trình MapReduce
    • Hadoop ecosystem: Hive, HBase
    • Thực hành: Chạy job MapReduce trên cluster Hadoop
  • Apache Spark 
    • RDDs và DataFrames
    • Spark SQL
    • Spark Streaming
    • MLlib cho machine learning trên big data
    • Thực hành: Phân tích dữ liệu lớn với PySpark
  • Hệ thống lưu trữ phân tán và xử lý dữ liệu streaming
    • NoSQL databases: Cassandra, MongoDB
    • Apache Kafka cho xử lý dữ liệu streaming
    • Thực hành: Xây dựng pipeline xử lý dữ liệu real-time với Kafka và Spark Streaming

Phần 6: Triển khai mô hình và MLOps

  • Đóng gói và triển khai mô hình
    • Serialization của mô hình machine learning
    • RESTful API với Flask
    • Containerization với Docker
    • Thực hành: Đóng gói và triển khai mô hình ML như một API
  • CI/CD cho dự án Data Science
    • Version control cho data và models
    • Automated testing cho ML pipelines
    • Continuous integration và deployment
    • Thực hành: Thiết lập CI/CD pipeline với Jenkins hoặc GitLab CI
  • Monitoring và quản lý hiệu suất mô hình 
    • Logging và monitoring cho ML systems
    • Detecting model drift
    • A/B testing cho mô hình ML
    • Thực hành: Thiết lập hệ thống monitoring cho mô hình ML
  • Đạo đức trong khoa học dữ liệu và AI (4 giờ)
    • Quyền riêng tư và bảo mật dữ liệu: GDPR, CCPA
    • Bias và fairness trong mô hình AI: định nghĩa và đo lường
    • Interpretable AI: LIME, SHAP
    • Case studies về các vấn đề đạo đức trong AI

 

Đăng ký khóa học