Giáo trình Thị giác máy tính

Hệ thống thị giác máy tính đang ngày càng giữ vai trò quan trọng trong nhiều lĩnh vực của đời sống hiện đại, từ điện thoại thông minh, ô tô tự hành, chẩn đoán hình ảnh y tế cho đến các hệ thống giám sát thông minh và robot dịch vụ. Có thể nói, những tiến bộ nhanh chóng trong học sâu và sức mạnh tính toán đã đưa thị giác máy tính trở thành một trong những trụ cột quan trọng của trí tuệ nhân tạo. Ngay từ khi chương trình đào tạo về Trí tuệ nhân tạo được xây dựng tại Học viện Công nghệ Bưu chính Viễn thông, môn học “Thị giác máy tính” đã được đưa vào giảng dạy. Tuy nhiên, tài liệu học tập cho sinh viên mới chỉ dừng lại ở bài giảng và các ghi chú rời rạc. Sau nhiều năm tích lũy kinh nghiệm giảng dạy cũng như triển khai các dự án thực tế, nhóm biên soạn lần đầu tiên giới thiệu Giáo trình Thị giác máy tính, nhằm mang đến một tài liệu hệ thống, dễ tiếp cận và bám sát các xu hướng công nghệ hiện đại.

Giáo trình được biên soạn với mục tiêu trang bị cho người học nền tảng kiến thức vững chắc và kỹ năng thực hành chuyên sâu. Sau khi hoàn thành giáo trình này, sinh viên sẽ có khả năng:

• Hiểu rõ cơ chế thu nhận, biểu diễn ảnh số và nắm vững các kỹ thuật xử lý ảnh kinh điển làm cơ sở cho các bài toán thị giác máy tính.

• Làm chủ các kiến trúc học sâu (Deep Learning) hiện đại nhất như CNNs, Transformers, các họ mô hình YOLO, R-CNN trong bài toán phát hiện và nhận dạng đối tượng.

• Có khả năng cài đặt, lập trình các thuật toán thị giác máy tính bằng ngôn ngữ Python cùng các thư viện phổ biến (OpenCV, PyTorch) để giải quyết các bài toán thực tế.

• Biết cách phân tích yêu cầu, lựa chọn mô hình phù hợp và đánh giá hiệu quả của hệ thống trong các ứng dụng cụ thể như y tế, giao thông thông minh hay robotics.

Để đạt được các mục tiêu trên, giáo trình được cấu trúc thành 6 chương chính, cung cấp kiến thức theo lộ trình từ nền tảng đến chuyên sâu trong thị giác máy tính. Cấu trúc cụ thể như sau:

Chương 1 giới thiệu những kiến thức nền tảng của thị giác máy tính, bao gồm các khái niệm cơ bản, các bài toán thường gặp, cách thức thu nhận ảnh, cùng một số mốc phát triển quan trọng trong lịch sử của lĩnh vực này.

Chương 2 trình bày các kỹ thuật xử lý ảnh – nền tảng của hầu hết các bài toán thị giác máy tính. Nội dung bao gồm biểu diễn ảnh, các bộ lọc xử lý tín hiệu, kỹ thuật khử nhiễu – tăng cường ảnh, khôi phục và siêu phân giải, cân bằng histogram, các phép toán hình thái học cũng như các biến đổi phổ biến như Fourier, Wavelet, Hough và PCA. Cuối chương có phần bài tập giúp sinh viên củng cố kiến thức.

Chương 3 tập trung vào bài toán phát hiện đối tượng – một bài toán cốt lõi trong thị giác máy tính. Chương này bắt đầu từ các phương pháp truyền thống như cửa sổ trượt, so khớp mẫu, đặc trưng Haar-like và HOG; sau đó chuyển sang các phương pháp hiện đại dựa trên học sâu, bao gồm CNNs, Faster R-CNN, RetinaNet, YOLO, SSD và các mô hình thị giác nền tảng như Vision Transformers, DINO hay SAM. Các phương pháp đánh giá mô hình cũng được trình bày chi tiết.

Chương 4 trình bày bài toán nhận dạng đối tượng và phân đoạn ảnh. Nội dung bao gồm phân đoạn truyền thống và phân đoạn sâu, các đặc trưng thủ công như SIFT, SURF, đặc trưng cục bộ; các bộ phân loại phổ biến (Naive Bayes, KNN, SVM, Decision Tree, Random Forest). Phần tiếp theo giới thiệu các mô hình học sâu cho nhận dạng như ResNet, DenseNet, EfficientNet và các mô hình Transformer như ViTs và Swin Transformer. Chương kết thúc với các phương pháp đánh giá mô hình và bài tập thực hành.

Chương 5 trình bày các kỹ thuật bám đối tượng trong video – một nhánh quan trọng của thị giác máy tính ứng dụng. Nội dung bao gồm Mean-Shift, CamShift, các phương pháp dựa trên Optical Flow (Lucas-Kanade, Farneback, DeepFlow), các mô hình học sâu hồi quy như Siamese Networks, DeepSORT, các kỹ thuật bám đối tượng sử dụng biến thể YOLO và Transformer - based. Phần bám nhiều đối tượng và hệ thống bài tập được trình bày cuối chương.

Chương 6 giới thiệu một số ứng dụng tiêu biểu của thị giác máy tính trong thực tế, từ nhận dạng và xác thực khuôn mặt, nhận dạng y tế, phát hiện – theo dõi phương tiện giao thông, đến ứng dụng trong Robotics, AR/VR và các mô hình AI tổng quát như CLIP, DINO, Segment Anything Model.

Sản phẩm liên quan