Trí tuệ nhân tạo & Học máy • Thời gian đọc: ~8 phút • Nghiên cứu & Công nghệ

Trí Tuệ Nhân Tạo Tự Học: Bước Tiến Mới Trong Lập Kế Hoạch Tự Động

Một kiến trúc mạng nơ-ron mới có khả năng tự suy luận cấu trúc hành động từ dữ liệu quan sát không cần gán nhãn thủ công đang mở ra hướng đi đầy triển vọng cho thế hệ AI lai thần kinh tiếp theo.

Trong nhiều thập kỷ, các hệ thống lập kế hoạch AI phụ thuộc hoàn toàn vào mô hình do con người xây dựng thủ công. Giờ đây, một hướng tiếp cận mới đang cho phép máy tính tự học những quy tắc đó trực tiếp từ dữ liệu quan sát.

1970s Năm ra đời của ngôn ngữ STRIPS — nền tảng lập kế hoạch AI đầu tiên

2-in-1 Kiến trúc mới giải quyết đồng thời 2 bài toán: xác định đối số & học cấu trúc

100% Khả vi (differentiable) — tích hợp liền mạch vào hệ thống neuro-symbolic

Đa miền Được kiểm chứng trên nhiều lĩnh vực lập kế hoạch, kể cả dữ liệu nhiễu

Đặt vấn đề: Ranh giới giữa học và lập kế hoạch

Trong suốt nhiều thập kỷ phát triển, trí tuệ nhân tạo đã hình thành hai trường phái lớn với triết lý gần như đối lập nhau.

Một bên là AI ký hiệu (symbolic AI) hướng tiếp cận cổ điển, nơi tri thức được biểu diễn tường minh dưới dạng các quy tắc logic, cây quyết định và mô hình hành động. Hệ thống lập kế hoạch tự động (automated planning) thuộc về trường phái này: các bài toán được mã hóa bằng ngôn ngữ hình thức, máy tính suy luận và tìm ra chuỗi hành động tối ưu để đạt mục tiêu.

Bên kia là AI kết nối (connectionist AI) hay học sâu (deep learning) nơi máy tính học trực tiếp từ dữ liệu mà không cần con người lập trình tri thức một cách tường minh. Phương pháp này đã tạo ra những bước đột phá ngoạn mục trong nhận diện hình ảnh, xử lý ngôn ngữ tự nhiên và nhiều lĩnh vực khác.

Câu hỏi đặt ra từ lâu trong cộng đồng nghiên cứu là: Liệu có thể kết hợp sức mạnh của cả hai? Cụ thể hơn: liệu một hệ thống học máy có thể tự động xây dựng các mô hình lập kế hoạch có cấu trúc, thay vì đòi hỏi chuyên gia phải làm điều đó bằng tay?

Đó chính là bài toán trọng tâm mà một nhóm nghiên cứu gần đây đã tìm cách giải quyết, với kết quả đáng chú ý.

Bối cảnh: STRIPS, PDDL và hạn chế của mô hình thủ công

Từ những năm 1970, ngôn ngữ STRIPS (Stanford Research Institute Problem Solver) đã trở thành nền tảng đầu tiên để mô tả các bài toán lập kế hoạch. Mỗi hành động trong STRIPS được định nghĩa bởi ba thành phần: điều kiện tiên quyết (preconditions), danh sách những gì bị xóa bỏ (delete list) và danh sách những gì được thêm vào (add list) sau khi thực thi. Đây là cách biểu diễn tối giản nhưng hiệu quả.

Thành phần 01

Điều kiện tiên quyết

Những gì phải đúng trước khi hành động được thực thi.

Preconditions

Thành phần 02

Danh sách xóa bỏ

Những sự kiện bị loại bỏ khỏi trạng thái sau khi hành động xảy ra.

Delete List

Thành phần 03

Danh sách thêm vào

Những sự kiện mới được thêm vào trạng thái sau khi thực thi hành động.

Add List

Kế thừa và mở rộng từ STRIPS, PDDL (Planning Domain Definition Language) ra đời vào cuối những năm 1990 và nhanh chóng trở thành ngôn ngữ chuẩn trong cộng đồng nghiên cứu lập kế hoạch. PDDL cho phép mô tả các bài toán phức tạp hơn, với nhiều kiểu dữ liệu, ràng buộc và mở rộng đa dạng.

Tuy nhiên, cả STRIPS lẫn PDDL đều có một hạn chế căn bản: mô hình phải được xây dựng thủ công bởi chuyên gia. Với mỗi lĩnh vực ứng dụng mới, từ robot kho hàng đến lên lịch y tế hay điều phối giao thông, kỹ sư phải ngồi thiết kế lại toàn bộ cấu trúc hành động từ đầu. Quá trình này không chỉ tốn thời gian mà còn dễ xảy ra sai sót và khó mở rộng quy mô.

Đây là lý do tại sao học mô hình lập kế hoạch từ dữ liệu (planning model learning) đã và đang là một trong những hướng nghiên cứu thu hút nhiều sự quan tâm nhất trong AI hiện đại.

Bài toán: Học từ "dấu vết" thiếu thông tin

Nhóm nghiên cứu tập trung vào một kịch bản cụ thể và thực tế: học sơ đồ hành động (action schemas) từ các chuỗi quan sát, gọi là "dấu vết" (traces). Một dấu vết đơn giản là một chuỗi các trạng thái mà hệ thống đi qua khi thực hiện một loạt hành động, ví dụ: một robot di chuyển các hộp trong kho, hoặc một thuật toán sắp xếp lịch trình chuyến bay. Từ những chuỗi trạng thái này, mục tiêu là tái tạo lại cấu trúc của các hành động đã tạo ra chúng.

Thách thức nằm ở chỗ: dù các trạng thái được quan sát đầy đủ, nhưng các đối số cụ thể của hành động, tức là những đối tượng nào thực sự tham gia vào mỗi hành động lại không được gán nhãn.

Hãy hình dung rõ hơn từ ví dụ cụ thể này: Bạn quan sát thấy trên bàn cờ, quân mã đã di chuyển từ ô A sang ô B. Bạn biết trạng thái trước và sau. Nhưng nếu bài toán trừu tượng hóa hơn, bạn chỉ thấy "có gì đó thay đổi" mà không biết chính xác đó là quân nào, từ đâu đến đâu, thì việc học ra quy tắc di chuyển trở nên khó khăn hơn rất nhiều. Đây chính xác là tình huống mà nhóm nghiên cứu đối mặt.

Trong thực tế, đây là kịch bản phổ biến: dữ liệu thu thập từ cảm biến, nhật ký hệ thống hay ghi chép quy trình thường chứa thông tin về kết quả nhưng thiếu chú thích chi tiết về nguyên nhân.

Giải pháp: Kiến trúc học đồng thời đối số và cấu trúc

Để vượt qua thách thức này, nhóm tác giả đề xuất một kiến trúc mạng nơ-ron mới thực hiện đồng thời hai nhiệm vụ vốn thường được tách rời:

Xác định đối số hành động

Mạng học cách suy luận xem những yếu tố nào trong trạng thái thực sự liên quan đến hành động đang xảy ra, nói cách khác, tìm ra "ai làm gì với cái gì".

Học cấu trúc hành động

Dựa trên những thay đổi trạng thái quan sát được và các đối số vừa xác định, mạng xây dựng mô hình mô tả điều kiện tiên quyết và hiệu ứng của hành động đó.

↺

Vòng phản hồi tích cực

Hai quá trình không diễn ra tuần tự mà hỗ trợ lẫn nhau trong cùng một vòng huấn luyện, đây là điểm then chốt của kiến trúc.

Điểm đột phá: Tính khả vi và tích hợp Neuro-Symbolic

Đóng góp kỹ thuật đáng chú ý trong việc nghiên cứu đã thiết kế toàn bộ kiến trúc theo hướng khả vi (differentiable), tức là mọi phép tính trong quá trình suy luận đều có thể tính được đạo hàm và truyền ngược gradient. Đây là điều không tự nhiên với các hệ thống lập kế hoạch ký hiệu truyền thống, vốn dựa trên logic rời rạc và các phép toán không liên tục. Để đạt được điều này, nhóm nghiên cứu phải thiết kế các cơ chế xấp xỉ liên tục cho những phép toán logic vốn rời rạc.

Tầm quan trọng của tính khả vi thể hiện ở khả năng tích hợp liền mạch vào các hệ thống AI lai thần kinh (neuro-symbolic) lớn hơn. Trong các kiến trúc như vậy, mô-đun học cấu trúc hành động có thể đóng vai trò như một thành phần có thể huấn luyện end-to-end cùng với phần còn lại của hệ thống thay vì là một khối đen tách biệt cần can thiệp thủ công.

Với xu hướng nghiên cứu hiện nay đang dịch chuyển mạnh mẽ sang AI có khả năng lý luận có cấu trúc và giải thích được, đây là một tính năng có giá trị thực tiễn cao.

Tính khả vi cho phép mô-đun học cấu trúc hành động hoạt động như một thành phần có thể huấn luyện end-to-end, thay vì là một khối đen tách biệt cần can thiệp thủ công.

Kết quả thực nghiệm: Hiệu quả và bền vững trước nhiễu

Kiến trúc được đánh giá trên nhiều lĩnh vực lập kế hoạch tiêu chuẩn, dựa trên các benchmark được cộng đồng nghiên cứu sử dụng rộng rãi để so sánh các phương pháp khác nhau.

Kết quả cho thấy mô hình có khả năng tái tạo cấu trúc thực tế của bài toán với độ chính xác đáng kể trong nhiều điều kiện khác nhau. Đặc biệt, hiệu suất duy trì ổn định ngay cả khi dữ liệu quan sát bị nhiễu hoặc không hoàn chỉnh, là một thử thách quan trọng phản ánh điều kiện thực tế.

Khả năng chịu nhiễu này là dấu hiệu đáng khích lệ cho tính ứng dụng thực tiễn: trong môi trường triển khai thực, dữ liệu từ cảm biến, nhật ký hệ thống hay ghi nhận quy trình gần như không bao giờ hoàn hảo.

Ý nghĩa rộng hơn và hướng phát triển

Nghiên cứu này đặt ra và bước đầu trả lời một câu hỏi căn bản của AI hiện đại: Làm thế nào để hệ thống tự xây dựng mô hình thế giới có cấu trúc từ kinh nghiệm quan sát?

Nếu hướng tiếp cận này tiếp tục được phát triển và mở rộng, các ứng dụng tiềm năng là rất rộng: từ robot tự học quy trình làm việc trong môi trường mới, đến hệ thống hỗ trợ quyết định có khả năng tự cập nhật mô hình khi điều kiện thay đổi, hay các công cụ tự động hóa có thể thích nghi mà không cần lập trình lại từ đầu.

Đồng thời, sẽ vẫn còn nhiều câu hỏi mở cần tiếp tục được nghiên cứu, ví dụ như: Phương pháp sẽ mở rộng như thế nào với các lĩnh vực có không gian trạng thái rất lớn? Làm thế nào để đảm bảo các cấu trúc học được có thể kiểm chứng và tin cậy được trong các ứng dụng an toàn cao? Đây là những thách thức mà cộng đồng nghiên cứu sẽ cần giải quyết trong các bước tiếp theo.

Giải thích thuật ngữ

Thuật ngữ	Giải thích	Lĩnh vực
STRIPS / PDDL	Ngôn ngữ hình thức để mô tả bài toán lập kế hoạch; xác định hành động qua điều kiện và hiệu ứng	Lập kế hoạch
Action Schema	Mẫu hành động tổng quát, áp dụng được cho nhiều đối tượng cụ thể khác nhau	Lập kế hoạch
Trace (Dấu vết)	Chuỗi trạng thái liên tiếp ghi lại quá trình thực thi một loạt hành động	Dữ liệu
Differentiable	Tính chất cho phép tính đạo hàm, cần thiết để huấn luyện bằng gradient descent	Học máy
Neuro-Symbolic AI	Hướng tiếp cận kết hợp mạng nơ-ron (học từ dữ liệu) với suy luận ký hiệu (logic có cấu trúc)	AI tổng hợp

→Bài viết liên quan

→ Neuro-Symbolic AI: Tương lai của lý luận máy móc → Học tăng cường và bài toán lập kế hoạch dài hạn → PDDL và các benchmark lập kế hoạch phổ biến

Tài liệu tham khảo & Ghi chú

Nguồn nội dung: Bài viết được biên soạn dựa trên tổng hợp và diễn giải từ nội dung nghiên cứu khoa học. Toàn bộ nội dung được viết lại độc lập nhằm mục đích phổ biến tri thức.
STRIPS: Fikes, R. & Nilsson, N. (1971). STRIPS: A new approach to the application of theorem proving to problem solving. Artificial Intelligence, 2(3–4), 189–208.
PDDL: McDermott, D. et al. (1998). PDDL — The Planning Domain Definition Language. Technical Report.
Độc giả quan tâm có thể tìm đọc bài báo gốc để tham khảo chi tiết kỹ thuật đầy đủ.

Theo dõi nghiên cứu AI mới nhất

Đăng ký nhận bản tin để không bỏ lỡ các bài phân tích chuyên sâu về trí tuệ nhân tạo và học máy.

✉️ Đăng ký bản tin Khám phá thêm →

Trí Tuệ Nhân Tạo Tự Học: Bước Tiến Mới Trong Lập Kế Hoạch Tự Động

Đặt vấn đề: Ranh giới giữa học và lập kế hoạch

Bối cảnh: STRIPS, PDDL và hạn chế của mô hình thủ công

Bài toán: Học từ "dấu vết" thiếu thông tin

Giải pháp: Kiến trúc học đồng thời đối số và cấu trúc

Xác định đối số hành động

Học cấu trúc hành động

Vòng phản hồi tích cực

Điểm đột phá: Tính khả vi và tích hợp Neuro-Symbolic

Kết quả thực nghiệm: Hiệu quả và bền vững trước nhiễu

Ý nghĩa rộng hơn và hướng phát triển

Giải thích thuật ngữ

→Bài viết liên quan

Theo dõi nghiên cứu AI mới nhất

Khám phá các nội dung của AIPRO

Miễn phí Thư viện số

Hệ sinh thái hỗ trợ

Chính sách Khách VIP

VIỆN NGHIÊN CỨU TRÍ TUỆ NHÂN TẠO - AIPRO

Danh mục

Liên kết

Liên kết