Phát hiện virus máy tính dựa trên hệ miễn dịch nhân tạo

N.Quỳnh| 20/03/2019 15:12

KHPTO - Nhóm nghiên cứu Nguyễn Tấn Toàn, Vũ Thanh Nguyên, Trịnh Quốc Sơn, Lê Đình Tuấn từ Trường đại học công nghệ thông tin TP.HCM và Trường đại học kinh tế công nghiệp Long An đã nghiên cứu phương pháp phát hiện virus máy tính dựa trên hệ miễn dịch nhân tạo kết hợp thông tin từ cấu trúc PE của tập tin trên hệ điều hành Windows.

Các nhà khoa học đã nghiên cứu về một phương pháp phát hiện virus dựa trên giải thuật của hệ miễn dịch nhân tạo (AIS), kết hợp với thông tin được trích xuất từ cấu trúc Portable Executable (PE) của các tập tin trên hệ điều hành Windows, nhằm giúp giảm chi phí trích xuất đặc trưng từ việc dùng đặc trưng của cấu trúc PE và tăng thêm sự đa dạng của các bộ phát hiện thông qua giải thuật hệ miễn dịch nhân tạo. Phương pháp đã được thực nghiệm với các bộ dữ liệu và các bộ phân lớp khác nhau (SVM, Naïve Bayes và Decision Tree). Kết quả thực hiện cho thấy độ chính xác của phương pháp có thể đạt lần lượt 89,25%, 79,93% và 87,38% khi sử dụng SVM, Naïve Bayes và Decision Tree trong giai đoạn phân lớp.

Hiện nay, để phát hiện virus máy tính, hai phương pháp kinh điển nhất là phương pháp dựa trên chữ ký và phương pháp dựa trên hành vi. Nhưng so với thời điểm hiện tại, hai phương pháp này không đủ tốt để giải quyết vấn đề của virus. Phương pháp dựa trên chữ ký cơ bản có nhược điểm là không thể nhận dạng được các virus chưa biết (mới hoặc là biến thể của virus trước đó). Trong khi đó, phương pháp dựa trên hành vi mặc dù có thể phát hiện được các virus chưa biết dựa trên chuỗi hành vi của tập tin nhưng chi phí để phân tích của phương pháp này rất tốn kém.

Do đó, gần đây, để tìm ra các phương pháp tốt hơn, nhiều phương pháp mới dựa trên khai thác dữ liệu, máy học, thống kê, hệ miễn dịch nhận tạo đã được các nhiều khoa học quan tâm. Đi theo xu hướng đó, nhóm nghiên cứu tiếp cận theo hướng phát hiện virus mới dựa trên các giải thuật của hệ miễn dịch nhân tạo, kết hợp với thông tin được trích xuất từ cấu trúc PE của tập tin trên hệ điều hành Windows, với mong muốn đóng góp về nghiên cứu thử nghiệm một cách tiếp cận mới với việc kết hợp giá trị của dữ liệu PE trong phát hiện virus và khả năng xây dựng, đa dạng hóa các bộ phát hiện (detector) của AIS khi lượng dữ liệu huấn luyện còn hạn chế so với lượng dữ liệu thực tế trong phát hiện virus máy tính trên hệ điều hành Windows.

Kết quả nghiên cứu, các nhà khoa học đã tiếp cận việc phát hiện virus máy tính bằng phương pháp sử dụng AIS kết hợp với thông tin được trích xuất từ cấu trúc PE. Phương pháp tiếp cận của bài báo có thể dự đoán các tập tin chưa biết trước đó với một hiệu suất khá tốt.

Các thử nghiệm đã cho thấy rằng cách tiếp cận của bài báo có thể đạt lần lượt độ chính xác trung bình là 89,25%, 79,93%, và 87,38% khi sử dụng SVM, Naive Bayes, và Decision Tree. Về lý thuyết, thông tin số thực từ cấu trúc PE có sự khác nhau trong miền giá trị giữa tập tin sạch và tập tin virus. Bên cạnh đó, các DLL quan trọng chứa các hàm liên quan đế đọc, viết, copying dữ liệu... của hệ thống và đây là các loại hành vi mà virus thường sử dụng nên các DLL chứa các hành vi này thường xuyên được gọi trong các virus máy tính. Do đó, mà việc kết hợp thông tin dạng số từ thông tin của các PE header và thông tin của DLL có thể sẽ là đặc trưng tốt trong phân biệt virus và tập tin sạch.

Trong giai đoạn sử dụng AIS, NSA sẽ loại bỏ các vector đặc trưng không tốt khi nó quá gần giống với tập tin sạch nhằm để giảm thiểu sai sót trong bước dự đoán và giữ lại các vector đặc trưng tốt cho quá trình tạo các bộ phát hiện. Để làm cho hệ thống có thể dự đoán được virus chưa biết tốt hơn, một biến thể của Clonalg được sử dụng để nhân bản các bộ phát hiện với một vài đột biến nhằm làm cho các bộ phát hiện trở nên đa dạng hơn. Tuy nhiên, việc tìm một bộ phân biệt virus và tập tin sạch một cách thủ công là tương đối khó nên phương pháp phân lớp được sử dụng. Để phân lớp, các vector nguy hiểm được tính toán, chuẩn hóa và trải qua quá trình phân lớp nhằm tạo bộ phân lớp cho việc dự đoán virus. Đó là các nguyên nhân lý giải cho việc phương pháp có thể đạt được kết quả khá tốt như mong đợi.

Trong tương lai, để làm cho phương pháp này trở nên tốt hơn, nhóm nghiên cứu cho biết sẽ đánh giá phương pháp bằng các đặc trưng khác, các biến thể của giải thuật AIS khác nhau cùng với tập các dữ liệu đa dạng, phong phú hơn. Bên cạnh đó, ở thời điểm hiện tại, hệ thống chỉ có thể dự đoán được một tập tin là virus hay tập tin sạch nên các nỗ lực để dự đoán được kiểu virus sẽ được đầu tư nhằm làm cho hệ thống tốt hơn.
(0) Bình luận
Nổi bật
Đừng bỏ lỡ
Phát hiện virus máy tính dựa trên hệ miễn dịch nhân tạo
POWERED BY ONECMS - A PRODUCT OF NEKO