Ref: https://www.sentinelone.com/blog/malicious-pdfs-revealing-techniques-behind-attacks/

What is PDF malware?

Truyền thuyết về mã độc trên các tệp tin office, 1 số kiến thức cơ bản: VBA là ngôn ngữ lập trình được sử dụng trên ứng dụng văn phòng như Word, Excel, PowerPoint; Macro là một tập hợp các câu lệnh VBA; DDE (Microsoft’s Dynamic Data Exchange ) là một giao thức cho phép chia sẻ dữ liệu giữa các phần mềm Microsoft office. Chi tiết như sau: DDE cho phép thêm các đoạn trigger, sẽ được thực this khi victim mở 1 tập docx, excel,… bất kỳ. Vd: mở 1 file docs độc hại lên → tự động khởi chạy 1 exe độc hại để làm nhiều tác vụ khác tấn công thiết bị người dùng.

Tuy nhiên đó là các định dạng tệp office, thế còn PDF? 1 trong những ưu điểm của PDF khiến nó trở nên phổ biến là tính tiện ích, PDF không cần các phần mềm chuyên biệt và nặng nề như Microsoft word, excel… PDF có thể được mở bởi các trình PDF reader mặc định được cài đặt trên hệ điều hành và CÓ THỂ XEM TRỰC TIẾP TRÊN TRÌNH DUYỆT → ĐÂY LÀ YẾU TỐ CHÍNH ĐỂ KHIẾN CÁC ATTACKERS NHẮM ĐẾN PDF NHƯ 1 CÔNG CỤ TIỀM NĂNG.

Tổng quan, PDF malware là những tệp PDF được đính kèm các đoạn code độc hại gây hại cho thiết bị của người dùng (desktop, mobile). Các đoạn mã độc này sẽ được khởi chạy trên các PDF reader mà điển hình là các browser như chrome, safari,etc… Các đoạn mã độc được attackers sử dụng các công nghệ như AcroForms or XFA Forms để chèn các đoạn Javascript, cái mà sẽ được tự động thực this khi các browser thực hiện quá trình phân tích và đọc 1 tệp PDF.

AcroForms or XFA Forms là các kiến trúc giúp tạo nên 1 tệp PDF.

Why is PDF?

How does PDF malware attack?

Backup:

https://github.com/soureshmondal/malicious-pdf-detection-using-nlp

data_prepare.py