Trigram

Trigram là một trường hợp đặc biệt của N-gram, với n là 3. Trigram thường được sử dụng trong xử lý ngôn ngữ tự nhiên để thực hiện phân tích thống kê văn bản và trong mật mã học để kiểm soát và sử dụng cho các cipher và mã hiệu. Trigram thường được dùng để dò lọc nội dung spam, dò lỗi chính tả trong văn bản.[1][2] Người ta thường phân tích Trigram ở cấp độ từ, cấp độ ký tự, và cấp độ token.

Ví dụ

Với câu "the quick red fox jumps over the lazy brown dog" thì có các trigram ở cấp độ từ như sau:

the quick redquick red foxred fox jumpsfox jumps overjumps over theover the lazythe lazy brownlazy brown dog

Với một trigram ở cấp độ từ "the quick red" có các trigram ở cấp độ ký tự như sau (dấu "_" thay thế cho khoảng trắng):

thehe_e_q_ququiuicickck_k_r_rered

Tham khảo

Liên kết ngoài