Trigram
Trigram là một trường hợp đặc biệt của N-gram, với n là 3. Trigram thường được sử dụng trong xử lý ngôn ngữ tự nhiên để thực hiện phân tích thống kê văn bản và trong mật mã học để kiểm soát và sử dụng cho các cipher và mã hiệu. Trigram thường được dùng để dò lọc nội dung spam, dò lỗi chính tả trong văn bản.[1][2] Người ta thường phân tích Trigram ở cấp độ từ, cấp độ ký tự, và cấp độ token.
Ví dụ
Với câu "the quick red fox jumps over the lazy brown dog" thì có các trigram ở cấp độ từ như sau:
the quick redquick red foxred fox jumpsfox jumps overjumps over theover the lazythe lazy brownlazy brown dog
Với một trigram ở cấp độ từ "the quick red" có các trigram ở cấp độ ký tự như sau (dấu "_" thay thế cho khoảng trắng):
thehe_e_q_ququiuicickck_k_r_rered
Tham khảo
Liên kết ngoài
🔥 Top keywords: Đài Truyền hình Kỹ thuật số VTCTrang ChínhGiỗ Tổ Hùng VươngTrương Mỹ LanĐặc biệt:Tìm kiếmHùng VươngVương Đình HuệUEFA Champions LeagueKuwaitChiến dịch Điện Biên PhủFacebookĐài Truyền hình Việt NamTrần Cẩm TúĐội tuyển bóng đá quốc gia KuwaitGoogle DịchViệt NamCúp bóng đá U-23 châu ÁCúp bóng đá U-23 châu Á 2024Real Madrid CFBảng xếp hạng bóng đá nam FIFACleopatra VIITô LâmTim CookNguyễn Phú TrọngHồ Chí MinhHai Bà TrưngManchester City F.C.VnExpressChủ tịch nước Cộng hòa xã hội chủ nghĩa Việt NamNguyễn Ngọc ThắngĐền HùngCúp bóng đá trong nhà châu Á 2024Võ Văn ThưởngOne PieceLịch sử Việt NamCuộc đua xe đạp toàn quốc tranh Cúp truyền hình Thành phố Hồ Chí Minh 2024Phạm Minh ChínhTikTokĐinh Tiên Hoàng