TCP

TCP (Transmission Control Protocol - "Giao thức điều khiển truyền vận") là một trong các giao thức cốt lõi của bộ giao thức TCP/IP. Sử dụng TCP, các ứng dụng trên các máy chủ được nối mạng có thể tạo các "kết nối" với nhau, mà qua đó chúng có thể trao đổi dữ liệu hoặc các gói tin. Giao thức này đảm bảo chuyển giao dữ liệu tới nơi nhận một cách đáng tin cậy và đúng thứ tự. TCP còn phân biệt giữa dữ liệu của nhiều ứng dụng (chẳng hạn, dịch vụ Web và dịch vụ thư điện tử) đồng thời chạy trên cùng một máy chủ.

TCP hỗ trợ nhiều giao thức ứng dụng phổ biến nhất trên Internet và các ứng dụng kết quả, trong đó có WWW, thư điện tửSecure Shell.

Trong bộ giao thức TCP/IP, TCP là tầng trung gian giữa giao thức IP bên dưới và một ứng dụng bên trên. Các ứng dụng thường cần các kết nối đáng tin cậy kiểu đường ống để liên lạc với nhau, trong khi đó, giao thức IP không cung cấp những dòng kiểu đó, mà chỉ cung cấp dịch vụ chuyển gói tin không đáng tin cậy. TCP làm nhiệm vụ của tầng giao vận trong mô hình OSI đơn giản của các mạng máy tính.

Các ứng dụng gửi các dòng gồm các byte 8-bit tới TCP để chuyển qua mạng. TCP phân chia dòng byte này thành các đoạn (segment) có kích thước thích hợp (thường được quyết định dựa theo kích thước của đơn vị truyền dẫn tối đa (MTU) của tầng liên kết dữ liệu của mạng mà máy tính đang nằm trong đó). Sau đó, TCP chuyển các gói tin thu được tới giao thức IP để gửi nó qua một liên mạng tới mô đun TCP tại máy tính đích. TCP kiểm tra để đảm bảo không có gói tin nào bị thất lạc bằng cách gán cho mỗi gói tin một "số thứ tự" (sequence number). Số thứ tự này còn được sử dụng để đảm bảo dữ liệu được trao cho ứng dụng đích theo đúng thứ tự. Mô đun TCP tại đầu kia gửi lại "tin báo nhận" (acknowledgement) cho các gói tin đã nhận được thành công; một "đồng hồ" (timer) tại nơi gửi sẽ báo time-out nếu không nhận được tin báo nhận trong khoảng thời gian bằng một round-trip time (RTT), và dữ liệu (được coi là bị thất lạc) sẽ được gửi lại. TCP sử dụng checksum (giá trị kiểm tra) để xem có byte nào bị hỏng trong quá trình truyền hay không; giá trị này được tính toán cho mỗi khối dữ liệu tại nơi gửi trước khi nó được gửi, và được kiểm tra tại nơi nhận.

Hoạt động của giao thức

Sơ đồ trạng thái của TCP - phiên bản đơn giản hóa

Không như giao thức UDP - giao thức có thể lập tức gửi gói tin mà không cần thiết lập kết nối, TCP đòi hỏi thiết lập kết nối trước khi bắt đầu gửi dữ liệu và kết thúc kết nối khi việc gửi dữ liệu hoàn tất. Cụ thể, các kết nối TCP có ba pha:

  1. Thiết lập kết nối
  2. Truyền dữ liệu
  3. Kết thúc kết nối

Trước khi miêu tả các pha này, ta cần lưu ý các trạng thái khác nhau của một socket:

  1. LISTEN
  2. SYN-SENT
  3. SYN-RECEIVED
  4. ESTABLISHED
  5. FIN-WAIT
  6. CLOSE-WAIT
  7. CLOSING
  8. LAST-ACK
  9. TIME-WAIT
  10. CLOSER
LISTEN
đang đợi yêu cầu kết nối từ một TCP và cổng bất kỳ ở xa (trạng thái này thường do các TCP server đặt)
SYN-SENT
đang đợi TCP ở xa gửi một gói tin TCP với các cờ SYN và ACK được bật (trạng thái này thường do các TCP client đặt)
SYN-RECEIVED
đang đợi TCP ở xa gửi lại một tin báo nhận sau khi đã gửi cho TCP ở xa đó một tin báo nhận kết nối (connection acknowledgment) (thường do TCP server đặt)
ESTABLISHED
cổng đã sẵn sàng nhận/gửi dữ liệu với TCP ở xa (đặt bởi TCP client và server)
TIME-WAIT
đang đợi qua đủ thời gian để chắc chắn là TCP ở xa đã nhận được tin báo nhận về yêu cầu kết thúc kết nối của nó. Theo RFC 793, một kết nối có thể ở tại trạng thái TIME-WAIT trong vòng tối đa 4 phút.

Thiết lập kết nối

Để thiết lập một kết nối, TCP sử dụng một quy trình bắt tay 3 bước (3-way handshake)Trước khi client thử kết nối với một server, server phải đăng ký một cổng và mở cổng đó cho các kết nối: đây được gọi là mở bị động.Một khi mở bị động đã được thiết lập thì một client có thể bắt đầu mở chủ động.Để thiết lập một kết nối, quy trình bắt tay 3 bước xảy ra như sau:

  1. Client yêu cầu mở cổng dịch vụ bằng cách gửi gói tin SYN (gói tin TCP) tới server, trong gói tin này, tham số sequence number được gán cho một giá trị ngẫu nhiên X.
  2. Server hồi đáp bằng cách gửi lại phía client bản tin SYN-ACK, trong gói tin này, tham số acknowledgment number được gán giá trị bằng X + 1, tham số sequence number được gán ngẫu nhiên một giá trị Y
  3. Để hoàn tất quá trình bắt tay ba bước, client tiếp tục gửi tới server bản tin ACK, trong bản tin này, tham số sequence number được gán cho giá trị bằng X + 1 còn tham số acknowledgment number được gán giá trị bằng Y + 1

Tại thời điểm này, cả client và server đều được xác nhận rằng, một kết nối đã được thiết lập.

Truyền dữ liệu

Một số đặc điểm cơ bản của TCP để phân biệt với UDP:

  • Truyền dữ liệu không lỗi (do có cơ chế sửa lỗi/truyền lại)
  • Truyền các gói dữ liệu theo đúng thứ tự
  • Truyền lại các gói dữ liệu mất trên đường truyền
  • Loại bỏ các gói dữ liệu trùng lặp
  • Cơ chế hạn chế tắc nghẽn đường truyền

Ở hai bước đầu tiên trong ba bước bắt tay, hai máy tính trao đổi một số thứ tự gói ban đầu (Initial Sequence Number -ISN). Số này có thể chọn một cách ngẫu nhiên. Số thứ tự này được dùng để đánh dấu các khối dữ liệu gửi từ mỗi máy tính. Sau mỗi byte được truyền đi, số này lại được tăng lên. Nhờ vậy ta có thể sắp xếp lại chúng khi tới máy tính kia bất kể các gói tới nơi theo thứ tự thế nào.

Trên lý thuyết, mỗi byte gửi đi đều có một số thứ tự và khi nhận được thì máy tính nhận gửi lại tin báo nhận (ACK). Trong thực tế thì chỉ có byte dữ liệu đầu tiên được gán số thứ tự trong trường số thứ tự của gói tin và bên nhận sẽ gửi tin báo nhận bằng cách gửi số thứ tự của byte đang chờ.

Ví dụ: Máy tính A gửi 4 byte với số thứ tự ban đầu là 100 (theo lý thuyết thì 4 byte sẽ có thứ tự là 100, 101, 102, 103) thì bên nhận sẽ gửi tin báo nhận có nội dung là 104 vì đó là thứ tự của byte tiếp theo nó cần. Bằng cách gửi tin báo nhận là 104, bên nhận đã ngầm thông báo rằng nó đã nhận được các byte 100, 101, 102 và 103. Trong trường hợp 2 byte cuối bị lỗi thì bên nhận sẽ gửi tin báo nhận với nội dung là 102 vì 2 byte 100 và 101 đã được nhận thành công.

Giả sử ta có 10.000 byte được gửi đi trong 10 gói tin 1.000 byte và có 1 gói tin bị mất trên đường truyền. Nếu gói bị mất là gói đầu tiên thì bên gửi sẽ phải gửi lại toàn bộ 10 gói vì không có cách nào để bên nhận thông báo nó đã nhận được 9 gói kia. Vấn đề này được giải quyết trong giao thức SCTP (Stream Control Transmission Protocol - "Giao thức điều khiển truyền vận dòng") với việc bổ sung báo nhận chọn lọc.

Số thứ tự và tin báo nhận giải quyết được các vấn đề về lặp gói tin, truyền lại những gói bị hỏng/mất và các gói tin đến sai thứ tự. Để phục vụ mục đích kiểm tra, các gói tin có trường giá trị tổng kiểm (checksum - Xem thêm phần #Cấu trúc gói).

Với trình độ hiện tại, kỹ thuật kiểm tra tổng trong TCP không đủ mạnh. Các tầng liên kết dữ liệu với xác suất lỗi bit cao có thể cần được bổ sung các khả năng phát hiện lỗi tốt hơn. Nếu như TCP được thiết kế vào thời điểm hiện tại, nhiều khả năng nó sẽ bao gồm trường kiểm tra độ dư tuần hoàn (cyclic redundancy check - CRC) với độ dài 32 bit. Điểm yếu này một phần được bù đắp bằng CRC hay những kỹ thuật khác tại tầng thứ 2 (trong mô hình 7 lớp OSI) ở bên dưới cả TCP và IP như trong các giao thức điểm-điểm (PPP) hoặc Ethernet. Tuy nhiên điều này cũng không có nghĩa là trường kiểm tra tổng của TCP là không cần thiết: thống kê cho thấy các sai sót do cả phần cứng và phần mềm gây ra giữa các điểm áp dụng kỹ thuật kiểm tra CRC là khá phổ biến và kỹ thuật kiểm tra tổng có khả năng phát hiện phần lớn các lỗi (đơn giản) này.

Điểm cuối cùng là khả năng hạn chế tắc nghẽn.

Tin báo nhận (hoặc không có tin báo nhận) là tín hiệu về tình trạng đường truyền giữa 2 máy tính. Từ đó, hai bên có thể thay đổi tốc độ truyền nhận dữ liệu phù hợp với điều kiện. Vấn đề này thường được đề cập là điều khiển lưu lượng, kiểm soát tắc nghẽn. TCP sử dụng một số cơ chế nhằm đạt được hiệu suất cao và ngăn ngừa khả năng nghẽn mạng. Các cơ chế này bao gồm: cửa sổ trượt (sliding window), thuật toán slow-start, thuật toán tránh nghẽn mạng (congestion avoidance), thuật toán truyền lại và phục hồi nhanh,... Hiện nay, vấn đề cải tiến TCP trong môi truyền truyền dẫn tốc độ cao đang là một hướng nghiên cứu được quan tâm.

Kích thước cửa sổ TCP

Chuỗi số thứ tự gói và cửa sổ trong TCP hoạt động giống như một cái đồng hồ. Kích thước của cửa sổ (đo bằng byte) được thiết lập bởi khả năng tiếp nhận của máy tính nhận. Cửa sổ này được dịch đi mỗi khi máy tính nhận nhận được dữ liệu và gửi tin báo nhận. Khi chuỗi thứ tự tăng đến tối đa thì lại quay lại về 0.

Kích thước của cửa sổ là chiều dài (byte) của khối dữ liệu có thể lưu trong bộ đệm của bên nhận. Bên gửi chỉ có thể gửi tối đa lượng thông tin chứa trong cửa sổ này trước khi nhận được tin báo nhận.

Dãn kích thước cửa sổ

Để tận dụng khả năng truyền dẫn của mạng thì cửa sổ dùng trong TCP cần được tăng lên. Trường điều khiển kích thước cửa sổ của gói TCP có độ dài là 2 byte và do đó kích thước tối đa của cửa sổ là 65.535 byte.

Do trường điều khiển không thể thay đổi nên người ta sử dụng một hệ số dãn nào đó. Hệ số này được định nghĩa trong tài liệu RFC 1323 có thể sử dụng để tăng kích thước tối đa của cửa sổ từ 65.535 byte lên tới 1 gigabyte. Tăng kích thước cửa sổ lớn hơn nữa cũng cần thiết trong TCP Tuning.

Việc tăng kích thước cửa sổ chỉ được dùng trong giao thức bắt tay 3 pha. Giá trị của trường co giãn cửa sổ thể hiện số bit cần được dịch trái đối với trường kích thước cửa sổ. Hệ số dãn có thể thay đổi từ 0 (không dãn) tới 14 (dãn tối đa).

Kết thúc kết nối

Để kết thúc kết nối hai bên sử dụng quá trình bắt tay 4 bước và chiều của kết nối kết thúc độc lập với nhau. Khi một bên muốn kết thúc, nó gửi đi một gói tin FIN và bên kia gửi lại tin báo nhận ACK. Vì vậy, một quá trình kết thúc tiêu biểu sẽ có 2 cặp gói tin trao đổi.

Một kết nối có thể tồn tại ở dạng "nửa mở": một bên đã kết thúc gửi dữ liệu nên chỉ nhận thông tin, bên kia vẫn tiếp tục gửi.

Các cổng TCP

TCP sử dụng khái niệm số hiệu cổng (port number) để định danh các ứng dụng gửi và nhận dữ liệu. Mỗi đầu của một kết nối TCP có một số hiệu cổng (là số không dấu 16-bit) được gán cho ứng dụng đang nhận hoặc gửi dữ liệu. Các cổng được phân thành ba loại cơ bản: nổi tiếng, được đăng ký và động/cá nhân. Các cổng nổi tiếng đã được gán bởi tổ chức Internet Assigned Numbers Authority (IANA) và thường được sử dụng bởi các tiến trình mức hệ thống hoặc các tiến trình của root. Ví dụ: FTP (21), TELNET (23), SMTP (25) và HTTP (80). Các cổng được đăng ký thường được sử dụng bởi các ứng dụng người dùng đầu cuối (end user application) với vai trò các cổng phát tạm thời (khi dùng xong thì hủy đăng ký) khi kết nối với server, nhưng chúng cũng có thể định danh các dịch vụ có tên đã được đăng ký bởi một bên thứ ba. Các cổng động/cá nhân cũng có thể được sử dụng bởi các ứng dụng người dùng đầu cuối, nhưng không thông dụng bằng. Các cổng động/cá nhân không có ý nghĩa gì nếu không đặt trong một kết nối TCP. Có 65535 cổng được chính thức thừa nhận.

Sự phát triển của TCP

TCP là một giao thức phức tạp và vẫn còn tiếp tục được phát triển. Tuy nhiên, mặc dù có nhiều cải tiến đã được áp dụng và đề xuất nhưng các hoạt động cơ bản của giao thức vẫn giữ nguyên như mô tả ban đầu trong tài liệu RFC 793 ban hành năm 1981. Tài liệu RFC 1122 - Các yêu cầu của máy mạng Internet - đưa ra một số yêu cầu khi thực hiện TCP. RFC 2581 - Điều khiển tránh nghẽn mạng, một trong những tài liệu quan trọng trong bộ RFC trong những năm gần đây - mô tả thuật toán dùng để giảm khả năng tắc nghẽn mạng. Năm 2001, RFC 3168 mô tả một cơ chế báo hiệu chống nghẽn mạng có tên là Thông báo nghẽn mạng (Explicit Congestion Notification). Vào thời điểm đầu thế kỷ 21, khoảng 95% gói tin trên Internet là TCP. Các ứng dụng tiêu biểu sử dụng TCP là HTTP/HTTPS (World Wide Web), SMTP/POP3/IMAP (e-mail) và FTP (truyền file). Sự phổ biến của TCP chứng tỏ rằng nó đã được thiết kế rất tốt.

Cơ chế điều khiển tránh tắc nghẽn của TCP ban đầu là TCP Reno và gần đây đã có một số thuật toán khác được đề xuất:

Bên cạnh đó cũng có rất nhiều nghiên cứu so sánh sự công bằng và hiệu suất của TCP khi sử dụng các thuật toán tránh tắc nghẽn khác nhau.

TCP trên mạng không dây

TCP cũng được sử dụng cho mạng không dây. Ở đây trường hợp mất gói tin cũng được xem là nghẽn mạng và kích thước cửa sổ do đó cũng sẽ được giảm xuống. Tuy nhiên trong nhiều trường hợp đối với các mạng không dây thì việc mất các gói tin thường xảy ra một cách ngẫu nhiên do ảnh hưởng của fading, chuyển giao giữa các cell... và chúng ta không thể xem đây là nghẽn mạng. Do đó, việc giảm kích thước cửa sổ không đúng sẽ làm cho hiệu quả sử dụng đường truyền giảm một cách đáng kể. Nhiều nghiên cứu đã tập trung để giải quyết vấn đề này. Các giải pháp được đề ra có thể phân loại thành các nhóm: giải pháp đầu cuối (liên quan tới việc thay đổi tại client/server), giải pháp tại tầng liên kết dữ liệu (chẳng hạn giao thức RLP trong chuẩn CDMA2000) và giải pháp dựa trên proxy (thay đổi trong mạng mà không cần thay đổi các thiết bị đầu cuối).

Gỡ rối trong TCP

Các phần mềm đọc gói (packet sniffer) TCP có thể sử dụng để gỡ rối/theo dõi bằng cách đọc tất cả các gói TCP được truyền trong mạng. Ví dụ: Wireshark(trên Windows và Linux), tcpdump(trên Linux)...

Các lựa chọn khác ngoài TCP

Đối với một số ứng dụng thì TCP không thích hợp. Vấn đề lớn nhất là phía nhận không thể tiếp nhận các gói tin đến sau một gói bị lỗi trước khi chính gói bị lỗi được truyền lại. Điều này khiến TCP không thích hợp cho các ứng dụng thời gian thực (real-time) chẳng hạn như đa phương tiện trực tuyến, trò chơi trực tuyến và thoại trên nền IP (VoIP) bởi vì các ứng dụng này cần các gói tin kịp thời hơn là nhận đủ các gói tin theo đúng thứ tự.

Ngoài ra sự phức tạp của TCP cũng gây ra vấn đề với các hệ thống nhúng (embedded system). Ví dụ tiêu biểu là netbooting sử dụng giao thức TFTP. Cuối cùng, độ phức tạp của TCP cũng gây khó khăn cho một số vấn đề khác như truyền thông tin giữa 2 máy tính nằm sau hệ thống chuyển đổi địa chỉ (NAT).

Thông thường, khi TCP không thích hợp thì UDP được sử dụng. UDP cung cấp một số tính năng giống TCP như đa công và kiểm tra tổng nhưng nó không đảm bảo việc truyền lại gói tin lỗi hay thứ tự các gói tin. Vì thế, người phát triển ứng dụng có thể áp dụng các phương thức khác ở các tầng trên để giải quyết vấn đề tùy theo yêu cầu cụ thể.

Giao thức điều khiển truyền vận dòng (Stream Control Transmission Protocol - SCTP) cũng là một giao thức dựa trên nền IP không khác nhiều so với TCP. SCTP được phát triển sau và có cấu trúc phức tạp hơn TCP. SCTP được thiết kế để sử dụng trong điều kiện yêu cầu độ tin cậy và gần thời gian thực. Tuy nhiên SCTP chưa được sử dụng rộng rãi.

TCP cũng bộc lộ một số vấn đề khi dùng trong môi trường truyền dẫn tốc độ cao. Thuật toán tránh nghẽn mạng làm việc tốt trong môi trường không dự tính trước nhưng đối với môi trường xác định hơn chẳng hạn như ATM (Asynchronous Transfer Mode) thì TCP không tận dụng được khả năng của hệ thống bên dưới.

Cấu trúc gói tin

Một gói tin TCP bao gồm 2 phần

  • header (có độ dài 20 bytes)
  • dữ liệu

Phần header có 11 trường trong đó 10 trường bắt buộc. Trường thứ 11 là tùy chọn (trong bảng minh họa có màu nền đỏ) có tên là: options

Header

+Bít 0 - 34 - 78 - 1516 - 31
0Source PortDestination Port
32Sequence Number
64Acknowledgement Number
96Data OffsetReservedFlagsWindow
128ChecksumUrgent Pointer
160Options (optional)
160/192+ 
Data
 
Source port
Số hiệu của cổng tại máy tính gửi.
Destination port
Số hiệu của cổng tại máy tính nhận.
Sequence number
Trường này có 2 nhiệm vụ. Nếu cờ SYN bật thì nó là số thứ tự gói ban đầu và byte đầu tiên được gửi có số thứ tự này cộng thêm 1. Nếu không có cờ SYN thì đây là số thứ tự của byte đầu tiên.
Acknowledgement number
Nếu cờ ACK bật thì giá trị của trường chính là số thứ tự gói tin tiếp theo mà bên nhận cần.
Data offset
Trường có độ dài 4 bít quy định độ dài của phần header (tính theo đơn vị từ 32 bít). Phần header có độ dài tối thiểu là 5 từ (160 bit) và tối đa là 15 từ (480 bít).
Reserved
Dành cho tương lai và có giá trị là 0.
Flags (hay Control bits)
Bao gồm 8 cờ

CWR (1 bit)

ECE (1 bit)
URG
Cờ cho trường Urgent pointer
ACK
Cờ cho trường Acknowledgement
PSH
Hàm Push
RST
Thiết lập lại đường truyền
SYN
Đồng bộ lại số thứ tự
FIN
Không gửi thêm số liệu
Window
Số byte có thể nhận bắt đầu từ giá trị của trường báo nhận (ACK)
Checksum
16 bít kiểm tra cho cả phần header và dữ liệu. Phương pháp sử dụng được mô tả trong RFC 793:
16 bít của trường kiểm tra là bổ sung của tổng tất cả các từ 16 bít trong gói tin. Trong trường hợp số octet (khối 8 bít) của header và dữ liệu là lẻ thì octet cuối được bổ sung với các bít 0. Các bít này không được truyền. Khi tính tổng, giá trị của trường kiểm tra được thay thế bằng 0,
Nói một cách khác, tất cả các từ 16 bít được cộng với nhau. Kết quả thu được sau khi đảo giá trị từng bít được điền vào trường kiểm tra. Về mặt thuật toán, quá trình này giống với IPv4.
Điểm khác nhau chỉ ở chỗ dữ liệu dùng để tính tổng kiểm tra. Dưới đây là một header của IP:
+Bít 0 - 34 - 78 - 910 - 1516 - 31
0Source address
32Destination address
64ZerosProtocolTCP length
96Source PortDestination Port
128Sequence Number
160Acknowledgement Number
192Data OffsetReservedFlagsWindow
225ChecksumUrgent Pointer
257Options (optional)
257/289+ 
Data
 
Các địa chỉ nguồn và đích là các địa chỉ IPv4. Giá trị của trường protocol là 6 (giá trị dành cho TCP, xem thêm: Danh sách số hiệu giao thức IPv4). Giá trị của trường TCP length field là độ dài của toàn bộ phần header và dữ liệu của gói TCP.
Urgent pointer
Nếu cờ URG bật thì giá trị trường này chính là số từ 16 bít mà số thứ tự gói tin (sequence number) cần dịch trái.
Options
Đây là trường tùy chọn. Nếu có thì độ dài là bội số của 32 bít.

Dữ liệu

Trường cuối cùng không thuộc về header. Giá trị của trường này là thông tin dành cho các tầng trên (trong mô hình 7 lớp OSI). Thông tin về giao thức của tầng trên không được chỉ rõ trong phần header mà phụ thuộc vào cổng được chọn.

Xem thêm

  • TCP congestion avoidance algorithm: thông tin về TCP Reno, TCP Vegas, TCP Westwood, BIC TCP và Hybla
  • TCP và UDP port numbers: danh sách đầy đủ các cổng TCP và UDP
  • Connection-oriented protocol
  • TCP Tuning: dành cho các môi trường truyền dẫn tốc độ cao
  • T/TCP: một biến thể của TCP

Tham khảo

Liên kết ngoài