Mã di truyền

những thông tin mã hóa trong vật liệu di truyền được dịch mã thành protein

Mã di truyền (tiếng Anh: Genetic code) là bộ quy tắc mà các tế bào sống sử dụng để dịch mã thông tin được mã hóa trong vật liệu di truyền (những chuỗi bộ ba nucleotide hoặc codon của DNA hoặc RNA) thành protein. Dịch mã được ribosome tiến hành, liên kết amino acid tạo protein theo thứ tự mà RNA thông tin (mRNA) quy định, sử dụng các phân tử của RNA vận chuyển (tRNA) để mang amino acid và đọc ba nucleotide của mRNA cùng lúc. Mã di truyền rất giống nhau giữa mọi sinh vật và có thể trình bày trong bảng 64 ô.

Một dãy các codon nằm trong một phần của phân tử RNA thông tin (mRNA). Mỗi codon chứa ba nucleotide, thường tương ứng với một amino acid duy nhất. Các nucleotide được viết tắt bằng những chữ cái A, U, G và C. Đây là mRNA sử dụng U (uracil). Thay vào đó, DNA sử dụng T (thymine). Phân tử mRNA này sẽ hướng dẫn một ribosome tổng hợp protein theo mã này.

Trong sinh tổng hợp protein, các codon có vai trò xác định amino acid nào sẽ được "lắp" vào vị trí kế tiếp trên trên chuỗi. Một bộ ba nucleotide trong trình tự acid nucleic chỉ mã hóa cho một amino acid duy nhất (trừ một vài trường hợp ngoại lệ).[1] Đa số gen được mã hóa bằng một sơ đồ duy nhất (xem bảng mã RNA). Sơ đồ đó thường được gọi là mã di truyền tiêu chuẩn, hay đơn giản là mã di truyền. Có tồn tại các mã biến thể (variant code, hẳng hạn như trong ty thể).

Lịch sử

Mã di truyền

Cấu trúc DNA được phát hiện vào năm 1953, từ thời điểm đó hàng loạt các nghiên cứu về mã hóa protein được tiến hành. Nhà sinh lý học người Anh Francis Crick và nhà sinh vật học người Mỹ James Watson làm việc cùng nhau tại Phòng thí nghiệm Cavendish của Đại học Cambridge, họ cùng đưa ra giả thuyết rằng thông tin truyền từ DNA và có mối liên hệ giữa DNA và protein.[2] Nhà vật lý người Mỹ gốc Liên Xô George Gamow là người đầu tiên tạo ra sơ đồ tổng hợp protein từ DNA.[3] Ông cho rằng bộ ba base phải được dùng để mã hóa 20 amino acid tiêu chuẩn mà các tế bào sống sử dụng để tạo nên protein, tức cho phép tối đa 43 = 64 amino acid.[4] Ông đặt tên tương tác của DNA-protein này (mã di truyền gốc) là "mã kim cương" (diamond code).[5]

Năm 1954, Gamow thành lập một tổ chức khoa học không chính thức là câu lạc bộ RNA Tie (theo đề xuất của Watson) dành cho các nhà khoa học có quan điểm khác nhau, cùng quan tâm đến cách thức protein được tổng hợp từ gen. Tuy nhiên, câu lạc bộ chỉ có 20 thành viên thường trực, mỗi thành viên đại diện cho một amino acid; và câu lạc bộ này có thêm 4 thành viên danh dự để đại diện cho bốn nucleotide của DNA.[6]

Đóng góp đầu tiên của câu lạc bộ cho khoa học về sau được ghi nhận là "một trong những bài báo chưa công bố quan trọng nhất trong lịch sử khoa học"[7] và "bài báo chưa công bố nổi tiếng nhất trong biên niên sử sinh học phân tử,"[8] do Crick tiến hành. Crick trình bày một bài báo đánh chữ có nhan đề "On Degenerate Templates and the Adaptor Hypothesis: A Note for the RNA Tie Club"[9] gửi cho các thành viên của câu lạc bộ vào tháng 1 năm 1955; bài báo này "thay đổi hoàn toàn cách mà chúng ta nghĩ về tổng hợp protein", như Watson kể lại.[10] Giả thuyết cho rằng mã bộ ba không được truyền cho các amino acid như Gamow nghĩ, mà được một phân tử khác cất giữ (một "tác nhân thích ứng" (adaptor) tương tác với các amino acid).[8] Sau này, "tác nhân thích ứng" được xác định là tRNA.[11]

Codon

Thí nghiệm Crick, Brenner, Barnett và Watts-Tobin lần đầu chứng minh rằng codon bao gồm ba base DNA. Marshall Nirenberg và Heinrich J. Matthaei là những người đầu tiên tiết lộ bản chất của một mã vào năm 1961.[12]

Họ đã sử dụng một hệ thống phi tế bào (cell-free system) để dịch mã một trình tự RNA poly-uracil (ví dụ: UUUUU...) và phát hiện ra rằng polypeptide mà họ đã tổng hợp chỉ gồm có chỉ amino acid phenylalanin.[13] Do đó, họ suy luận rằng codon UUU quy định amino acid phenylalanin.[14]

Kế đến là các thí nghiệm trong phòng thí nghiệm của Severo Ochoa đã chứng minh rằng trình tự RNA poly-adenin (AAAAA...) được mã hóa cho polypeptide poly-lysin[15] và trình tự RNA poly-cytosine (CCCCC...) được mã hóa cho polypeptide poly-prolin.[16] Do đó, codon AAA quy định amino acid lysin còn codon CCC quy định amino acid prolin.[17] Nhờ sử dụng nhiều chất copolymer mà sau đó hầu hết các mã còn lại đã được xác định.[18]

Nghiên cứu của Har Gobind Khorana xác định các mã di truyền còn lại. Ngay sau đó, Robert W. Holley xác định cấu trúc của RNA vận chuyển (tRNA), phân tử thích ứng hỗ trợ quá trình dịch mã RNA thành protein. Nghiên cứu này dựa trên những nghiên cứu trước của Ochoa. Năm 1959, Ochoa nhận giải Nobel về Sinh lý học và Y học cho công trình nghiên cứu về enzym học trong tổng hợp RNA.[19]

Qua việc mở rộng nghiên cứu, Nirenberg và Philip Leder tiết lộ bản chất bộ ba của mã di truyền và giải mã các codon trong nó. Trong những thí nghiệm này, nhiều tổ hợp của mRNA được truyền qua một bộ lọc chứa ribosome, những thành phần của tế bào dịch RNA thành protein. Những bộ ba mã hóa đã thúc đẩy các tRNA cụ thể liên kết với ribosome. Leder và Nirenberg còn có thể xác định trình tự của 54 trong số 64 codon ở thí nghiệm của họ.[20] Khorana, Holley và Nirenberg cùng nhận giải Nobel năm 1968 cho công trình nghiên cứu của họ.[21]

Hai nhà khoa học khám phá ra bộ ba kết thúc là Richard Epstein và Charles Steinberg. Họ đặt tên bộ ba UAA là ochre, UAG là amber, còn UGA là opal. "Amber" được đặt theo tên của Harris Bernstein (người bạn của hai nhà khoa học trên), trong đó "bernstein" trong tiếng Đức nghĩa là hổ phách, tiếng Anh là "amber".[22] Hai codon kết thúc khác được đặt tên là "ochre" (màu thổ hoàng) và "opal" để giữ theo chủ đề màu sắc.[23]

Mã di truyền mở rộng (sinh học tổng hợp)

Trong nhiều đối tượng học thuật, khái niệm về sự tiến hóa của mã di truyền từ mã di truyền gốc và mơ hồ sang mã rành mạch ("mã đông cứng"- "frozen") với danh mục 20 (+2) amino acid chính tắc được nhiều người chấp nhận.[24] Tuy nhiên lại có những ý kiến, khái niệm, cách tiếp cận và ý tưởng khác nhau, đây là cách tốt nhất để thay đổi nó bằng thực nghiệm. Thậm chí các mô hình được đề xuất để dự đoán "điểm vào" mà amino acid tổng hợp dùng để xâm nhập vào mã di truyền.[25]

Kể từ năm 2001, 40 amino acid phi tự nhiên đã được bổ sung vào protein bằng cách tạo ra một codon độc nhất (tái mã hóa) và một RNA vận chuyển tương ứng: aminoacyl – cặp tRNA-synthetase để mã hóa nó với những đặc tính hóa lý và sinh học đa dạng, với mục tiêu sử dụng như một công cụ để khám phá cấu trúc và chức năng của protein, hoặc để tạo mới hoặc tăng cường protein.[26][27] H. Murakami và M. Sisido đã mở rộng một số codon thành 4 và 5 base. Steven A. Benner thì xây dựng mã chức năng thứ 65 (in vivo).[28]

Năm 2015, N. Budisa, D. Söll và các đồng nghiệp đã thông báo sự thay thế hoàn toàn của tất cả 20.899 dư lượng tryptophan (codon UGG) bằng thienopyrrole-alanin phi tự nhiên trong mã di truyền của vi khuẩn Escherichia coli.[29] Năm 2016, sinh vật bán tổng hợp ổn định đầu tiên được tạo ra. Đó là một loại vi khuẩn (đơn bào) có hai base tổng hợp (được gọi là X và Y). Những base sống sót phân chia tế bào.[30][31] Năm 2017, các nhà nghiên cứu ở Hàn Quốc thông báo rằng họ đã tạo ra một con chuột mang mã di truyền mở rộng có thể tạo ra protein chứa amino acid phi tự nhiên.[32]

Tháng 5 năm 2019, các nhà nghiên cứu thông báo họ đã tạo ra một chủng "Syn61" mới của vi khuẩn Escherichia coli. Chủng này có bộ gen tổng hợp đầy đủ được tái cấu trúc (mọi phần chồng chéo mở rộng), tái mã hóa (loại bỏ hoàn toàn việc sử dụng ba trong số 64 codon) và được điều chỉnh thêm để loại bỏ những tRNA và các nhân tố giải phóng hiện không cần thiết. Chủng vi khuẩn này hoàn toàn sống được và phát triển chậm hơn 1,6 lần so với chủng bản sao type hoang dã "MDS42".[33][34]

Đặc tính

Những khung đọc trong trình tự DNA ở một vùng trong bộ gen ty thể ở người mã hóa cho các gen MT-ATP8MT-ATP6 (màu đen: các vị trí 8.525 đến 8.580 trong trình tự bổ sung NC_012920[35]). Có ba khung đọc có thể theo hướng 5' → 3', bắt đầu từ vị trí thứ nhất (+1), thứ hai (+2) và thứ ba (+3). Với từng mã (dấu ngoặc vuông), amino acid do mã ty thể của động vật có xương sống đem đến, bất kể là ở khung +1 với MT-ATP8 (màu đỏ) hay trong khung +3 với MT-ATP6 (màu xanh lam). Các gen MT-ATP8 chấm dứt bằng codon kết thúc TAG (chấm đỏ) ở khung +1. Gen MT-ATP6 khởi động bằng codon ATG (vòng tròn màu xanh với amino acid M) ở khung +3.

Khung đọc

Một khung đọc được xác định bởi bộ ba nucleotide đầu tiên mà dịch mã dùng để khởi động. Nó thiết lập khung cho một chuỗi các codon liên tiếp và không chồng chéo, được gọi là "khung đọc mở" (ORF). Ví dụ: chuỗi 5'-AAATGAACG-3' (như hình bên), nếu được đọc từ vị trí đầu tiên thì chứa các codon AAA, TGA và ACG; nếu đọc từ vị trí thứ hai thì nó chứa codon AAT và GAA; còn nếu được đọc từ vị trí thứ ba, nó chứa các codon ATG và AAC. Vì thế mọi trình tự có thể được đọc theo hướng 5' → 3' ở ba khung đọc, mỗi khung cho ra một trình tự amino acid riêng biệt: như trong ví dụ đã cho, lần lượt là Lys (K)-Trp (W)-Thr (T), Asn (N)-Glu (E), hoặc Met (M)-Asn (N) (khi dịch mã với mã ty thể của động vật có xương sống). Khi DNA ở dạng sợi kép, 6 khung đọc có thể được xác định, ba khung theo định hướng trên một sợi và ba khung theo hướng ngược lại trên sợi đối diện.[36]:330 Các khung mã hóa protein được xác định bởi một mã mở đầu, thường là codon AUG (ATG) đầu tiên trong trình tự RNA (DNA).[37]

sinh vật nhân chuẩn, ORF ở exon thường bị intron làm gián đoạn.[38]

Mã mở đầu và kết thúc

Dịch mã khởi đầu bằng mã mở đầu. Chỉ riêng mã mở đầu là không đủ để bắt đầu quá trình. Các trình tự gần đó như trình tự Shine-DalgarnoE. coli và các yếu tố khởi đầu cũng được yêu cầu bắt đầu dịch mã. Mã mở đầu phổ biến nhất là AUG, được đọc là methionin hoặc formylmethionin (ở vi khuẩn, ty thể và lạp thể). Các mã mở đầu chuyển đổi phụ thuộc vào sinh vật kể cả "GUG" hoặc "UUG"; những codon này thường lần lượt đại diện cho valinleucin, nhưng là dạng mã mở đầu, chúng được dịch mã thành methionin hoặc formylmethionin.[39]

Ba mã kết thúc có các tên gọi: UAG là amber, UGA là opal (đôi khi còn được gọi là umber) và UAA là ochre. Những mã kết thúc còn được gọi là mã "chấm dứt" hoặc "vô nghĩa". Chúng phát tín hiệu giải phóng polypeptide mới sinh ra từ ribosome vì không có tRNA cùng nguồn gốc nào mang các anticodon bổ sung cho các tín hiệu kết thúc này, thay vào đó cho phép một yếu tố giải phóng liên kết với ribosome.[40]

Tác động của đột biến

Những ví dụ về đột biến đáng chú ý có thể xảy ra ở người.

Trong quá trình nhân đôi DNA, đôi khi xảy ra các lỗi trong phản ứng trùng hợp ở sợi thứ hai. Những lỗi này (hay đột biến) có thể tác động đến kiểu hình của sinh vật, đặc biệt nếu chúng xảy ra trong trình tự mã hóa protein của gen. Tỷ lệ lỗi thường là 1 lỗi ở từng 10–100 triệu base—do khả năng "hiệu đính" của DNA polymerase.[41][42]

Đột biến sai nghĩađột biến vô nghĩa là những ví dụ về đột biến điểm có thể gây ra các bệnh di truyền như bệnh hồng cầu hình liềmtan máu bẩm sinh.[43][44][45] Những đột biến sai nghĩa quan trọng về mặt lâm sáng thường thay đổi các đặc tính của gốc amino acid đã mã hóa ở giữa các trạng thái cơ bản, acid, phân cực hoặc không phân cực, trong khi đột biến vô nghĩa dẫn đến một mã kết thúc.[36]

Những đột biến làm gián đoạn trình tự khung đọc bằng cách thêm bớt (thêm hoặc xóa) của một base không phải bội số của 3 nucleotide được gọi là đột biến dịch khung. Những đột biến này thường dẫn đến dịch mã hoàn toàn khác với bản gốc và có thể làm mã kết thúc được đọc, rồi nó cắt ngắn protein.[46] Những đột biến này có thể làm giảm chức năng của protein và do đó rất hiếm xảy ra trong các trình tự mã hóa protein in vivo. Một lý do làm sự di truyền của các đột biến dịch khung hiếm gặp là nếu việc protein được dịch mã là cần thiết để phát triển dưới áp lực chọn lọc mà sinh vật phải đối mặt, thì việc không có protein chức năng có thể gây ra cái chết trước khi sinh vật sống được.[47] Đột biến dịch khung có thể dẫn đến các bệnh di truyền nghiêm trọng như bệnh Tay–Sachs.[48]

Mặc dù đa số đột biến làm thay đổi trình tự protein là có hại hoặc cả lợi lẫn hại, nhưng một vài đột biến lại có lợi.[49] Những đột biến này có thể cho phép sinh vật đột biến chịu được các áp lực môi trường cụ thể tốt hơn các sinh vật hoang dã hoặc sinh sản nhanh hơn. Ở những trường hợp này, đột biến sẽ có xu hướng trở nên phổ biến hơn trong quần thể thông qua chọn lọc tự nhiên.[50] Những virus sử dụng RNA làm vật liệu di truyền của chúng có tỷ lệ đột biến nhanh;[51] đây có thể là một lợi thế, vì những virus này nhờ thế mà tiến hóa nhanh chóng và tránh được các phản ứng phòng thủ của hệ miễn dịch.[52] Ở những quần thể lớn của sinh vật sinh sản vô tính, chẳng hạn như E. coli, nhiều đột biến có lợi có thể cùng xảy ra. Hiện tượng này được gọi là giao thoa vô tính và gây ra cạnh tranh giữa các đột biến.[53]

Thoái hóa

Nhóm các codon theo thể tích mol gốc amino acid và tính kỵ nước.
Trục 1, 2, 3 là các vị trí thứ nhất, thứ hai và thứ ba trong codon. 20 amino acid và mã kết thúc (X) được thể hiện bằng mã một chữ cái.

Thoái hóa là tình trạng dư thừa của mã di truyền. Thuật ngữ này được đưa ra bởi Bernfield và Nirenberg. Mã di truyền có tính dư thừa nhưng không mơ hồ (xem bảng mã bên dưới để biết mối tương quan đầy đủ). Ví dụ, mặc dù codon GAA và GAG đều xác định acid glutamic (dư thừa), cả hai không xác định amino acid nào khác (không mơ hồ). Các codon mã hóa một amino acid có thể khác nhau ở bất kỳ chỗ nào nào trong ba vị trí của chúng. Ví dụ, amino acid leucin được xác định bởi các codon YUR hoặc CUN (UUA, UUG, CUU, CUC, CUA hoặc CUG) (khác biệt ở vị trí thứ nhất hoặc thứ ba được thể hiện nhờ sử dụng ký hiệu IUPAC), trong khi amino acid serin được xác định bởi các codon UCN hoặc AGY (UCA, UCG, UCC, UCU, AGU hoặc AGC) (khác biệt ở vị trí thứ nhất, thứ hai hoặc thứ ba).[54] Một hậu quả thực tế của tính dư thừa là các lỗi ở vị trí thứ ba của codon bộ ba chỉ gây ra đột biến thầm lặng hoặc một lỗi không ảnh hưởng đến protein vì tính ưa nước hoặc kỵ nước được duy trì bằng cách thay thế các amino acid tương đương; ví dụ, một codon của NUN (trong đó N = bất kỳ nucleotide nào) có xu hướng mã hóa cho các amino acid kỵ nước. NCN tạo ra gốc amino acid có kích thước nhỏ và tính kỵ nước vừa phải; NAN mã hóa gốc ưa nước có kích thước trung bình. Mã di truyền có cấu trúc phù hợp với tính kỵ/ưa nước đến mức một phép phân tích toán học (phép phân tích suy biến) gồm 12 biến số (4 nucleotide x 3 vị trí) mang lại một mối tương quan đáng chú ý (C = 0,95) nhằm dự đoán tính kỵ/ưa nước của amino acid được mã hóa trực tiếp từ trình tự bộ ba nucleotide, mà không có dịch mã.[55][56] Lưu ý trong bảng dưới đây, 8 amino acid hoàn toàn không bị ảnh hưởng bởi đột biến ở vị trí thứ ba của codon, trong khi ở hình phía trên, đột biến ở vị trí thứ hai có thể gây ra thay đổi cơ bản về tính chất lý hóa của amino acid đã mã hóa. Tuy nhiên, những thay đổi ở vị trí đầu tiên của codon quan trọng hơn những thay đổi ở vị trí thứ hai trên phạm vi toàn cầu.[57] Lý do có thể là đảo ngược điện tích (từ điện tích dương sang điện tích âm hoặc ngược lại) chỉ có thể xảy ra khi đột biến ở vị trí đầu tiên của một số codon nhất định, chứ không thể xảy ra khi thay đổi ở vị trí thứ hai của bất kỳ codon nào. Sự đảo ngược điện tích như vậy có thể gây ra những hậu quả nghiêm trọng đối với cấu trúc hoặc chức năng của protein. Khía cạnh này có thể từng bị các nghiên cứu trước đây đánh giá thấp.[57]

Xu hướng sử dụng codon

Tần suất của codon, còn được gọi là xu hướng sử dụng codon, có thể khác nhau giữa các loài với ý nghĩa chức năng về kiểm soát dịch mã. Codon thay đổi tùy theo sinh vật; ví dụ, codon prolin phổ biến nhất ở E. coli là CCG trong khi ở người, đây là cụm prolin ít được sử dụng nhất.[58]

Bảng tần suất codon bộ gen người[59]
CodonAA[C]Phân đoạn[D]Tần suất ‰[E]Số lượng[F]CodonAAPhân đoạnTần suất ‰Số lượngCodonAAPhân đoạnTần suất ‰Số lượngCodonAAPhân đoạnTần suất ‰Số lượng
UUUF0,4617,6714.298UCUS0,1915,2618.711UAUY0,4412,2495.699UGUC0,4610,6430.311
UUCF0,5420,3824.692UCCS0,2217,7718.892UACY0,5615,3622.407UGCC0,5412,6513.028
UUAL0,087,7311.881UCAS0,1512,2496.448UAA*0,301,040.285UGA*0,471,663.237
UUGL0,1312,9525.688UCGS0,054,4179.419UAG*0,240,832.109UGGW1,0013,2535.595
CUUL0,1313,2536.515CCUP0,2917,5713.233CAUH0,4210,9441.711CGUR0,084,5184.609
CUCL0,2019,6796.638CCCP0,3219,8804.620CACH0,5815,1613.713CGCR0,1810,4423.516
CUAL0,077,2290.751CCAP0,2816,9688.038CAAQ0,2712,3501.911CGAR0,116,2250.760
CUGL0,4039,61.611.801CCGP0,116,9281.570CAGQ0,7334,21.391.973CGGR0,2011,4464.485
AUUI0,3616,0650.473ACUT0,2513,1533.609AAUN0,4717,0689.701AGUS0,1512,1493.429
AUCI0,4720,8846.466ACCT0,3618,9768.147AACN0,5319,1776.603AGCS0,2419,5791.383
AUAI0,177,5304.565ACAT0,2815,1614.523AAAK0,4324,4993.621AGAR0,2112,2494.682
AUGM1,0022,0896.005ACGT0,116,1246.105AAGK0,5731,91.295.568AGGR0,2112,0486.463
GUUV0,1811,0448.607GCUA0,2718,4750.096GAUD0,4621,8885.429GGUG0,1610,8437.126
GUCV0,2414,5588.138GCCA0,4027,71.127.679GACD0,5425,11.020.595GGCG0,3422,2903.565
GUAV0,127,1287.712GCAA0,2315,8643.471GAAE0,4229,01.177.632GGAG0,2516,5669.873
GUGV0,4628,11.143.534GCGA0,117,4299.495GAGE0,5839,61.609.975GGGG0,2516,5669.768

Mã di truyền thay thế

Amino acid phi tiêu chuẩn

Ở một vài protein, amino acid phi tiêu chuẩn được thay thế cho mã kết thúc tiêu chuẩn, phụ thuộc vào trình tự tín hiệu liên quan trong RNA thông tin. Ví dụ, UGA có thể mã hóa cho selenocysteine còn UAG có thể mã hóa cho pyrrolysine. Selenocysteine được xem là amino acid thứ 21 còn pyrrolysine là amino acid thứ 22.[60] Không như selenocysteine, UAG do pyrrolysine mã hóa được dịch mã với sự tham gia của một synthetase aminoacyl-tRNA riêng biệt.[61] Cả selenocysteine lẫn pyrrolysine đều có thể ở cùng một sinh vật.[60] Mặc dù mã di truyền thường được cố định trong một sinh vật, sinh vật nhân sơ cổ khuẩn Acetohalobium arabaticum có thể mở rộng mã di truyền của nó từ 20 lên 21 amino acid (bằng cách chứa cả pyrrolysine) trong các điều kiện phát triển khác nhau.[62]

Biến thể

Logo mã di truyền của bộ gen ty thể Globobulimina pseudospinescens bởi FACIL.[63] Logo trình bày 64 codon từ trái sang phải, các lựa chọn báo trước có màu đỏ (so với mã di truyền tiêu chuẩn). Đường màu đỏ: mã kết thúc. Chiều cao của mỗi amino acid trong chồng xếp đặt cho thấy tần suất mà nó được xếp thẳng hàng với codon trong vực protein tương đồng. Chiều cao của chồng thể hiện hỗ trợ dự đoán.

Lúc đầu có một nhận định đơn giản và được nhiều người chấp nhận rằng mã di truyền phải có tính phổ biến: cụ thể là bất kỳ biến thể nào trong mã di truyền sẽ làm chết sinh vật (mặc dù Crick tuyên bố rằng virus là một ngoại lệ). Đây được gọi là lập luận "sự cố bất dịch" (frozen accident) về tính phổ biến của mã di truyền. Tuy nhiên, trong bài báo chuyên đề về nguồn gốc của mã di truyền năm 1968, Francis Crick vẫn tuyên bố rằng tính phổ biến của mã di truyền ở mọi sinh vật là một giả định chưa được chứng minh và có lẽ không đúng trong một vài trường hợp. Ông dự đoán rằng "Mã có tính phổ biến (giống nhau ở mọi sinh vật) hoặc gần như vậy".[64] Biến thể đầu tiên được phát hiện vào năm 1979 bởi các nhà nghiên cứu gen ty thể ở người.[65] Sau đó nhiều biến thể nhẹ đã được phát hiện,[66] bao gồm nhiều mã ty thể chuyển đổi khác nhau.[67] Ví dụ, các biến thể nhỏ này liên quan đến dịch codon UGA thành tryptophan ở các loài Mycoplasma, và dịch CUG thành serine thay vì leucine trong nấm men của "nhánh CTG" (chẳng hạn như Candida albicans).[68][69][70] Vì virus phải sử dụng chung mã di truyền làm vật chủ của chúng nên việc biến đổi mã di truyền tiêu chuẩn có thể cản trở quá trình tổng hợp hoặc hoạt động của protein virus. Tuy nhiên, các loại virus như totivirus lại thích nghi với biến đổi mã di truyền của vật chủ.[71]vi khuẩncổ khuẩn, GUG và UUG là các codon mở đầu phổ biến. Trong một số ít trường hợp, một vài protein có thể sử dụng mã mở đầu chuyển đổi.[66] Đáng ngạc nhiên là các biến thể trong giải thích mã di truyền cũng tồn tại trong các gen mã hóa nhân ở người: Năm 2016, các nhà khoa học trong lúc nghiên cứu dịch mã của malate dehydrogenase đã phát hiện ra rằng trong khoảng 4% mRNA mã hóa enzyme này, codon kết thúc được sử dụng tự nhiên để mã hóa amino acid tryptophan và arginine.[72] Kiểu mã hóa lại này ra đời do bởi mã kết thúc đọc xuyên cao[73] và nó được gọi là đọc xuyên dịch mã chức năng (functional translational readthrough).[74]

Bất chấp những khác biệt này, mọi mã xuất hiện tự nhiên mà con người đã biết rất giống nhau. Cơ chế mã hóa giống nhau ở mọi sinh vật: codon ba base, tRNA, ribosome, đọc một hướng và dịch codon đơn lẻ thành các amino acid đơn lẻ.[75] Những biến thể cực đoan nhất xảy ra ở một số tiêm mao nhất định, nơi ý nghĩa của codon kết thúc phụ thuộc vào vị trí của chúng trong mRNA. Khi ở gần đầu 3', chúng đóng vai trò là đầu cuối trong khi ở các vị trí bên trong, chúng mã hóa amino acid như trong Condylostoma magnum[76] hay kích hoạt dịch khung ribosome (ribosomal frameshifting) như ở Euplotes.[77]

Nguồn gốc và biến thể của mã di truyền (kể cả những cơ chế đằng sau khả năng tiến hóa của mã di truyền) đã được nghiên cứu sâu rộng,[78][79] một vài nghiên cứu được tiến hành bằng thực nghiệm tiến hóa mã di truyền của một số sinh vật.[80][81][82][83]

Suy luận

Mã di truyền biến thể mà một sinh vật sử dụng có thể được suy luận bằng xác định các gen bảo tồn cao được mã hóa trong bộ gen đó, rồi so sánh việc sử dụng codon của nó với amino acid trong protein tương đồng của các sinh vật khác. Ví dụ, chương trình FACIL suy luận ra mã di truyền bằng tìm xem các amino acid nào trong vùng protein tương đồng thường được đặt thẳng hàng theo từng codon nhất. Xác xuất thu được amino acid (hay mã kết thúc) ở mỗi codon được thể hiện trong một logo mã di truyền.[63]

Từ tháng 1 năm 2022, Shulgina và Eddy đã tiến hành cuộc khảo sát đầy đủ nhất về mã di truyền, họ sàng lọc 250.000 bộ gen của sinh vật nhân sơ bằng công cụ Codetta của họ. Công cụ này sử dụng cách tiếp cận tương tự như FACIL với cơ sở dữ liệu Pfam lớn hơn. Mặc dù NCBI cung cấp 33 bảng dịch mã, nhưng hai tác giả của khảo sát có thể tìm thấy 5 biến thể mã di truyền mới (được chứng thực bởi các đột biến tRNA) và sửa một số quy kết lỗi.[84]

Nguồn gốc

Mã di truyền là một phần quan trọng trong lịch sử sự sống, theo một phiên bản mà các phân tử RNA tự nhân bản có trước sự sống như chúng ta biết. Đây gọi là giả thuyết thế giới RNA. Theo giả thuyết này, bất kỳ mô hình nào về sự xuất hiện của mã di truyền đều liên quan mật thiết đến mô hình vận chuyển từ ribozyme (enzym RNA) sang protein dưới dạng enzym chính trong tế bào. Nhằm tuân theo giả thuyết thế giới RNA, các phân tử RNA vận chuyển dường như tiến hóa trước các synthetase aminoacyl-tRNA hiện đại, do đó synthetase không thể là phần giải thích cho các mô hình của nó.[85]

Một mã di truyền tiến hóa ngẫu nhiên theo giả thuyết tiếp tục thúc đẩy một mô hình sinh hóa hoặc tiến hóa về nguồn gốc của nó. Nếu amino acid được xếp ngẫu nhiên vào các codon bộ ba thì có thể có 1,5×1084 mã di truyền.[86] Con số này được tìm ra bằng phép tính số cách mà 21 món đồ (20 amino acid cộng với một mã kết thúc) có thể đựng trong 64 thùng, trong đó mỗi món đồ được sử dụng ít nhất một lần.[87] Tuy nhiên, sự phân chia các codon trong mã di truyền không ngẫu nhiên.[88] Cụ thể, mã di truyền tập hợp một số phần chia amino acid nhất định.

Những amino acid chung con đường sinh tổng hợp có xu hướng mang cùng base đầu tiên trong các codon của chúng. Đây có thể là một sự học lại tiến hóa của một mã di truyền sơ khai và đơn giản hơn với ít amino acid hơn, mà sau này đã tiến hóa để mã hóa một bộ amino acid lớn hơn.[89] Điều này cũng có thể phản ánh tính chất hóa học và không gian tác động khác đến codon trong quá trình tiến hóa của amino acid ấy. Những amino acid có tính chất vật lý tương tự cũng có xu hướng chứa các codon tương tự,[90][91] làm giảm các vấn đề mà đột biến điểm và dịch mã sai gây ra.[88]

Bằng giản đồ mã hóa bộ ba di truyền không ngẫu nhiên, một giả thuyết chấp nhận được về nguồn gốc của mã di truyền có thể giải quyết nhiều khía cạnh của bảng codon, chẳng hạn như vắng các codon cho acid D-amino, mẫu codon thứ cấp cho một số amino acid, sự hạn chế các vị trí tương đồng tới vị trí thứ ba, bộ mã nhỏ chỉ có 20 amino acid (thay vì một số bộ có gần 64 amino acid) và mối quan hệ của các mẫu mã kết thúc với các mẫu mã hóa amino acid.[92]

Có ba giả thuyết chính nhắc đến nguồn gốc của mã di truyền. Nhiều mô hình thuộc về một trong số chúng hoặc kết hợp nhiều giả thuyết:[93]

  • Đóng băng ngẫu nhiên (Random freeze): mã di truyền được tạo ra ngẫu nhiên. Ví dụ, những ribozym kiểu tRNA ban đầu có thể mang các ái lực khác nhau đối với amino acid; các codon xuất hiện từ một phần khác của ribozyme thể hiện tính biến đổi ngẫu nhiên. Khi đã mã hóa đủ peptide, bất kỳ biến đổi ngẫu nhiên lớn nào trong mã di truyền đều có thể gây chết người; do đó nó trở thành "đóng băng" (frozen).[94]
  • Ái lực hóa lập thể (Stereochemical affinity): mã di truyền là kết quả của ái lực cao giữa mỗi amion acid và codon hoặc cụm đối mã của nó; lựa chọn của cụm đối mã ngụ ý rằng những phân tử tiền tRNA khớp với các amino acid tương ứng của chúng bằng ái lực này. Sau đó trong quá trình tiến hóa, sự tương thích này dần bị thay thế bằng sự tương hợp của synthetase aminoacyl-tRNA.[92][95][96]
  • Tính tối ưu (Optimality): mã di truyền tiếp tục tiến hóa sau lần tạo đầu tiên, vì thế mã hiện tại tối đa hóa một vài chức năng thích ứng, thường là một số loại giảm thiểu lỗi.[92][93][97]

Các giả thuyết đã xử lý nhiều tình huống khác nhau:[98]

  • Những nguyên tắc hóa học chi phối tương tác cụ thể của RNA với amino acid. Những thí nghiệm với aptamer cho thấy rằng một vài amino acid sở hữu ái lực hóa chọn lọc đối với codon của chúng.[99] Các thí nghiệm cho thấy rằng trong số 8 amino acid được thử nghiệm, 6 amino acid thể hiện sự liên kết giữa bộ ba amino acid của RNA.[86][96]
  • Mở rộng sinh tổng hợp. Mã di truyền phát triển từ một mã đơn giản hơn trước đây thông qua quá trình "mở rộng sinh tổng hợp". Sự sống nguyên thủy "khám phá" ra những amino acid mới (ví dụ như các sản phẩm phụ của trao đổi chất) và rồi kết hợp một vài trong số này vào bộ máy mã hóa di truyền.[100] Mặc dù nhiều bằng chứng gián tiếp đã được tìm thấy cho thấy rằng trước đây ít loại amino acid được sử dụng hơn,[101] những giả thuyết chính xác và chi tiết về amino acid nào được đưa nhập mã theo thứ tự ra sao đang gây tranh cãi.[102][103] Tuy nhiên, một số nghiên cứu cho rằng Gly, Ala, Asp, Val, Ser, Pro, Glu, Leu, Thr có thể thuộc nhóm amino acid bổ sung đầu, trong khi Cys, Met, Tyr, Trp, His, Phe có thể thuộc nhóm thành nhóm amino acid bổ sung sau.[104][105][106][107]
  • Chọn lọc tự nhiên đã dẫn đến phân chia codon của mã di truyền nhằm giảm thiểu tác động của đột biến.[108] Một giả thuyết gần đây[109] đề xuất rằng mã bộ ba bắt nguồn từ những mã sử dụng lâu hơn codon bộ ba (chẳng hạn như codon bộ bốn). Thời gian giải mã bộ ba dài hơn sẽ làm tăng dư thừa codon và có khả năng kháng lỗi cao hơn. Tính năng này có thể cho phép giải mã chính xác khi không có bộ máy dịch mã phức tạp như ribosome, chẳng hạn như trước khi tế bào bắt đầu tạo ra ribosome.
  • Kênh thông tin: Lý thuyết thông tin tiếp cận mô hình hóa quá trình dịch mã di truyền thành các amino acid tương ứng như một kênh thông tin dễ gây lỗi.[110] Tiếng ồn vốn có (tức là lỗi) trong kênh đặt ra cho sinh vật một câu hỏi cơ bản: làm thế nào mà một mã di truyền có thể được xây dựng để chống tiếng ồn,[111] mà vẫn dịch thông tin chính xác và hiệu quả? Những mô hình "biến dạng tỷ lệ" này[112] cho rằng mã di truyền bắt nguồn từ tương tác của ba lực tiến hóa xung đột: nhu cầu amino acid đa dạng, [113] khả năng chịu lỗi[108] và phí nguồn sống tối thiểu. Mã xuất hiện tại một đồng hoán khi xây dựng bản đồ codon thành amino acid không hề ngẫu nhiên. Sự xuất hiện của mã mà tô pô chi phối được xác định bởi những lỗi có thể xảy ra và liên quan đến vấn đề tô màu bản đồ.[114]
  • Lý thuyết trò chơi: Những mô hình dựa trên trò chơi ra tín hiệu kết hợp các yếu tố của lý thuyết trò chơi, chọn lọc tự nhiên và kênh thông tin. Những mô hình như vậy đã được sử dụng để đề xuất rằng các polypeptide đầu tiên dường như ngắn và không có chức năng enzym. Những mô hình thuyết trò chơi cho rằng việc tổ chức các chuỗi RNA vào tế bào có thể là cần thiết để ngăn chặn sử dụng mã di truyền "lừa bịp", tức là ngăn chặn các loại virus tương đương cổ đại lấn át thế giới RNA.[115]
  • Mã kết thúc: Những cụm dịch mã kết thúc cũng là một khía cạnh thú vị đối với vấn đề nguồn gốc của mã di truyền. Dưới dạng ví dụ để giải quyết tiến hóa của mã kết thúc, các nhà khoa học Cho rằng codon kết thúc như vậy để cho chúng có nhiều khả năng kết thúc dịch mã sớm trong trường hợp xảy ra lỗi dịch khung.[116] Ngược lại, một số mô hình phân tử hóa lập thể giải thích nguồn gốc của các mã kết thúc là "không gắn được".[92]

Xem thêm

  • Danh sách phần mềm kỹ thuật di truyền
  • Bảng codon

Chú thích

Đọc thêm

Liên kết ngoài