Codetta - chương trình máy tính có thể giải mã di truyền

Bảo Ninh

06:00 - 13/11/2021

Yekaterina Shulgina, Trường Khoa học và Nghệ thuật (Mỹ) đã hoàn thành dự án với một phương pháp giải mã di truyền. Nghiên cứu của cô được công bố chi tiết trên tạp chí eLife cùng với Sean Eddy, nhà sinh học tại Harvard.

Báo cáo cho biết, chương trình máy tính mới có khả năng đọc và giải mã trình tự gene của bất cứ cơ thể sống nào. Chương trình này, có tên là Codetta, có tiềm năng trợ giúp các nhà khoa học trong việc mở rộng hiểu biết về cách mã gene tiến hóa và trong việc phiên mã chính xác mã gene có trình tự mới ở một số sinh vật
Mã di truyền là một chuỗi các quy luật thông báo cho tế bào cách để dịch một tổ hợp 3 phân tử nucleotide thành protein, thường được nhắc đến như là những viên gạch của sự sống. Hầu hết mọi sinh vật, từ vi khuẩn E. coli đến con người, đều sử dụng chung mã di truyền. Đây là lí do vì sao mã di truyền từng được cho rằng là cố định. Nhưng các nhà khoa học đã phát hiện ra rất nhiều ngoại lệ - các sinh vật sử dụng mã di truyền thay thế.
Chương trình này có thể giúp khám phá ra những sinh vật có thể đang sử dụng mã di truyền thay thế.
Tới nay, Codetta đã phân tích trình tự gene của hơn 250.000 vi khuẩn và các sinh vật đơn bào khác gọi là các vi khuẩn cổ để tìm các mã di truyền thay thế và đã xác định được hơn 5 mã chưa từng được ghi nhận trước đây.

Trong cả 5 trường hợp, mã di truyền của amino axit Arginine phiên mã ra một amino axit khác. Đây được cho là cột mốc đánh dấu lần đầu tiên các nhà khoa học ghi nhận sự tráo đổi này ở vi khuẩn và có thể là manh mối giúp ta khám phá những tiến hóa sẽ tham gia thay đổi mã di truyền.
Theo các nhà nghiên cứu, đây có thể tạo ra bước ngoặt trong lĩnh vực nghiên cứu mã di truyền thay thế.
Shulgina đã mất 5 năm để phát triển các lý thuyết thống kê cho Codetta, viết chương trình, thử nghiệm và phân tích các bộ gene. Codetta hoạt động bằng cách đọc trình tự gene của sinh vật, sau đó liên hệ với nguồn dữ liệu về các protein đã biết để đưa ra một mã di truyền.
“Việc phát hiện ra các mã gene mới là rất tuyệt vời”, Eddy nói. Ông cũng lưu ý rằng hệ thống này có tiềm năng trong việc đảm bảo độ chính xác của nhiều cơ sở dữ liệu lưu trữ trình tự protein.
“Nhiều trình tự protein trong các cơ sở dữ liệu ngày nay chỉ mang tính phiên dịch lý thuyết các trình tự di truyền ADN”, Eddy nói. “Con người sử dụng những trình tự protein này trong mọi thứ, như tìm ra các enzym mới hay các công cụ sửa chữa gene mới. Vì vậy việc những trình tự protein đó phải chính xác là rất cần thiết, nhưng nếu một sinh vật sử dụng mã không tiêu chuẩn, chúng sẽ bị phiên dịch sai”
Các nhà nghiên cứu cho biết, bước tiếp theo là sử dụng Codetta để tìm kiếm các mã di truyền thay thế trong virus, sinh vật nhân chuẩn và các bộ gene của bào quan như ti thể và lục lạp.

Theo Scitechdaily