Tin sinh học - Phạm vi, hạn chế, tương lai và xu hướng phần 3
Những khía cạnh về phạm vi, hạn chế, tương lai và xu hướng của tin sinh học.
Trong bài viết tin sinh học trước (phần 2), chúng ta đã tìm hiểu mục tiêu và ứng dụng của tin sinh học. Ở bài viết tiếp theo này, ta sẽ tìm hiểu thêm những khía cạnh về phạm vi, hạn chế, tương lai và xu hướng của tin sinh học.
Phạm Vi
Trong lĩnh vực Tin sinh học có hai vùng phạm vi chính: Một vùng là phát triển các công cụ tính toán và cơ sở dữ liệu. Vùng phạm vi còn lại là áp dụng những công cụ tính toán và cơ sở dữ liệu cho việc khám phá những kiến thức sinh học giúp hiểu rõ về hệ thống sống.
Công việc của phát triển công cụ tính toán là viết các phần mềm dùng để phân tích trình tự, cấu trúc, chức năng, cũng như xây dựng và quản lý dữ liệu. Những phần mềm được phát triển sử dụng trong ba lĩnh vực nghiên cứu về gen và sinh học phân tử: Phân tích trình tự phân tử, phân tích cấu trúc phân tử và phân tích chức năng phân tử. Phân tích dữ liệu sinh học thường tạo ra những vấn đề và thách thức mới, từ đó kéo theo sự ra đời, phát triển của những công cụ mới và tốt hơn.
Ba lĩnh vực nghiên cứu về gen và sinh học phân tử:
Phân tích trình tự bao gồm bắt cặp trình tự (Sequence aligment), tìm kiếm cơ sở dữ liệu (sequence database searching), khám phá mô típ và tạo ra mô hình (motif and pattern discovery), gen và xác định trình tự khởi động (gene and promoter finding), xây dựng lại các mối liên hệ từ gen đến protein (reconstruction of evolutionary relationships), lắp ráp bộ gen và so sánh (genome assembly and comparison).
Phân tích cấu trúc bao gồm có phân tích cấu trúc protein và acid nucleic (protein and nucleic acid structure analysis), so sánh (comparison), phân loại (classification) và dự đoán cấu trúc (prediction).
Phân tích chức năng bao gồm hồ sơ biểu hiện gen (gene expression profiling), dự đoán sự tương tác giữa protein – protein (protein– protein interaction prediction), dự đoán nơi hình thành protein trong tế bào (protein subcellular localization prediction), xây dựng con đường trao đổi chất (metabolic pathway reconstruction) và mô phỏng lại ( Hình 1.1).
Ba khía cạnh phân tích phân tích trong tin sinh học không phải độc lập với nhau mà chúng có mối quan hệ tích hợp để cho ra kết quả nghiên cứu.[1]
Hạn chế
Bên cạnh nhận thức được sức mạnh của tin sinh học, điều quan trọng không kém là nhận biết những hạn chế của nó để tránh phụ thuộc quá nhiều và kỳ vọng quá mức với những gì tin sinh học mang lại.
Trên thực tế, tin sinh học vốn có một số hạn chế. Vai trò của tin sinh học trong nghiên cứu bộ gen và sinh học phân tử có thể được ví như vai trò của thông tin tình báo trong các trận chiến. Ta chiến đấu trong một trận chiến mà không có thông tin tình báo là không hiệu quả và nguy hiểm. Có thông tin với khả năng đúng cao và tư duy chính xác sẽ giúp sẽ giúp xác định điểm yếu của kẻ thù, tiết lộ chiến lược và ý định của đối phương. Từ đó, thông tin thu thập được có thể được sử dụng chỉ dẫn các lực lượng tham gia (nghiên cứu thực nghiệm) để đánh địch và giành lấy chiến thắng. Tuy nhiên, nếu dựa vào hoàn toàn những thông tin cũng có thể gây nguy hiểm nếu độ chính xác bị hạn chế. Sự phụ thuộc quá mức và thông tin chất lượng kém cho thể mang lại những sai lầm gây tốn kém thậm chí là thất bại hoàn toàn.
Bên cạnh đó, Tin sinh học và sinh học thực nghiệm đều là những lĩnh vực hoạt động độc lập nhưng bổ sung cho nhau. Tin sinh học dựa vào khoa học thực nghiệm để có những dữ liệu cơ sở ban đầu. Sau đó, nó đưa ra giải thích hữu ích về dữ liệu thực nghiệm thu được và những hướng đi tiềm năng trong nghiên cứu thực nghiệm tiếp đó. Những dự đoán trong tin sinh học không phải là bằng chứng chính thức để kết luận, mà phải trải qua nghiên cứu bằng phương pháp thực nghiệm về những dự đoán trên. Thêm vào đó, chất lượng dự đoán tin sinh phụ thuộc vào chất lượng dữ liệu và thuật toán được sử dụng. Dữ liệu trình tự từ phân tích thông lượng cao thường chứa lỗi. Nếu trình tự sai hoặc ghi chép không chính xác thì kết quả phân tích sau đó sẽ bị sai lệch. Đó là lý do tại sao sinh học thực nghiệm lại rất quan trọng để duy trì tính chính xác của tin sinh học.
Tin sinh học chưa phải là một lĩnh vực phát triển vững mạnh. Hầu hết các thuật toán đều thiếu khả năng và chuyên sâu để tái hiện lại thực tế. Thường đưa ra những dự đoán không chính xác, vô nghĩa khi đặt trong bối cảnh sinh học. Các lỗi trong căn chỉnh trình tự, có thể ảnh hưởng đến kết quả phân tích cấu trúc và phát sinh gen. Kết quả tính toán cũng phải phụ thuộc vào khả năng tính toán có sẵn. Nhiều thuật toán rất chính xác trong nghiên cứu nhưng không thể sử dụng do tốc độ tính toán chậm. Thay vào đó, các thuật toán ít độ chính xác hơn sẽ được sử dụng. Đây là sự đánh đổi cần thiết cho tính chính xác và tính khả thi.
Do đó, phải luôn luôn ghi nhớ những nguy cơ mà các lỗi tạo ra trong các chương trình tin sinh học, cần luôn luôn thận trọng khi giải thích kết quả dự đoán. Một thói quen tốt khi bạn sử dụng nhiều chương trình tính toán. Nếu các chương trình này có sẵn, hãy thực hiện đánh giá trên nhiều chương trình. Một dự đoán chính xác hơn nếu ta đều nhận được những kết quả tương đồng khi đối chiếu trên nhiều thuật toán khác nhau.[2]
Tương Lai
Bỏ qua những hạn chế ở trên thì không còn nghi ngờ gì khi nói rằng tin sinh học là một lĩnh vực tiềm năng lớn để tạo ra cuộc cách mạng trong nghiên cứu sinh học trong những thập kỷ tới. Hiện tại, lĩnh vực này đang được mở rộng. Ngoài việc cung cấp những công cụ tính toán đáng tin cậy và chặt chẽ hơn cho phân tích trình tự, cấu trúc và chức năng như hiện nay thì bên cạnh đó vẫn còn nhiều thách thức lớn cho sự phát triển tin sinh học trong tương lai là phát triển ra nhưng công cụ thể hiện được chức năng và tương tác của tất cả các sản phẩm của gen trong tế bào. Đây là một thách thức vô cùng to lớn bởi vì nó đòi hỏi sự tích hợp của các kiến thức sinh học trong nhiều lĩnh vực khác nhau và một loạt các công cụ toán học, thống kê phức tạp. Để ta có thể hiểu sâu hơn về các chức năng của tế bào, các mô hình toán học là điều cần thiết để mô phỏng lại một loạt các phản ứng và tương tác ở cấp độ tế bào, mô phỏng cấp phân tử của tất cả các quá trình tế bào được gọi là hệ thống sinh học (Systems Biology). Đạt được mục tiêu này sẽ là một bước tiến lớn để trong công cuộc hiểu biết đầy đủ về một hệ thống sống. Đó là lý do tại sao mô phỏng và tích hợp các cấp độ hệ thống sống là tương lai của tin sinh học. Mô hình hóa kết nối các hệ thống phức tạp và đưa ra những dự đoán về hành vi của mô hình vừa là những thử thách to lớn và cũng là cơ hội cho các nhà tin sinh học. Mục tiêu cuối cùng của tất cả nỗ lực trên, biến đổi sinh học từ khoa học định tính sang khoa học định lượng và dự đoán. Đây mới chính là thời gian thú vị cho tin sinh học.[3]
Xu hướng:
Xu hướng mong muốn về năng lực của các nhà sinh học. Biểu đồ này mô tả về những thay đổi tỷ lệ của các nhà sinh học với mức độ khác nhau về năng lực tin sinh học của các nhà nghiên cứu hiện tại và trong tương lai.
Đường hình vuông màu hồng đại diện cho tình hình hiện tại và hình tam giác màu xanh đại diện cho một xu hướng tương lai mong muốn. Năng lực tin sinh học được thể hiện ở độ dốc từ 1 đến 10, trong đó cấp 1 đại diện cho các nhà sinh học có mức độ kỹ năng tin sinh là sử dụng PubMed và GenBank và cấp 10 biểu thị các nhà sinh học tự túc trong việc quản lý, khai thác và phân tích tất cả dữ liệu có sẵn, bao gồm viết thuật toán và tạo cơ sở dữ liệu.[4]
Tài liệu tham khảo:
[1] Jin Xiong, 2006, Scope, Essential Bioinformatics, Cambridge University Press, New York, vol.1, p.5.
[2] Jin Xiong, 2006, Limitations, Essential Bioinformatics, Cambridge University Press, New York, vol.1, p.7.
[3] Jin Xiong, 2006, New themes, Essential Bioinformatics, Cambridge University Press, New York, vol.1, p.8.
[4] Seung Yon Rhee, 2005, Bioinformatics. Current Limitations and Insights for the Future, Plant Physiology, American Society of Plant Biologists, Vol. 138, pp. 569–570.
Khoa học - Công nghệ
/khoa-hoc-cong-nghe
Bài viết nổi bật khác
- Hot nhất
- Mới nhất