Hiện nay xu thế chung của khoa học là kết hợp những ngành khoa học lại với nhau và vì thế một số ngành khoa học ra đời dựa vào sự kết hợp trên nhiều lĩnh vực. Tin sinh học là một minh chứng điển hình sự kết hợp giữa: Bio - Sinh học, infor - Công nghệ thông tin, matic - Toán học, ngoài ra còn kết hợp với các lĩnh vực khác.
Khi ta bắt đầu tìm hiểu một ngành học nào đó. Thì hiểu được lịch sử của ngành học sẽ rất hữu ích để giúp có một cái nhìn sâu rộng hơn về nghiên cứu hiện tại hay xa hơn là liên hệ đến tương lai. Và vì thế, ở bài viết đầu tiên về tin sinh học, chúng ta sẽ cùng tìm hiểu về lịch sử hình thành. Nhưng trước tiên ta phải tìm hiểu khái niệm tin sinh học.
Tin sinh học là gì?
Theo định nghĩa của Luscombe Metal cùng các cộng sự, Tin sinh học là lĩnh vực liên quan đến sử dụng công nghệ trên máy tính để lưu trữ, truy xuất, thao tác và phân phối thông tin, mà đối tượng là các đại phân tử trong sinh học như DNA, RNA, và Protein. Điểm nhấn trong lĩnh vực là sử dụng máy tính bởi vì hầu hết các công việc phân tích dữ liệu gen được lặp đi lặp lại rất nhiều hoặc phức tạp về mặt toán học, nhằm mục đích khai thác và xây dựng kiến thức thông tin bộ gen.
Lịch sử hình thành:
Sự phát triển của tin sinh học là kết quả cho sự tiến bộ trong lĩnh vực sinh học phân tử và khoa học máy tính trong hàng chục vừa qua. Mặc dù, quá trình chi tiết sẽ không được đề cập, nhưng những mốc thời gian và sự kiện mang tính bước ngoặt đã có tác động đến sự phát triển của tin sinh học được trình bài ở đây để hiểu rõ hơn về bối cảnh.
Những nỗ lực của tin sinh học sớm nhất bắt nguồn từ năm 1960. Ở thời điểm này, chưa xuất hiện từ ngữ “Bioinformatics”.
Năm 1965, dự án tin sinh học lớn đầu tiên được thực hiện bởi Margaret Dayhoff, người đã phát triển cơ sở dữ liệu trình tự chuỗi protein đầu tiên được gọi là Atlas of Protein Sequence and Structure.
<i>Margaret Dayhoff (1925 - 1983) nhà Hóa lý, tiên phong trong lĩnh vực tin sinh học.</i>
Margaret Dayhoff (1925 - 1983) nhà Hóa lý, tiên phong trong lĩnh vực tin sinh học.
Đầu những năm 1970 phòng thí nghiệm quốc gia Brookhaven ( thuộc Bộ năng lượng Hoa kì) thành lập năm hàng dữ liệu protein để lưu trữ cấu trúc protein ba chiều. Khi bắt đầu, cơ sở dữ liệu lưu trữ chưa đến 12 protein, và hiện nay (2006) là 30.000 cấu trúc. Cũng trong năm 1970, thuật toán bắt cặp trình tự đầu tiên được phát triển bởi Needle Man và Wunsch đặt nền móng cho sự phát triển của lĩnh vực tin sinh học, mở ra con đường so sánh, bắt cặp trình tự và tìm kiếm cơ sở dữ liệu cho những nhà sinh học hiện đại.
Thuật toán dự đoán cấu trúc protein đầu tiên được thực hiện bởi Chou và Fasman vào năm 1974. Thuật toán này là tiên phong cho một loạt các phong trào phát triển trong dự đoán cấu trúc protein.
Năm 1980, thành lập GenBank và phát triển các thuật toán tìm kiếm cơ sở dữ liệu nhanh như FASTA bởi Wiliam Pearson và BLAST bởi Stephen Altschul và đồng nghiệp. Sự khởi đầu của dự án Bộ gen người vào cuối năm 1980 đã tạo ra một thúc đẩy lớn cho phát triển lĩnh vực tin sinh học.
Đến những năm 1990, sự phát triển và sử dụng rộng rãi internet đã giúp trao đổi, truy cập và truyền đạt dễ dàng dữ liệu sinh học, mở ra một thời kì phát triển mạnh mẽ đến ngày nay.
Tin sinh học đã có những bước tiến vượt bậc do sự tiến bộ của các nghiên cứu về gen đã tạo ra những dữ liệu sinh học với số lượng lớn chưa từng có. Sự bùng nổ của thông tin trình tự bộ gen đã phát sinh ra nhu cầu tăng cao đột ngột những công cụ tính toán hiệu quả để tính toán và quản lí dữ liệu. Những công tự tính toán được phát triển dựa trên nhiều kiến thức đa ngành bao gồm vực toán học, thống kê, khoa học máy tính, công nghệ thông tin và sinh học phân tử. Sự hợp nhất của các ngành này đã tạo ra ngành định hướng thông tin trong sinh học, ngày nay được gọi là tin sinh học.
Những thông tin kiến thức trong bài viết được dựa trên cuốn ESSENTIAL BIOINFORMATICS - Jin Xiong (2006).
Tài liệu tham khảo
Bài viết rất mong nhận được sự nhận xét, góp ý của người đọc dưới tinh thần học thuật để khắc phục những thiếu sót và rút kinh nghiệm để có những bài viết tốt hơn sau này. Trân trọng cảm ơn.