본문 바로가기
생물학

NCBI ; FASTA 형식

by 직장인U 2021. 12. 28.
728x90
반응형

NCBI (National Center ofr Biotechnololgy Information)은 미국 국립생물공학정보센터로, 생명공학 & 생명의학과 관련된 데이터베이스를 보유하고 있다. 주요 DB로는 DNA 서열에 대한 GenBank와 논문과 관련하여 PubMed가 있다.

 

NCBI 에서 주로 사용하게 되는 건 DNA 서열 및 단백질 서열을 활용하는 데 사용하는 데, NCBI에서는 DNA 서열 및 단백질 서열을 텍스트 기반으로 나타낸 FASTA 형식으로 제공한다.

 

2019년 코로나 바이러스 (SARS-CoV-2) 를 예를 들어 살펴보자.

NCBI 홈페이지(National Center for Biotechnology Information (nih.gov))에 들어가서 검색창에 SARS-CoV-2를 타이핑 후 검색을 누르면 다음과 같은 창이 뜬다.

 

SARS-CoV-2 의 전체 서열이 궁금하다면, 위의 창에서 하늘색으로 표시 된 Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) reference genome을 클릭하면 아래와 같은 창으로 넘어가고, NCBI Reference Sequence 아래에 FASTA 라고 적혀있는 것을 확인할 수 있다.

FASTA를 클릭하면, 아래와 같이 꺽쇠기호(>)로 시작되고, 그 아래에 DNA 혹은 단백질 sequence를 담는다.

이 서열은 Send to를 통해 fasta 파일로 받을 수 있다.

FASTA 서열은 형식과 구성이 단순해서 text processing tool, R 언어, 파이썬 등으로 분석을 할 떄 유용하다.

 

Sequence representation

 

*nucleic acid를 나타내는 코드는 다음과 같다.

* Amino acid를 나타내는 코드는 다음과 같다.

 

반응형

댓글