NCBI (National Center ofr Biotechnololgy Information)은 미국 국립생물공학정보센터로, 생명공학 & 생명의학과 관련된 데이터베이스를 보유하고 있다. 주요 DB로는 DNA 서열에 대한 GenBank와 논문과 관련하여 PubMed가 있다.

NCBI 에서 주로 사용하게 되는 건 DNA 서열 및 단백질 서열을 활용하는 데 사용하는 데, NCBI에서는 DNA 서열 및 단백질 서열을 텍스트 기반으로 나타낸 FASTA 형식으로 제공한다.
2019년 코로나 바이러스 (SARS-CoV-2) 를 예를 들어 살펴보자.
NCBI 홈페이지(National Center for Biotechnology Information (nih.gov))에 들어가서 검색창에 SARS-CoV-2를 타이핑 후 검색을 누르면 다음과 같은 창이 뜬다.

SARS-CoV-2 의 전체 서열이 궁금하다면, 위의 창에서 하늘색으로 표시 된 Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) reference genome을 클릭하면 아래와 같은 창으로 넘어가고, NCBI Reference Sequence 아래에 FASTA 라고 적혀있는 것을 확인할 수 있다.

FASTA를 클릭하면, 아래와 같이 꺽쇠기호(>)로 시작되고, 그 아래에 DNA 혹은 단백질 sequence를 담는다.

이 서열은 Send to를 통해 fasta 파일로 받을 수 있다.
FASTA 서열은 형식과 구성이 단순해서 text processing tool, R 언어, 파이썬 등으로 분석을 할 떄 유용하다.
Sequence representation
*nucleic acid를 나타내는 코드는 다음과 같다.

* Amino acid를 나타내는 코드는 다음과 같다.

'생물학' 카테고리의 다른 글
Primer design (프라이머 디자인) (0) | 2025.04.16 |
---|---|
PCR (Polymerase Chain Reaction) ; 중합효소연쇄반응 원리 (0) | 2025.04.16 |
실험노트, 연구노트 작성방법 및 양식 (0) | 2022.11.06 |
댓글