NCBI-2-protein sequence(단백질 서열) 찾기
3번째 포스트로 찾고자 하는 단백질 서열을 찾는방법을 알아보겟습니다.
-----------------------------------------------------------------------------------
일단 찾고자 하는 단백질의 알아야 하겟죠. 제가 찾을 단백질 서열은 인간의 Isocitrate dehydrogenase 1 입니다. 약어는 IDH1 라고 합니다.
그럼 직접 NCBI에서 찾아보겠습니다.
▼우선 검색 메뉴를 protein으로 설정해줍니다.
그후 찾고자 하는 단백질을 적어줍니다.
▼저는 Isocitrate dehydrogenase 1 으로 단백질의 full name을 적어주었습니다.
▼그후 검색버튼을 누루면 아래의 화면과 같이 Isocitrate dehydrogenase 1 단백질이 검색됩니다.
검색결과가 굉장히 많습니다. 8993개를 찾았다고 하네요...
그런데 내가 찾고자하는것은 인간의 Isocitrate dehydrogenase 1입니다.
다른 종들의 Isocitrate dehydrogenase 1은 검색대상에서 제외시켜줘야 하겟죠..
▼아래와 같이 찾고자하는 종을 찾아줍니다. homo sapiens가 보이네요 인간의 학명이죠...
▼페이지가 바뀌며 인간의 Isocitrate dehydrogenase 1만 검색됩니다. 1 번에 바로 검색이 되었네요 대부분 바로 검색이 되지만 그렇지 못한 경우도 있습니다.
그런데 의문점이 있죠. 약어로 검색하면 같은결과가 나올까 하는 의문점입니다.
▼직접 비교하여 보여드리겟습니다. 약어인 IDH1으로 검색한 결과입니다.
Isocitrate dehydrogenase 1과 IDH1의 검색결과가 다릅니다. 왜 일까요?
NCBI에 올라오는 모든 정보들은 주로 reference가 논문입니다. 따라서 논문에 쓰여진 정보에 따라서 NCBI에 등재됩니다.
Isocitrate dehydrogenase 1 으로 적혀진 reference 논문에 의해서 올라온 정보와, IDH1 으로 올라온 reference 논문에 쓰여진 정보가 다르다는 것이죠. 이것은 직접 들어가서 확인해보시면 알수있습니다.
▼Isocitrate dehydrogenase 1 으로 검색된 결과를 확인해보겟습니다. 검색결과를 클릭해서 들어오시면 됩니다.
검색결과를 보시면 빨간줄 처있는 부분이 isocitrate dehydrogenase 1, partial [Homo sapiens]. 라고 적혀있는것을 보실수 있습니다. 여기에 partial이라는 단어가 들어가 있습니다. 의미그대로 불완전한 이라는 의미를 가진것으로 이 검색결과는 불완전한 단백질 서열을 보여줍니다.
▼그렇다면 IDH1으로 검색된 결과는 어떨까요? 정확한 검색결과가 3개 나오지만 3개보누 앞서 말씀드린데로 reference 가 서로 다릅니다. 저는 그중 맨 첫번째로 검색된 결과로 들어갔습니다.
이번 결과는 IDH1 [Homo sapiens].라고 적혀있습니다. 대부분 이런 경우 protein의 full sequence 가지고 있습니다. 또는 IDH1 [Homo sapiens]. complete 이런식으로 complete라는 단어가 붙기도 합니다.
자 그렇다면 여기서 우리가 알아야 할 것이 있습니다. 위에서 처음부터 Isocitrate dehydrogenase 1 으로만 검색한 결과를 가지고 살펴보앗따면 완벽한 서열을 가진 정보를 찾을 수 없었을것입니다. 오히려 약어인 IDH1으로 검색하였을때 완벽한 서열을 가진 정보를 얻을수 있었습니다.
따라서 protein sequence를 검색하기 위해서는 protein의 full name과 약어(symbol)을 모두 알아야 한다는 것입니다.
▼이어서 protein의 sequence를 확인해보겟습니다. 검색결과는 IDH1으로 입력한 검색결과입니다. 이 결과를 휠로 내려보면 맨 마지막에 protein의 sequence가 적혀있습니다.
-----------------------------------------------------------------------------------
이번 포스트는 여기까지 입니다.
다음 포스트는 NCBI에서 원하는 DNA의 서열을 보는법을 알려드리겠습니다.
부족한 부분이 많지만 댓글로 추가할 부분을 알려주시면 최대한 알려드릴 수 있도록 노력하겠습니다.
출처