7번재 포스트 입니다.


7번재 포스트에서는 PubMed를 사용하여 기초적인 논문 검색을해보도록 하겠습니다.


-----------------------------------------------------------------------------------


PubMed란?

PubMed Central(PMC)은 미국보건부(NIH)산하 미국국립의학도서관(NLM)에서 운영하고 있는 바이오의학 및 생명공학분야 디지털 아카이브이다. PMC는 National Center for Biotechnology Information(NCBI)에서 제공하는 의학학술지 전문 전자 보존 데이터베이스로 2009년 2월 25일 현재 537종의 영문학술지가 등재되었다. PMC는 미국국립의학도서관에서 설립하여 NIH의 기금 지원으로 생산된 연구성과물의 중앙아카이브로서 생의학, 임상연구분야의 핵심출판물의 관리를 통해 장기적 보존을 담당하고 있다.또한 NIH 연구성과물을 공공접근정책(Public Access Polict)에 의해 전세계 누구나 이용할 수 있도록 무료로 제공하고 있다. PMC는 NIH 공공접근 정책에 의해 연구비 지원을 받은 연구성과 논문으로 학술지 편집위원의 논문 심사를 통과한 최종본과 PMC 학술지표준에 부합되는 것만을 수집하여 제공한다.

즉, 간단히 말해서 PubMed는 바이오의학 및 생명공학분야의 논문을 저장한 곳이라 보면 됩니다.


본격적으로 원하는 논문을 찾아보겠습니다. 간단하게 대장암에 대한 논문을 찾아보겠습니다.


▼NCBI 대문 화면입니다. 검색메뉴에서 PubMed를 선택해주세요


▼이후 원하는 검색어를 적어주세요. 저는 대장암의 한종류인 colon cancer를 적어보았습니다 (영문검색만 지원됩니다)


▼검색어를 적으신후 search를 누루시면 아래와 같은 화면이 뜹니다. 빨간 테두리가 검색결과입니다.


▼간혹 검색결과에는 아래와 같이 abstract이 존재하지 않아 제목만 있는 경우가 있습니다.


보통 Abstract이 없으면 논문제목만 가지고 어떤내용인지 파악해야하기때문에 논문의 전체적인 내용을 알수 없습니다.

따라서 저는 Abstrac이 없는 경우를 검색결과에서 제외시킵니다.

Abstract이 없는 경우는 저자가 허용하지 않았았을경우, 등재 대기중인 경우 등... 다양한 이유가 있다고 합니다

(자세한 사항은 모르겠네요)


▼Abstract이 없는 논문을 제외시켜보겠습니다.


왼쪽의 메뉴에서 Abstract이 있는것만 체크해주시면 자동으로 재검색 됩니다.

간단한 조작으로 검색결과가 99000개에서 77000개로 줄어들었습니다. 따라서 좀더 논문검색의 정확도가 높아졌다고 볼 수 있습니다.

일반적으로 논문을 보기 위해서는 저자가 free로 하지 않는이상 일정료의 구독료를 지불해야 합니다.

하지만 논문을 구독할 여력이 안되는 경우 구독료가 free인 논문을 검색해야 겠습니다.


▼왼쪽 메뉴에서 전과 같은 방법으로 free full text available을 선택해주시면 됩니다. (중복 선택 가능합니다)


왜 저자들이 Free 로 논문을 올리느냐 물어보실 수 있는데요, 논문을 누구나 열람 가능하도록 인해서 구독해야하는 논문보다는 다수의 사람들에게 공개되어 지고, 논문을 다수의 사람들이 봐준다면 그 만큼 자기 논문의 인용가능성이 높아지기 때문입니다.

서로 윈-윈 하는 구도입니다.


-----------------------------------------------------------------------------------


8번째 포스트 에서는 무료로 열람가능한 논문을 다운받아 보겠습니다.


출처



http://ko.wikipedia.org/wiki/PubMed_Central

Posted by NSRDL
,

6번재 포스트 입니다. 


6번재 포스트에서는 nucleotide sequences를 저장해보도록 하겠습니다.


-----------------------------------------------------------------------------------


하는 방법은 앞에서 포스트 한것과 같습니다.


▼DNA p53을 찾았습니다.

12번을 선택해서 들어갓습니다. 목적에 맞게 고릅니다 전 complete를 원합니다!


▼DNA p53의 정보화면입니다. 빨간칸의 send to를 클릭하여 줍니다



역시나 다음과 같이 설정해주시면 됩니다.


그 후 create file을 누루면 되고 일반 파일저장하듯이 저장합니다.


-----------------------------------------------------------------------------------


7번째 포스트에서는 PubMed를 사용하여 간단하게 논문을 찾아 보겠습니다.


부족한 부분이 많지만 댓글로 수정 요청이나, 알고싶은 부분을 알려주시면 최대한 적어드리겟습니다.

 

출처 

 

http://www.ncbi.nlm.nih.gov/


Posted by NSRDL
,

5번재 포스트 입니다. 


5번째 포스트에서는 peptide sequences를 6번재 포스트에서는 nucleotide sequences를 저장해보도록 하겠습니다.


-----------------------------------------------------------------------------------


peptide sequences를 FASTA format으로 저장하여 보겠습니다.


FASTA format : FASTA format은 bioinformatics에서 standard format으로 이용되어지고 있는것으로, FASTA format은 nucleotide sequences 또는 peptide sequences를 text로 저장합니다.


자세한 내용은 http://en.wikipedia.org/wiki/Fasta_format 을 참고하세요!


우선 이전에 찾아보았던 protein을 저장해보도록 하겟습니다.


▼protein IDH1의 정보화면입니다. 빨간칸의 send to를 클릭하여 줍니다.

send to를 누루면 많은 메뉴들이 나옵니다. 각자 자기가 원하는 방식으로 이용하시면 됩니다.


▼저는 FASTA format으로 저장하기를 원하니 아래와 같이 설정하여줍니다.


▼그 후 create file을 누루면 됩니다.


▼그러면 일반적인 파일다운로드처럼 화면이 뜨고 저장시켜주시면 됩니다.


-----------------------------------------------------------------------------------


짧은 포스트를 마침니다. 개인적인 시간 부족으로 블로그를 오래하지 못하네요..


6번째 포스트에서는 nucleotide sequences를 저장해보도록 하겠습니다


부족한 부분이 많지만 댓글로 수정 요청이나, 알고싶은 부분을 알려주시면 최대한 적어드리겟습니다.


출처 


http://www.ncbi.nlm.nih.gov/


http://en.wikipedia.org/wiki/Fasta_format 

Posted by NSRDL
,

4번째 포스트 이군요.


-----------------------------------------------------------------------------------


이번에는 DNA sequence를 찾아보도록 하겟습니다.

이전 2번째 포스트 (NCBI-초급-2-protein sequence(단백질 서열) 찾기)와 하는 방법은 같으므로 쉽게 하실수 있으리라 생각합니다.

 

자 그럼 오늘은 p53 gene의 DNA sequence를 찾아보겟습니다.

 

▼우선 검색 메뉴를 Nucleotide로 설정해줍니다. 그후 검색어를 적어줍니다. 저는 p53을 찾을것입니다.


▼search버튼을 누루면 아래와 같이 창이 바뀝니다.


검색결과가 굉장히 많습니다. 우선 종을 선택해주셔야겟죠! 당연히 인간을 찾을것입니다.

 

▼이전 포스트에 한것처럼 종을 선택해줍니다.


그런데 꼭 이렇게 종을 선택해 주어야 해야하는것은 아닙니다. 

 

▼아래와 같이 human과 같이 종을 적어줄수도 있습니다.


검색결과입니다. 뭔가 차이가 있나요? 그렇게 많이 차이나보이진 않습니다만 역시... 검색갯수가 차이납니다. 

따로 종을 선택해주었을때 17121개 / human을 적어서 한번에 검색햇을때 7256개 

2배 정도 따로 종을 선택해주니까 많이 검색됩니다. 이유는 NCBI에 등재될 때 종을 선택하여 등재하기 때문입니다.

하지만 결과만 말씀드리면 두개의 결과는 모두 큰 차이가 없습니다. 

보통 내가 찾고자 하는 nucleotide의 검색결과는 보통 200개 내에서 찾을 수 있습니다. 

검색결과가 신뢰도를 바탕으로 하기때문입니다. 따라서 그 이외에는 모두다 버리는 검색결과입니다. 

여담입니다만 자주 찾다보면 보통 50개 이내에서 다 찾습니다. 200개는 최대로 검색한다고 했을때 원하는 정보를 얻어봣네요.

어쨋든 종을 따로 선택하지 않으셔도 "원하는 검색어 - 종" 이렇게 검색하여도 무관합니다.

 

▼본론으로 돌아가서 검색결과를 확인하고  p53 을 찾아보겟습니다. 위에는다 partial 이었네요. 12번째 complete를 찾았습니다.


▼클릭하여 들어오시면 p53 유전자에 대한 정보가 뜹니다.


▼역시 맨 아래에 DNA 서열이 나와있습니다.

-----------------------------------------------------------------------------------

 

4번째 포스트는 여기까지 입니다.

 

5번째 protein sequence와 DNA sequence를 저장하는 방법에 대해서 알려드리겠습니다.

 

부족한 부분이 많지만 댓글로 수정 요청이나, 알고싶은 부분을 알려주시면 최대한 적어드리겟습니다.


출처 


http://www.ncbi.nlm.nih.gov/

 

 

Posted by NSRDL
,

3번째 포스트로 찾고자 하는 단백질 서열을 찾는방법을 알아보겟습니다.


-----------------------------------------------------------------------------------


일단 찾고자 하는 단백질의 알아야 하겟죠. 제가 찾을 단백질 서열은 인간의 Isocitrate dehydrogenase 1 입니다. 약어는 IDH1 라고 합니다.

그럼 직접 NCBI에서 찾아보겠습니다.

 

▼우선 검색 메뉴를 protein으로 설정해줍니다.

 

그후 찾고자 하는 단백질을 적어줍니다.

 

▼저는 Isocitrate dehydrogenase 1 으로 단백질의 full name을 적어주었습니다.


▼그후 검색버튼을 누루면 아래의 화면과 같이  Isocitrate dehydrogenase 1 단백질이 검색됩니다.


검색결과가 굉장히 많습니다. 8993개를 찾았다고 하네요... 

그런데 내가 찾고자하는것은 인간의 Isocitrate dehydrogenase 1입니다.

다른 종들의 Isocitrate dehydrogenase 1은 검색대상에서 제외시켜줘야 하겟죠..

 

▼아래와 같이 찾고자하는 종을 찾아줍니다. homo sapiens가 보이네요 인간의 학명이죠...


▼페이지가 바뀌며 인간의 Isocitrate dehydrogenase 1만 검색됩니다. 1 번에 바로 검색이 되었네요 대부분 바로 검색이 되지만 그렇지 못한 경우도 있습니다.


그런데 의문점이 있죠. 약어로 검색하면 같은결과가 나올까 하는 의문점입니다.

 

▼직접 비교하여 보여드리겟습니다. 약어인 IDH1으로 검색한 결과입니다.


Isocitrate dehydrogenase 1과 IDH1의 검색결과가 다릅니다. 왜 일까요?

NCBI에 올라오는 모든 정보들은 주로 reference가 논문입니다. 따라서 논문에 쓰여진 정보에 따라서 NCBI에 등재됩니다.

 

Isocitrate dehydrogenase 1 으로 적혀진 reference 논문에 의해서 올라온 정보와, IDH1 으로 올라온 reference 논문에 쓰여진 정보가 다르다는 것이죠. 이것은 직접 들어가서 확인해보시면 알수있습니다.

 

▼Isocitrate dehydrogenase 1 으로 검색된 결과를 확인해보겟습니다. 검색결과를 클릭해서 들어오시면 됩니다.


검색결과를 보시면 빨간줄 처있는 부분이 isocitrate dehydrogenase 1, partial [Homo sapiens]. 라고 적혀있는것을 보실수 있습니다. 여기에 partial이라는 단어가 들어가 있습니다. 의미그대로 불완전한 이라는 의미를 가진것으로 이 검색결과는 불완전한 단백질 서열을 보여줍니다. 

 

▼그렇다면 IDH1으로 검색된 결과는 어떨까요? 정확한 검색결과가 3개 나오지만 3개보누 앞서 말씀드린데로 reference 가 서로 다릅니다. 저는 그중 맨 첫번째로 검색된 결과로 들어갔습니다.


이번 결과는 IDH1 [Homo sapiens].라고 적혀있습니다.  대부분 이런 경우 protein의 full sequence 가지고 있습니다. 또는 IDH1 [Homo sapiens]. complete 이런식으로 complete라는 단어가 붙기도 합니다.

 

자 그렇다면 여기서 우리가 알아야 할 것이 있습니다. 위에서 처음부터 Isocitrate dehydrogenase 1 으로만 검색한 결과를 가지고 살펴보앗따면 완벽한 서열을 가진 정보를 찾을 수 없었을것입니다. 오히려 약어인  IDH1으로 검색하였을때 완벽한 서열을 가진 정보를 얻을수 있었습니다. 

 

따라서 protein sequence를 검색하기 위해서는 protein의 full name과 약어(symbol)을 모두 알아야 한다는 것입니다. 

 

▼이어서 protein의 sequence를 확인해보겟습니다. 검색결과는 IDH1으로 입력한 검색결과입니다. 이 결과를 휠로 내려보면 맨 마지막에 protein의 sequence가 적혀있습니다. 


-----------------------------------------------------------------------------------

 

이번 포스트는 여기까지 입니다.

 

다음 포스트는 NCBI에서 원하는 DNA의 서열을 보는법을 알려드리겠습니다.

 

부족한 부분이 많지만 댓글로 추가할 부분을 알려주시면 최대한 알려드릴 수 있도록 노력하겠습니다.


 

출처 


http://www.ncbi.nlm.nih.gov/

 

'생화학 > 생물정보학' 카테고리의 다른 글

NCBI-5-DNA sequences 저장하기  (1) 2013.05.26
NCBI-4-peptide sequences 저장하기  (0) 2013.05.16
NCBI-3-DNA sequence(DNA 서열) 찾기  (1) 2013.05.12
NCBI-1-대문설명  (0) 2013.05.09
생물정보학(Bioinformatics)이란?  (0) 2013.05.06
Posted by NSRDL
,

2번재 포스트입니다.


-----------------------------------------------------------------------------------


NCBI에 대해서 알아봅시다


NCBI : National Center for Biotechnology Information 의 약자로 생명과학 및 의학 논문, 유전자 염기서열, 단백질 구조 및 서열 등 생물학 관련 분야의 대부분의 데이터베이스를 모아 놓으며, 데이터를 분석할수 있는 도구를 제공해준다. 생물학적으로 중요한 분자의 구조와 기능을 분석하기 위한 컴퓨터 정보 처리 기술 연구, 수학적, 전산학적 방법을 사용한 생물학 및 의학적 문제의 분자 수준에서의 연구, 분자생물학, 생화학, 유전학에 대한 지식을 저장, 분석하기 위한 자동화 시스템 개발, DB와 S/W 개발, 생명공학 기술 정보 수집, 연구소, 학회, 산업체, 정부 기관 등과의 협력, 과학적 정보교환 강화, 전산생물학의 기초 및 응용 연구 훈련 지원, 다양한 DB와 S/W의 사용 지원, DB, 데이터 축적 및 교환, 생물학적 명명법의 표준 개발 등의 활동을 하고 있다.


NCBI는 아래의 주소로 접속 할 수 있습니다.

http://www.ncbi.nlm.nih.gov/

 

NCBI는 bioinformatics를 하기위해서 많이 사용되는 site로 생물학 관련 분야에 몸담고 있다면 한번쯤 들어봣을법한 site입니다.

 



▲NCBI 들어오자마자 반겨주는 대문입니다

 

그럼 각 메뉴에 대해서 기본적인 설명을 해드리겠습니다.



이렇게만 알고있어도 초보적인 수준에서는 쓰는데 충분합니다.

 

네이버나 다음과 같은 포털사용법이랑 비슷합니다.

 

■검색메뉴 

→어떤 database에서 찾을것 인지를 결정합니다. 내가 찾고자 하는것이 단백질인지 유전자인지 알아야 정확한 데이터를 찾을수 있습니다. database의 종류에는 protein, nucleotide, pubmed 등의 메뉴가 있습니다.

 

검색창

→설명이 필요없을듯 합니다. 원하는 것을 적어주세요!  논문명, protein, gene 등의 검색어를 적어주시면 됩니다.

 

Resource list

→NCBI에서 지원하는 서비스에대한 전체정보를 보여줍니다. 특수한 용도가 아니라면 주로 사용하지 않는메뉴이죠. 저도 아직까지는 몇번사용해보지 않았네요...

 

Population resources
→딱 해석만해봐도 알수있습니다. 인기있는 서비스를 모아놓은것이죠... 주로 여기에 있는 메뉴들을 쓰게될 것입니다.

-----------------------------------------------------------------------------------

다음 포스트는 NCBI에서 원하는 단백질의 서열을 보는법을 알려드리겠습니다.

부족한 부분이 많지만 댓글로 추가할 부분을 알려주시면 최대한 알려드릴 수 있도록 노력하겠습니다.

Posted by NSRDL
,

1번째 포스트입니다.


오늘날은 기술 융합의 시대라고 한다. 즉, 다양 한 학문 간의 경계가 허물어지고 여러 가지 기술 들이 융합되는 큰 흐름속에 있다. 인포매틱스(Informatics)는 정보학, 즉 ‘정보의 과학’(Science of Information)으로 정의된다. ‘생물정보학' 또는 ’생명정보학‘으로 불리고 있는 바이오인포메틱스(Bioinformatics)는 생명과학(BT)과 정보기술(IT)이 바이오인포매틱스의 정의융합(convergence)된 학문으로써 정보학의 중요한응용분야로 부각되고 있다.

바이오인포매틱스는 생물학적인 문제들에 대한 답을 구하기 위하여 생물학 데이터를 수집하고, 관리하고, 저장하고, 평가하며 분석하는 정보기술로 정의할 수 있다. 바이오인포매틱스는 다양한 학문과 기술들이 융합되어 구성되는데, 기초 생물학 및 응용생물학, 의학, 약학은 물론이고 수학, 통계학, 물리학, 화학, 공학 등이 융합되고 있으며 그 응용 대상은 생명과학 전 분야이다. 


출처

http://cms.daegu.ac.kr/sgpark/life&chemistry/%EB%B0%94%EC%9D%B4%EC%98%A4%EC%9D%B8%ED%8F%AC%EB%A7%A4%ED%8B%B1%EC%8A%A4.pdf

Posted by NSRDL
,