✔️Bioinformatics 7

8. Chapter7. Multiple Sequence Alignment

다중 서열 정렬: Multiple Sequence Alignment¶ Multiple Sequence Alignment객체는 각 행들이 SeqRecord 객체로 된 행렬과 같은 객체입니다. 여기서는 sequence alignment결과 파일을 읽고/ 파싱하고/서열 중간을 슬라이싱하는 방법에 대해 알아봅니다. 직접 서열들을 가지고 정렬을 진행해 봅니다. 보존 서열을 알 수 있는 WebLogo를 그리고 종 간 유사도를 알아볼 수 있는 계통수를 그려봅니다. 1. Multiple Sequence Alignment 준비 과정¶ Multiple Sequence Alignment를 하기 위해서는 비교할 여러 서열이 필요합니다. : 여기서는 헤모글로빈의 HBA단백질에 대해 인간을 비롯한 다른 동물들의 HBA서열을 단백..

7. Chapter5. Sequence Record object

Sequence record 객체 이번 장에서는 Sequence record 객체의 속성에 대해 알아보고 FASTA파일과 GenBank파일을 읽어 SeqRecord객체를 만들어보도록 합니다. 1. SeqRecord 객체 SeqRecord(Sequence recod) 객체는 Chapter4에서 학습한 Seq객체에 추가적인 정보를 넣을 수 있는 객체입니다. 단순히 서열만 다룬다면 Seq객체를 사용하면 지만 서열 외에 서열의 이름, NCBI의 ID 등과 같이 추가적인 정보들을 한 객체 안에 넣어야 한다면 SeqRecord를 사용하는 것이 바람직합니다. 1) SeqRecord 객체 생성 방법 1. 문자열(Seq객체)로부터 SeqRecord 객체 만들기 In [1]: #1. Seq 객체에서 SeqRecord 객체..

6. Chapter4-2. Gene Sequences - Sequence object

Bio.SeqUtils 모듈 사용¶ Bio.SeqUtils 모듈은 4-1에서 진행했던 GC-contents간단 계산과 서열의 무게 계산, 유전 서열에서 나올 수 있는 모든 아미노산 서열을 정리해서 보여주는 메서드를 포함하고 있다. In [2]: from Bio.Seq import Seq from Bio.SeqUtils import GC In [3]: #1. Bio.SeqUtils로 GC-contents 계산 exon_seq = Seq("ATGCAGTAG") gc_contents = GC(exon_seq) #Bio.SeqUtils로 GC-contents 계산 #Bio.SeqUtils을 사용하지 않았다면, (exon_seq.count("G")+exon_seq.count("C")/len(exon_seq))*1..

5. Chapter4-1. Gene Sequences - Sequence object

Sequence object is basic topic of biopython. In this chapter, studying what a Sequence object is, and use it to handle target gene sequence. For Training, we use the 'TATA Box sequence'. In [1]: import Bio In [2]: # 1. Create Sequence Object from Bio.Seq import Seq tatabox_seq = Seq("tataaaggcAATATGCAGTAG") print(tatabox_seq) print(type(tatabox_seq)) tataaaggcAATATGCAGTAG There should be informa..

4. Chapter3. Introduction of the Bioinformatics File Format

To get specific information from a file, you need to understand the file format. This is because you need to know what type of data a file contains to get information. Therefore in this chapter, I learned about the variant types of files for dealing with bioinformatics. 1. FASTA/FASTQ FASTA: format represents nucleotide sequences or protein sequences in a text based format. FASTQ: format include..

2. Chapter1. Introduction to BioPython

제 1장. 바이오파이썬 소개 바이오파이썬이란 생물정보학 프로그래밍을 위한 파이썬 라이브러리입니다. 바이오파이썬으로 할 수 있는 일들에는 생물정보학에서 자주 사용하는 파일 포맷에서 필요한 부분을 가져오는 파싱 작업을 할 수 있습니다. ex) FASTA파일 파싱 유전체 서열정보를 문자열 수준에서 다룰 수 있습니다. 즉, 위의 작업으로 가져온 서열 데이터를 파이썬의 문자열을 다루듯 쉽게 처리할 수 있습니다. ex) PubMed 검색 웹 정보를 가져와 다량의 정보를 쉽게 자동화해 처리할 수 있습니다. ex) GenBank 검색 생물정보학에서 사용하는 툴을 사용하여 여러 작업을 진행할 수 있습니다. ex) BLAST를 사용하여 서열 찾기 이번 장에서는 바이오파이썬에 대해 간단히 알 수 있는 장이었습니다.