Data Science 47

2. Basic CNN-2

1. Mathematical representation of Fully connected layer fully connected layer은 여러 개의 뉴런을 일렬로 모아둔(vectorization) 것으로 위와 같은 곱셈 연산으로 표현됩니다. 2. Mathematical representation of convolutional layer input 된 것의 channel의 개수(Cin)과 output 된 것의 channel의 개수(Cout) 만큼의 kernel이 나타나게 됩니다. W = kernel의 크기(Kh x Kw) Cin x Cout = kernel의 개수 -> 이를 ij로 인덱싱하여 W와 ij을 vectorization하면 Weight tensor로 만들어집니다. 3. Stride 합성곱 연산..

1. Basic CNN-1

1. 합성곱 신경망의 기본 구조는 image -> Convolutional layer/Pooling layer/Activation function 의 반복-> Flatten/Fully connected layer -> result입니다. 1) Convolutional layer란 input -> filter -> output의 기능을 하는 layer로, 일반적으로 영상의 크기는 그대로이며, 영상의 채널 수가 달라집니다. 합성곱 계측에 의해서 추출된 output은 kernel이 움직이며 생성되므로 공간적 특징이 있으며 feature map이라고 합니다. 2) pooling layer란 여러 화소를 종합하여 하나의 화소로 변환하는 계층입니다. pooling layer을 통과하면 영상의 크기가 줄어들고, 정보..

6. Chapter4-2. Gene Sequences - Sequence object

Bio.SeqUtils 모듈 사용¶ Bio.SeqUtils 모듈은 4-1에서 진행했던 GC-contents간단 계산과 서열의 무게 계산, 유전 서열에서 나올 수 있는 모든 아미노산 서열을 정리해서 보여주는 메서드를 포함하고 있다. In [2]: from Bio.Seq import Seq from Bio.SeqUtils import GC In [3]: #1. Bio.SeqUtils로 GC-contents 계산 exon_seq = Seq("ATGCAGTAG") gc_contents = GC(exon_seq) #Bio.SeqUtils로 GC-contents 계산 #Bio.SeqUtils을 사용하지 않았다면, (exon_seq.count("G")+exon_seq.count("C")/len(exon_seq))*1..

5. Chapter4-1. Gene Sequences - Sequence object

Sequence object is basic topic of biopython. In this chapter, studying what a Sequence object is, and use it to handle target gene sequence. For Training, we use the 'TATA Box sequence'. In [1]: import Bio In [2]: # 1. Create Sequence Object from Bio.Seq import Seq tatabox_seq = Seq("tataaaggcAATATGCAGTAG") print(tatabox_seq) print(type(tatabox_seq)) tataaaggcAATATGCAGTAG There should be informa..

4. Chapter3. Introduction of the Bioinformatics File Format

To get specific information from a file, you need to understand the file format. This is because you need to know what type of data a file contains to get information. Therefore in this chapter, I learned about the variant types of files for dealing with bioinformatics. 1. FASTA/FASTQ FASTA: format represents nucleotide sequences or protein sequences in a text based format. FASTQ: format include..

2. Chapter1. Introduction to BioPython

제 1장. 바이오파이썬 소개 바이오파이썬이란 생물정보학 프로그래밍을 위한 파이썬 라이브러리입니다. 바이오파이썬으로 할 수 있는 일들에는 생물정보학에서 자주 사용하는 파일 포맷에서 필요한 부분을 가져오는 파싱 작업을 할 수 있습니다. ex) FASTA파일 파싱 유전체 서열정보를 문자열 수준에서 다룰 수 있습니다. 즉, 위의 작업으로 가져온 서열 데이터를 파이썬의 문자열을 다루듯 쉽게 처리할 수 있습니다. ex) PubMed 검색 웹 정보를 가져와 다량의 정보를 쉽게 자동화해 처리할 수 있습니다. ex) GenBank 검색 생물정보학에서 사용하는 툴을 사용하여 여러 작업을 진행할 수 있습니다. ex) BLAST를 사용하여 서열 찾기 이번 장에서는 바이오파이썬에 대해 간단히 알 수 있는 장이었습니다.