본문 바로가기

전체 글5

왜 Human Reference Genome은 Haploid 일까? 현재 Human Reference Genome(예: hg38)은 Haploid(반수체)입니다. 하지만 실제로 인간의 Genome은 Diploid(이배체)라는 것을 누구나 다 알고있습니다. 그렇다면 당연히 Human Reference Genome은 이배체여야 하는 것 아닐까요? 어머니, 아버지로 부터 물려받은 Nucleic acid sequence는 다를 것입니다. 또한 유전체의 크기와 유전자의 경우의 수를 증가시켜 Variation의 복잡성도 증가시킵니다. 더군다나 남자와 여자라는 성별 특이적인 Sequence도 존재하지 않을까요? (딱 봐도 구분할 정도인데 Sequence는 얼마나 다를까요?). The Necessity of Diploid Genome Sequencing to Unravel the Ge.. 2023. 7. 23.
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks Main Contribution 1. Distant Supervision의 Wrong Label Problem을 해결하기 위한 Multi-Instance Learning 도입 ▷ Wrong Label Problem: KB 내에 [[Relation을 가지는 두 Entity]를 [포함하는 문장]]은 모두 [그 Relation을 표현한다]라는 가정으로부터 발생할 수 있는 Noise를 말함. 이 Noise를 최소화하기 위해 Multi-Instance Learning을 도입했다는 말임. ▷ Distant Supervision 방법에서는 이 Wrong Label Problem이 모델의 성능을 떨어뜨리는 핵심적인 걸림돌이라는 것을 이해하고 있다면, 이 논문의 주요 성과로 이해가 됨 ▷ 이 논문에서는 Multi-Ins.. 2021. 9. 2.
[실패기] VAE로 손글씨 폰트 생성하기! 본 글은 오토 인코더의 모든 것에서 영감을 받아 진행한 개인 프로젝트입니다. 위 영상에서 VAE를 MNIST로 학습 후 기존 데이터셋에 없던 새로운 스타일의 숫자들을 생성해내는 것을 보고"한글 폰트 생성의 어려움을 VAE로 해결할 수 있지 않을까?"라는 아이디어를 얻었습니다. 제가 생각한 설계는 위의 그림과 같습니다. 기존의 VAE에서 이미 알고 있는 Label 정보를 Latent Vector와 이어 붙여 디코딩하는 Conditional VAE를 사용했습니다. 한글이 어떤 글자인지에 대한 Label을 원-핫 벡터로 변환하여 입력해주었습니다. 요즘은 폰트 중에도 손글씨와 비슷한 것이 많기 때문에 실제 손글씨는 아니지만, 한글 폰트로부터 직접 추출하였습니다. 폰트 약 300개를 수집하여 '가나다라마바사아자차.. 2021. 4. 22.
Normalizing the Inputs: 훈련 전, Input값들을 normalization 하는 이유에 대한 생각 예시를 통해 생각을 빌드업해보자. 학습에 쓰일 훈련집합에서 샘플링된 X가 두개의 성분을 갖고 첫번째 성분 x1은 키, 두번째 성분 x2는 시력을 갖는다고 하자. X1는 대충 120~200 사이의 값을 갖고, X2는 대충 0.1~2.0 까지의 값을 갖는다. Input Normalization은 두 성분이 비슷한 값의 범위를 갖도록 재조정 하는것이므로, X1도 [-1, 1], X2도 [-1, 1]의 범위를 갖도록 전처리 할 수 있겠다. 왜 이렇게 하는 걸까? 전처리 하지 않으면 뭐가 제대로 안돌아가는 것일까? ※ Input Normalization을 직관적으로 이해하는 것이 목표이므로, 다소 부정확한 표현들이 많습니다. 키 x1([120, 200])와 시력 x2([0.1, 2.0])를 입력받아 잘생긴 정도 .. 2020. 12. 30.