논문 리뷰
-
[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision : CLIP논문 리뷰 2024. 9. 17. 17:43
CLIP에 대한 논문이다! 논문 링크Learning Transferable Visual Models From Natural Language Supervision 세줄 요약많은 양의 image, text pair dataset 학습을 통해 만들어낸 CLIP 모델이다.Contrastive learning을 통해 효율적인 학습을 하였다. 0. Abstract지도학습(supervised learning)는 고정된 데이터를 필요로 한다. 그리고 추가적인 labeled data가 있어야지 특정한 task를 수행할 수 있다. 더 넓은 영역의 task를 수행하기 위해 image와 image를 설명하는 raw text를 사용하여 학습하여 이 문제를 해결하고자 한다.인터넷에서 image와 text pair data를 가지..
-
[논문 리뷰] Generative Adversarial Nets - GAN논문 리뷰 2024. 9. 10. 12:33
GAN에 대한 논문 리뷰를 해보자! 논문 링크.Generative Adversarial Nets 참고한 블로그(GAN)Generative Adversarial Nets 논문 리뷰 세줄 정리.1. D,G를 사용한 생성형 모델 GAN을 제안함.2. V(G,D)의 minmax의 학습 방식으로 수식을 제안함.3. 이론적 배경을 수학적으로 증명하는 방식이 흥미로움. 0. AbstractG: data distribution를 생성하는 모델: Generative modelD: Real data와 Generative data를 구별하는 모델: Discriminative model-> 엄밀하게는 D는 real data인지 판단하는 확률을 추정한다.G는 D가 판별하지 못하게 학습한다. 그리고 D는 이를 잘 구별하기 위해 ..
-
[논문 리뷰] Auto-Encoding Variational Bayes - VAE논문 리뷰 2024. 8. 27. 13:31
[논문링크] Auto-Encoding Variational Bayes [세줄 요약]VAE는 sample 분포에서 생성하고자 하는 모델이다.Intractable한 p(x),p(x|z)를 근사하기 위해 q(z|x)인 encoder를 도입하였다.역전파가 가능하게끔, ELBO, Reparameterization trick를 사용하였다. 참고)논문만 보고 이해하기가 좀 어렵다. 그래서 논문에 담겨져 있지 않은 기본적인 지식과 함께 다루고 있으니, 완전히 논문와 순서가 똑같지는 않을 수도 있다.참고하면 좋을 영상들)개념적으로 이해에 도움을 주는 임커밋의 강의Smart Design Lab 강의0. Abstract 이 논문의 목표는 다음과 같다.How can we perform efficient inference a..
-
[논문 리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale - ViT논문 리뷰 2024. 8. 12. 14:10
[논문 링크]An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [세줄 요약]Transformer를 Image에 적용한 사례임.Patch로 분할하여 sequence token처럼 고려해 transformer에 적용하였음.Large dataset에 sota의 성능을 보이며, fine tuning하여 사용할 수 있음.0.AbstractVision 분야에서는 attention이 CNN과 결합해서 지금까지 사용되었다. Image Patch를 sequence로 적용하는 방식으로 transformer 만을 순수하게 사용한 Vision Transformer(ViT) architecture를 만들었다. Large data를 pretrai..
-
[논문 리뷰]: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding논문 리뷰 2024. 8. 5. 16:32
[논문 링크]BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[세줄 요약]BERT는 Deep bidirectional representation를 pretrain하는 모델이다.Pretrain하는 방식은 2가지 방식 MLM(Masked LM)과 NLP(Next sentence Prediction)를 사용한다.BERT는 Finetuning하여 좋은 성능을 보여줄 수 있다.0. AbstractBERT(Bidirectional Encoder Representations from Transformers)는 Pretrained(사전훈련된) 모델 중 하나이다. 레이블되지 않은 테스트로부터 Deep bidirectional..
-
[논문 리뷰] Attention is all you need - Transformer논문 리뷰 2024. 7. 28. 14:59
[논문 링크]Attention is all you need [세줄 요약]Transformer architecture의 출현Multi head Attention을 사용하여 계산함.병렬적으로 처리하여, 비용을 낮추고 긴 문장을 처리할 수 있게 됨. [Abstract]Transformer라는 new architecture를 제시함.기존의 모델보다 더 병렬적으로 처리 가능하고, 학습하는데 소요되는 시간이 짧다. [기존 모델의 문제점]RNN 모델은 구조적으로 전의 hidden state에게 정보를 받아 sequence 대로 순서대로 정보를 처리한다. 이는 더 긴 Input(Longer sequence lengths)를 처리하는데 제약이 있다. 즉 병렬적으로 처리하지 못한다는 한계가 존재한다.*병렬적: Input을..
-
[논문 리뷰] Sequence to Sequence Learning with Neural Networks - Seq2Seq논문 리뷰 2024. 7. 21. 16:16
[논문 링크]Sequence to Sequence Learning with Neural Networks [세줄 요약]LSTM를 encode-decoder 형식으로 사용하는 Seq2Seq 모델을 개발함.Seq2Seq는 context vector의 도입을 통해 encoder과 decoder 간의 활용성을 높임.Input sequence를 거꾸로 input하는 것은 성능을 향상시킴. [정리] [Abstract]End to end sequence를 학습할 수 있는 Seq2Seq architecture를 제시함.Input sequence를 LSTM을 통해 의미를 포함하는 fixed vector 추출하고 이를 또다른 LSTM에 넣어 target sequence를 decode하는 방식을 이용함.Input seque..