[논문 리뷰] DreamDiffusion: Generating High-Quality Images from Brain EEG Signals
논문리뷰
DreamDiffusion: Generating High-Quality Images from Brain EEG Signals
DreamDiffusion
EEG to Text를 하지 않고 바로 image를 생성하는 것이 목적.
Temporal Masked signal modeling를 EEG encoder에 적용하여 EEG representation 도출함.
CLIP image encoder를 통해 EEG,text,image embedding 적용함.
Thoughts to image model로 thought를 text화 시키는 단계를 건너뛰는 것이 중요하다.
Visualize our dreams 잠재력 있음.
Psychotherapy에 적용하여 language disabilities 환자들에게 사용 가능하다.
fMRI를 기반으로 image reconstruction하는 접근방법도 있다. 하지만 fMRI 특성상 너무 비싸고 번거롭다.
Two challenges
1. EEG의 noise를 어떻게 처리하여 representations을 뽑아낼 것인가?
How to obtain effective and robust semantic representations from EEG signals with so many constraints?
Sol)
Large EEG dataset 사용
Masked signal modeling 사용하여 context 파악하도록 함.
EEG signal의 Temporal characteristic를 파악함. 시간적인 의미변화를 주로 파악하려고 함.
이를 통해 Encoder가 뇌활동의 EEG에 대해 깊은 이해를 할 수 있도록 한다.
2. CLIP는 image-text pair를 통해 생성한다. 하지만 EEG는 본질적으로 다른데 EEG, image, text 를 align하여 생성할 수 있을까?
How to align EEG, text and image spaces with limited and noisy EEG-image pairs?
Sol)
Stable Diffusion model를 fine-tune한다.

1. Masked signal pre-training for an effective and robust EEG encoder
EEG contextual Knowledge 학습하기
EEG 데이터는 2차원 데이터다. 채널과 전극의 위치를 나타내는 하나의 차원과 시간을 나타내는 축이다.
temporal resolution of EEG는 공간적 해상도는 낮지만 뇌 활동은 잘 나타낸다.
EEG는 highlyy variable하다. 온갖 factor들이 작용하게 된다.
Masked signal modeling techniques를 통해 유의미한 데이터를 추출하고 한다.
시간 축에 따라 토큰을 나눈다.
일부 토큰을 무작위로 masking한다.
토큰들은 1차원 convolutional layer를 통해 embedding된다.
MAE를 통해 주변 토큰을 분석해서 masked token를 예측한다.
Reconstruction masked signal를 하면서 EEG encoder 학습한다.

2. Fine-tuning with limited EEG-image pairs with pre-trained Stable Diffusion
Stable Diffusion에 cross attention 부여
Stable Diffusion는 denoise하면서 data distribution를 학습하는 모델이다.
Stable Diffusion는 cross-attention mechanism을 통해 더 유연한 이미지를 생성한다.
latent z = E(x). x: image E: VQ encoder
EEG encoder 출력 y를 projector τθ(y)로 embedding한다.
이는 cross-attention layer로 들어가도록 한다.


EEG encoder, Unet를 fine tuning한다.
3. Aligning the EEG, text,and image spaces using CLIP encoders
EEG embedding과 CLIP image embedding 일치시키기
Stable Diffusion는 text to image generation model이기 때문에 EEG embedding를 text embedding과 align하는 과정을 거쳐야 한다.
CLIP는 text-image pair가 잘 align되어 있기 때문에 additional CLIP 사용을 통해 EEG, text, image align에 도움을 줄 수 있다.
이를 위해서 EEG encoder를 통한 embedding을 CLIP projection layer로 같은 차원으로 넣어야 한다. EEG embedding과 CLIP image encoder를 통해 얻어낸 image embedding의 거리를 줄어야 한다.

이를 EEG embedding representation이 더 잘 align되어 stable diffusion image generation에 더 높은 qulaity를 만들어 낼 수 있다.
Dataset
MOABB: 120000 EEG sample
Paired EEG-image data: ImageNET-EEG dataset
