카테고리 없음

[연구] 뇌 임플란트로 언어 능력 향상시키기

오리좋아 2024. 1. 7. 13:07

논문 리뷰
A high-performance speech neuroprosthesis
Nature

2023.08.23

Willett, F.R., Kunz, E.M., Fan, C. et al.

high-performance speech neuroprosthesis.- DALLE

 

Speech Brain computer interface이 현재 얼마나 연구되어있는지 알 수 있는 논문이다. Speech Brain-computer interface는 실어증과 같이 의사소통이 불편한 사람들의 뇌신호를 읽어 언어 대신 글자 또는 소리로 의사소통할 수 있게 해주는 기기이다. 아직 많은 단어를 구현하는데 어려움을 겪고 있지만, 이번 논문은 이에 대한 엄청난 향상을 보여준다.

 

50개의 단어장 기준으로 9.1% 단어 오류(전 모델 대비 2.7배 향상)
125,000개의 단어장 기준으로 23.8% 단어 오류 (많은 단어를 대상으로 한 첫 번째로 유의미한 결과)

Decode 속도는 분당 62 words (전 모델 대비 3.4배 빠른 속도, 참고치: 일상적인 의사소통 속도는 분당 160 words)

 

나는 전체 단어를 기준으로 해석하는 것으로 speech bci를 생각하였는데, 아직은 일정한 수의 단어장으로 이루어진 문장을 정확히 decode하는데 더 초점을 주는 것 같다.

 

간단히 Figure만 정리해보면...

 

Fig1

목적:  Single neuron 단위에서 구강안면의 움직임과 말하기과의 관계에 대해 알아보기

논문의 컨셉 자체가 '특정 단일 뉴런이 어떤 구강안면의 움직임을 담당하고, 이는 어떤 단어 또는 음소를 말하는 것을 담당할 것이다.' 를 전제로 깔고 있기 때문에 이를 확인한 figure인 것 같다.

Fig1: Neural representation of orofacial movement and attempted speech

여기서는 크게 두 영역에 대해 측정하였다. Ventral premotor cortex(area 6v), Broca's area(area 44)에 microelectorde array를 꽂아 측정하였다. 참고로 피험자는 amyotrophic lateral sclerosis 환자로 부분적 언어장애를 가지고 있다.


6v의 신호로 측정했을 경우, 44의 신호보다 더 정확하게 구강안면의 움직임, 음소, 단어를 구별할 수 있었다. area 44의 신호는 구강안면의 움직임을 반영하지 못해, 이는 우리가 알고 있던 broca가 언어의 말하기와 관련되어 있는 통상적 개념에 대해 반대되는 결과가 나왔다. 이는 최근 Broca 영역의 전통적 개념과 반대되는 이해관계랑 일치하게 나왔다. 또한 fMRI로 관찰했을 때와 마찬가지로, area 6v의 drosal part보다 ventral part이 더 많은 정보를 담고 있다는 것을 확인하였다.(1e) 또한 단일 뉴런이 여러가지 조음기관의 움직임에 관여한다. 여러 조음기관에 통합하여 작용한다는 것 또한 확인하였다.(1f)

 

결국 앞으로 실험할 때는 area 44를 배제하고 area 6v 만을 측정하여 실험을 진행하였다.

 

Fig2
목적: Real time으로 Speech to text,sound Decode하기

어떻게 실험이 진행되었는지

Fig2: Neural decoding of attempted speech in real time

Fig2a에서 어떻게 Decode하였는지 설명해준다.

1. Electrode에서 신호 받기
2. 80ms 간격(한 음소가 말하는데 걸리는 시간)으로 RNN을 통해 neural activity -> phoneme probabilities로 변환(음소가 나오는 확률) 
3. Phoneme probabilities -> 문장에서 가장 올바른 large vocabulary 특정 단어로 변환 by LLM (125,000단어)

이렇게 변환한 결과 125000 word의 23.8%의 오류와 평균 62word per minute의 결과를 보였다.

 

Decode algorithm: 뇌신호 => RNN => 음소 => LLM => 문장에 맞는 단어

 

Fig3
목적: 마비 후에도 6v의 해당 부분이 어떤 음소를 발음한가에 대해 연구
뉴런이 담당하는 부분과 조음기관이 담당하는 부분이 유사하다는 것을 밝힌 후 마비 후 수년이 지나도, 음소에 대한 조음기관의 code가 변하지 않는다는 것을 알아냈다.

Fig4

목적: Speech BCI를 만들 때 고려할 점들에 대해 연구
단어장의 단어가 1000개 까지는 오류가 증가한다. 중간 정도의 단어장은 정확도을 올리는데 도움이 되지 않는다는 사실을 밝혀냈다. 또한 전극의 수가 많고, 훈련된 문장이 많을 수록 오류가 감소한다는 것을 알아냈다.

 

결국 앞으로 Speech BCI은 AI의 발전과 언어모델의 개선, 전극의 해상도의 증가함에 따라 발전할 수있다는 것을 알 수 있었다. 충분히 구현 가능한 기술이며, AI의 발전과 서로 상호작용하는 것을 알 수 있었다.


논문의 상세한 정보를 다 다루기보다는 정보의 전달과 논문의 의의성을 중심으로 글을 적어보았다. 전문적인 정보는 덜 하더라도, 이런 논문이 있다는 시사점을 중심으로 읽으면 좋겠다는 마음에 이렇게 써보았다. 물론 지식이 없어서 깊은 내용은 적지 못해서, 점점 노하우가 쌓이면 더 전문적인 내용까지 적어보도록 하겠다.