자연어 처리에서는 모델이 처리할 수 있는 모든 단어(어휘 집합, 단어 집합, 코퍼스라고도 함.)을 미리 정의하고, 각 단어에 고유한 숫자를 부여합니다.
이 숫자를 인덱스라고 합니다. 예를 들어, 어휘 집합이 ['고양이', '강아지', '새', '물고기']라면, '고양이'는 0번 인덱스, '강아지'는 1번 인덱스 등으로 할당될 수 있습니다.
자연어의 단어나 구문을 기계가 이해할 수 있는 벡터로 변화하는 과정, 또는 그 결과물을 말합니다.
이 벡터들은 단어/문장의 의미론적 및 문법적 정보를 함축하고 있습니다. 이를 통해 단어 또는 문장간의 관련도를 계산할 수 있습니다.
일반적으로 의미가 유사한 단어는 벡터 공간에서 더 가까이 위치하도록 임베딩 됩니다.
텍스트를 벡터로 표현하는 방식은 희소 표현과 밀집 표현 두가지로 나뉩니다.
희소 표현
💡 원-핫 인코딩은 단어의 인덱스를 활용해 단어를 벡터로 표현하는 방식. 예를들어 어휘집합에 10,000개의 단어가 있고 ‘강아지’가 4번 인덱스라면 ‘강아지’는
[0,0,0,0,1,0,0…,0]
과 같은 10,000차원 벡터로 표현됩니다.
밀집 표현