본문 바로가기
정보글

토큰화란?

by 자연!!!! 2023. 4. 27.
반응형

안녕하세요 시제품 개발 전문기업 디자인웨일입니다.

오늘은 토큰화(Tokenization)에 대해 알아보겠습니다.

 

1.토큰화란?

토큰화는 주어진 텍스트에서 토큰(token)이라 불리는 단위로 나누는 작업입니다.

토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다.

 

2. 단어 토큰화(Word Tokenization)

토큰의 기준을 단어(word)로 하는 경우를 말합니다.

다만, 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로 간주되기도 합니다.

예를 들어 구두점(punctuation) 같은 문자를 제외시키는 간단한 단어 토큰화 작업을 해보면

*구두점 : 마침표(.), 컴마(,), 물음표(?), 세미콜론(;), 느낌표(!) 등과 같은 기호

 

입력 : Time is an illusion. Lunchtime double so!

출력 : 'Time', 'is', 'an', 'illusion', 'Lunchtime', 'double', 'so'

 

출력 결과에서 보듯이 입력으로부터 구두점을 제외시킨 후 띄어쓰기를 기준으로 잘라 낸 결과를 확인 할 수 있습니다.

 

토큰화 작업은 단순히 구두점이나 특수문자를 제거하는 정제(cleaning) 작업을 수행하는 것으로 해결 되지 않습니다.

토큰이 의미를 잃어버리는 경우가 발생하기 때문입니다.

 

3. 문장 토큰화(Sentence Tokenization)

문장 토큰화는 여러 문장으로 이루어진 텍스트를 각 문장으로 나누는 것을 말합니다.

즉, 토큰의 기준을 문장(sentence)로 하는 경우를 말합니다.

NLTK는 영어 학습 데이터에 대해 사전학습된 모델을 사용해 토큰화합니다.

다른 언어에 대해 문장 토큰화를 하려면 사전 학습된

모델을 지정해 불어 올 수 있습니다.

NLTK에는 한글에 대해 사전학습된 모델이 없습니다.

그러나 문장 토큰화는 각 문장의 끝에 있는 마침표 등을 기준으로 분리하도록

학습되어 있으므로, 영어로 학습된 모델도 한국어에 대해 어느 정도 잘 작동할 것으로 예측할 수 있습니다.


4. 한국어에서의 토큰화의 어려움

한국어의 경우 띄어쓰기 단위가 되는 단위를 어절이라 하는데 저덜 토큰화는 한국어 NLP에서 지양되고 있습니다.

=> 어절 토큰화가 단어 토큰화가 같지 않기 때문입니다

✔️ 한국어는 교착어

같은 단어임에도 조사에 따라 의미가 바뀌어 자연어 처리가 어려운 경우가 있어 한국어 NLP에서 조사는 분리 할 필요가 있습니다.

한국어에서는 형태소(뜻을 가진 가장 작은 말의 단위) 단위로 토큰화가 이뤄집니다.

<형태소의 종류>

1️⃣ 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소로써 체언, 수식언, 감탄사 등이 해당

2️⃣ 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소로써 접사, 어미, 조사, 어간을 말함

✔️ 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않습니다.

한국어는 띄어쓰기가 잘 지켜지지 않아도 의미 파악이 영어보다 수월합니다.


오늘은 토큰화(Tokenization)에 대해서 알아봤는데요.

시제품제작 상담과 제작의뢰는

디자인웨일로 문의 주시면 성심성의껏 빠르게 답해드립니다.

문의사항은 디자인웨일 홈페이지와 이메일로

보내주시길 바랍니다.

https://www.design-whale.com/contact

이메일:

info@design-whale.com

지금까지 시제품 개발전문기업 디자인웨일이었습니다.

반응형

'정보글' 카테고리의 다른 글

블록체인이란?  (0) 2023.05.02
크로스 플랫폼이란?  (0) 2023.05.02
인터랙티브 미디어(Interactive Media)란?  (0) 2023.04.27
자연어 처리란? (Natural Language Processing)  (0) 2023.04.27
광원 및 광전소자  (0) 2023.04.27

댓글


"); wcs_do();