이 번 post 는 데이터 사이언스 스쿨에서 참조하여 작성합니다.1
자연어 용어 정리
-
말뭉치 자연어 분석작업을 위해 만든 샘플문서 집합
-
TOKEN - tokenizing 자연어 문서를 분석하기 위해 긴 문자열을 작은단위로 나누어놓은 단위, 나누는 작업
-
형태소 분석 언어학적으로 일정한 의미가 있는 가장 작은 말의 단위를 뜻한다.
- 어간추출 (stemming) 변화된 단어의 접미사나 어미를 제거하여 같은 의미를 가지는 형태소의 기본형을 찾는 방법
- 원형 복원(lemmatizing) 같은 의미를 가지는 여러단어를 단어의 원형으로 통일하는 작업이다.
- 품사 부착(Part-Of-Speech tagging) 낱말을 문법적인 기능이나 형태, 뜻에따라 구분한 것.