• Home
  • About
    • likewind7 photo

      likewind7

      알아가는 즐거움

    • Learn More
    • Instagram
    • Github
    • Youtube
  • Posts
    • All Posts
    • All Tags
  • Category
    • All Category
    • news
    • nlp
    • sample post
    • vxworks
    • windows
    • wsl
  • Projects

자연어 처리 용어 정리

17 Aug 2020

Reading time ~1 minute

이 번 post 는 데이터 사이언스 스쿨에서 참조하여 작성합니다.1

자연어 용어 정리

  • 말뭉치 자연어 분석작업을 위해 만든 샘플문서 집합

  • TOKEN - tokenizing 자연어 문서를 분석하기 위해 긴 문자열을 작은단위로 나누어놓은 단위, 나누는 작업

  • 형태소 분석 언어학적으로 일정한 의미가 있는 가장 작은 말의 단위를 뜻한다.

    • 어간추출 (stemming) 변화된 단어의 접미사나 어미를 제거하여 같은 의미를 가지는 형태소의 기본형을 찾는 방법
    • 원형 복원(lemmatizing) 같은 의미를 가지는 여러단어를 단어의 원형으로 통일하는 작업이다.
    • 품사 부착(Part-Of-Speech tagging) 낱말을 문법적인 기능이나 형태, 뜻에따라 구분한 것.
  1. https://datascienceschool.net/view-notebook/8895b16a141749a9bb381007d52721c1/ ↩



nlp Share Tweet +1