• Home
  • About
    • likewind7 photo

      likewind7

      알아가는 즐거움

    • Learn More
    • Instagram
    • Github
    • Youtube
  • Posts
    • All Posts
    • All Tags
  • Category
    • All Category
    • news
    • nlp
    • sample post
    • vxworks
    • windows
    • wsl
  • Projects

Bert, kobert 강의내용 정리

20 Aug 2020

Reading time ~1 minute

이 번 post는 soltlux 김성현 연구원 님의 강의를 요약하려고 한 내용입니다.

https://www.youtube.com/watch?v=qlxrXX5uBoU

자연어 처리

  • 대화의 과정 메시지의 전달 –> 메시지의 부호화 –> 경로 –> 메시지의 수신 –> 메시지의 해독 –> 피드백 device 에서 data가 전달되는 방식역시 이와 닮아 있다.

규칙기반의 접근법: 특정패턴을 만들어서 매핑을 시켜 사용하는 방법 ex) “국회 TV 에서 지금 뭐해?” ==> channel(now) ? program(what) ex) “지금 날시 어때?” ==> outside(now) ? whether(what) 현업에서 많이 사용하고 있는 방법

statistical approach ( 확률적 접근법 ): TF-IDF 를 이용한 키워드 추출 * TF(term frequency) : 단어가 문서에 등장한 개수. 높을수록 중요한 단어 * DF(document frequency) : 단어가 등장한 문서의 개수. 높을수록 중요하지 않은 단어

자연어 처리

  • 문서분류
  • 문법, 오타교정
  • 정보추출
  • 음성인식결과 보정 - soltlux 의 경우 AI 가 알아먹을 수 없는 단어 이므로 한글로 ‘솔’ ‘트’ ‘룩’ ‘스’ 라고 표기 혹은 발음해줌
  • 음성합성 텍스트 보정
  • 정보검색
  • 요약문 생성
  • 기계번역
  • 질의응답
  • 기계독해
  • 챗봇
  • 형태소분석
  • 개체명분석
  • 구문분석
  • 감성분석
  • 관계추출
  • 의도파악

형태소분석, 문서분류, 개체명인식등 대부분이 분류의 문제 어떻게 분류 할 것인가?

분류 –> 분류 대상의 특징 추출

one hot vec ==> sparserepresentation

문장을 어절단위로 분리하고 좌표위에 배치 –> n 개의 어절 발생 시 n개의 vector size 발생. 나열된 어절들이 unique 하지 않음.

word2vec ==> dense representation

주변단어들을 통해 그 단어의 의미를 파악. 단어의 의미가 벡터로 표현됨으로써 벡터연산이 가능. 단 동형어 다의어 등에 대해서는 embedding 성능이 좋지 못하다. ex) ( king vector - man vec ) + ( queen vec ) = women vec

gensim

word2vec 을 이용할 수 있는 라이브러리

fasttext

facebook 에서 공개한 library. word2vec 과 동일하나

BERT

기계독해로 가장 유명하다.

OOV

단어셋에 없는 단어를 뜻하며 indexing 이 불가능하다.

몇 번 더 보고 보충예정입니다.



nlpbert Share Tweet +1