Home
About
- likewind7
  
  알아가는 즐거움
- Learn More
- Instagram
- Github
- Youtube
Posts
- All Posts
- All Tags
Category
- All Category
- news
- nlp
- sample post
- vxworks
- windows
- wsl
Projects

Bert, kobert 강의내용 정리

20 Aug 2020

Reading time ~1 minute

이 번 post는 soltlux 김성현 연구원 님의 강의를 요약하려고 한 내용입니다.

https://www.youtube.com/watch?v=qlxrXX5uBoU

자연어 처리

대화의 과정 메시지의 전달 –> 메시지의 부호화 –> 경로 –> 메시지의 수신 –> 메시지의 해독 –> 피드백 device 에서 data가 전달되는 방식역시 이와 닮아 있다.

규칙기반의 접근법: 특정패턴을 만들어서 매핑을 시켜 사용하는 방법 ex) “국회 TV 에서 지금 뭐해?” ==> channel(now) ? program(what) ex) “지금 날시 어때?” ==> outside(now) ? whether(what) 현업에서 많이 사용하고 있는 방법

statistical approach ( 확률적 접근법 ): TF-IDF 를 이용한 키워드 추출 * TF(term frequency) : 단어가 문서에 등장한 개수. 높을수록 중요한 단어 * DF(document frequency) : 단어가 등장한 문서의 개수. 높을수록 중요하지 않은 단어

자연어 처리

문서분류
문법, 오타교정
정보추출
음성인식결과 보정 - soltlux 의 경우 AI 가 알아먹을 수 없는 단어 이므로 한글로 ‘솔’ ‘트’ ‘룩’ ‘스’ 라고 표기 혹은 발음해줌
음성합성 텍스트 보정
정보검색
요약문 생성
기계번역
질의응답
기계독해
챗봇
형태소분석
개체명분석
구문분석
감성분석
관계추출
의도파악

형태소분석, 문서분류, 개체명인식등 대부분이 분류의 문제 어떻게 분류 할 것인가?

분류 –> 분류 대상의 특징 추출

one hot vec ==> sparserepresentation

문장을 어절단위로 분리하고 좌표위에 배치 –> n 개의 어절 발생 시 n개의 vector size 발생. 나열된 어절들이 unique 하지 않음.

word2vec ==> dense representation

주변단어들을 통해 그 단어의 의미를 파악. 단어의 의미가 벡터로 표현됨으로써 벡터연산이 가능. 단 동형어 다의어 등에 대해서는 embedding 성능이 좋지 못하다. ex) ( king vector - man vec ) + ( queen vec ) = women vec

gensim

word2vec 을 이용할 수 있는 라이브러리

fasttext

facebook 에서 공개한 library. word2vec 과 동일하나

BERT

기계독해로 가장 유명하다.

OOV

단어셋에 없는 단어를 뜻하며 indexing 이 불가능하다.

몇 번 더 보고 보충예정입니다.