'인공지능과기계학습'이라는 인공지능학부 강의 종강 후
<파이토치 딥러닝 프로젝트 모음집>이라는 책을 읽고 정리해보았다
이미지 처리, 텍스트 처리, 음성 분류에 이르기까지 6가지 종류의 프로젝트 실습 코드가 있는 책이니
학부에서 배운 걸 한번 써먹어보고 싶다 하는 다양한 분들께 추천
<자연어 처리(NLP)의 개념>
-자연어 처리: 텍스트 데이터를 모델링하는 분야.
다양한 분야가 있으며 대표적으로 텍스트 분류, 감정 분석, 요약, 기계 번역, 질문 응답 등이 있음.
책 part5에 해당하는 '국민청원 분류하기'는 이 중에서 텍스트 분류에 해당.
문장에 대한 정보를 활용하여 글을 분류.
TextCNN이라는 모델을 적용하여 특정 글에서 청원 참여인원이 1,000명 이상 달성될지 여부를 분류하는 것이 목표.
주목받을 만한 글을 예측하기.
중대하지만 눈에 띄지 않고, 도움이 반드시 필요하지만 관심을 받지 못한 사연들이 전해지도록.
>>>근데 '주목받을 만한'이라는 기준이 뭔가?
>>>딥러닝 모델을 통하여 높은 청원 참여인원을 기록한 글들의 특징을 학습하여,
새로운 글이 입력되었을 때 청원 참여인원이 높은 글들과의 유사성을 계산하여 주목받을 만한 글인지 아닌지를 판단하도록 함
헉 재밌다..
크롤링부터 쭉 절차가 나와있음
크롤링> 데이터 전처리(공백/특수문자 제거)> 토크나이징 및 변수 생성 > 단어 임베딩> 실험 설계(트레인과 밸리드 데이터셋 분할)> 분류
*참고: 임베딩
자연어 처리에서는 특징을 추출하여 수치로 나타내야 함. 이것을 벡터화라고 하고, 이 벡터화의 과정을 워드 임베딩이라고 함.
남자, 여자-> 0,1 이듯이.
미디어학부에서도 했었는데 그때는 라벨링이라고 했었다.
AWS사이트에서는 임베딩을 "기계 학습(ML) 및 인공 지능(AI) 시스템이 인간처럼 복잡한 지식 영역을 이해하는 데 사용하는 실제 객체를 수치로 표현한 것"이라고 설명함.
https://aws.amazon.com/ko/what-is/embeddings-in-machine-learning/
주성분 분석(PCA), 특잇값 분해(SVD) 이런 것도 다 임베딩.
part 4의 작물 잎 사진으로 질병 분류하기 해보고 깃허브에 정리해야겠다.
프로젝트 카테고리를 만들어서 티스토리에도 몰아넣어야지.
'CS > AI' 카테고리의 다른 글
코딩 공부 관련 다짐 (0) | 2023.02.10 |
---|---|
230124 알고리즘 공부/ 프로그래밍 계획 (0) | 2023.01.25 |