수업

one-hot encoding

단어를 기계가 이해할 수 있는 숫자로 변환하는 과정에서, 초기에 원핫인코딩이 사용되었다.

원핫인코딩의 비효율적인 데이터 구조를 어떻게 개선할 수 있을까?

TF-IDF (Term Frequency-Inverse Document Frequency)

전체 문서에서 각 단어의 등장 횟수를 카운트한다.

높은 빈도에 역으로 가중치를 두어서, 전체 문서에서 일반적으로 등장하는 단어에는 낮은 가중치를 둔다.

관심 문서에만 특이하게 여러 번 등장하는 단어는 가중치를 두어, 중요 단어로 만든다.

한계

사람이 짜는 알고리즘에서 발전하여 딥러닝 알고리즘을 적용한 NLP가 보다 성능이 좋다.

그럼에도 불구하고, 다음 세대인 LLM에 비하면 비교 불가하게 저성능이다.

소버린 ai

갈수록 높아지는 멀티모달 및 ai 의존성에서 독립적이기 위해, 국가적 차원에서 지원하는 현 정부의 정책이다.

저물어가는 분야에 머물기보다는, 새로운 시장을 찾아가는 태도가 중요하다. 덧붙여, 원하는 분야만 준비하기보다는, 여러 액션을 취하면서 준비하는 게 바람직하다.

그러한 의미에서, 교육 분야를 겸업하며 원하는 분야에 준비해보는 것도 수입적으로도 전망적으로도 의미가 있다.

bag of words

문장을 유효한 단어들로만 토큰화한다.

빈도수로 단어를 필터링한다.

상위 빈도수의 단어들 500개만 매개변수로 남긴다.