단어를 기계가 이해할 수 있는 숫자로 변환하는 과정에서, 초기에 원핫인코딩이 사용되었다.
원핫인코딩의 비효율적인 데이터 구조를 어떻게 개선할 수 있을까?
전체 문서에서 각 단어의 등장 횟수를 카운트한다.
높은 빈도에 역으로 가중치를 두어서, 전체 문서에서 일반적으로 등장하는 단어에는 낮은 가중치를 둔다.
관심 문서에만 특이하게 여러 번 등장하는 단어는 가중치를 두어, 중요 단어로 만든다.
사람이 짜는 알고리즘에서 발전하여 딥러닝 알고리즘을 적용한 NLP가 보다 성능이 좋다.
그럼에도 불구하고, 다음 세대인 LLM에 비하면 비교 불가하게 저성능이다.
갈수록 높아지는 멀티모달 및 ai 의존성에서 독립적이기 위해, 국가적 차원에서 지원하는 현 정부의 정책이다.
저물어가는 분야에 머물기보다는, 새로운 시장을 찾아가는 태도가 중요하다. 덧붙여, 원하는 분야만 준비하기보다는, 여러 액션을 취하면서 준비하는 게 바람직하다.
그러한 의미에서, 교육 분야를 겸업하며 원하는 분야에 준비해보는 것도 수입적으로도 전망적으로도 의미가 있다.
문장을 유효한 단어들로만 토큰화한다.
빈도수로 단어를 필터링한다.
상위 빈도수의 단어들 500개만 매개변수로 남긴다.