DTM(Document-Term Matrix, 문서 단어 행렬)
DTM(Document-Term Matrix, 문서-용어 행렬)은 텍스트 마이닝과 자연어 처리(NLP)에서 문서 컬렉션 내의 용어 빈도를 설명하기 위해 사용되는 수학적 행렬입니다. 이 행렬은 각 문서를 행으로, 코퍼스 내의 모든 고유 용어를 열로 나타내며, 각 셀에는 문서 내에서 해당 용어가 나타나는 빈도(또는 가중치)가 포함됩니다.DTM의 구성행(Rows): 각각의 행은 다른 문서를 나타냅니다. 만약 분석하고자 하는 문서 컬렉션이 100개의 문서를 포함하고 있다면, DTM은 100개의 행을 갖게 됩니다.열(Columns): 각 열은 코퍼스 내의 고유한 용어를 나타냅니다. 예를 들어, 모든 문서에서 총 1,000개의 고유 용어가 발견되었다면, DTM은 1,000개의 열을 갖게 됩니다.값(Values): ..