목록복습 (1)
서랍장

keyword 자카드 유사도 --> (ex 문서의 유사성, 표절, 미러 페이지, 출처가 같은 기사들)(ex 유사 집합 문제에서의 협업 필터링, 온라인 구매, 영화 순위) ***bag similarity 만약 특정 상품에 n개의 별을 준다면, 집합에 해당 상품을 n번 넣는다. 이후 자카드 유사도를 판단하는 과정에서 백 유사성 (Bag-similarity)를 사용한다. 교집합을 구하는 과정에선 해당 원소가 나오는 최소횟수를 구해주고, 합집합을 구할때는 나오는 전체 갯수로 구해준다. k-shingles(슁글) --> 문서 내에서 발견되는 길이가 k인 부분문자열로 정의 (슁글의 크기는 보통 5~10) characteristic matrix(특성 행렬) --> 행렬의 열은 집합에 해당되며, 행은 집합의 원소들에 ..
big-data
2021. 3. 16. 21:42