본문 바로가기

서랍장

검색하기
서랍장
프로필사진 소소한 프로그래머

  • 분류 전체보기 (28)
    • prolog (5)
    • big-data (9)
    • code-jam (0)
    • algorithm (7)
    • CS224(2021WINTER) (0)
    • private (3)
      • memo (0)
      • 나의 공부방 (3)
Guestbook
Apple 2023 맥북 프로 14, 스페이스그레이, M2 Pro 10코어, 16코어, 512GB, 16GB, Z17G0005G, 영문
Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
  • 산업공학과
  • Min Hash
  • 이분 탐색
  • 복습
  • 빅데이터
  • 1060
  • LeetCode
  • Algorithm
  • 입국심사
  • big data
  • 프로그래머스
  • 189
  • 리트코드
more
Archives
Today
Total
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록복습 (1)

서랍장

빅데이터 2 week 정리 (mining massive datasets)

keyword 자카드 유사도 --> (ex 문서의 유사성, 표절, 미러 페이지, 출처가 같은 기사들)(ex 유사 집합 문제에서의 협업 필터링, 온라인 구매, 영화 순위) ***bag similarity 만약 특정 상품에 n개의 별을 준다면, 집합에 해당 상품을 n번 넣는다. 이후 자카드 유사도를 판단하는 과정에서 백 유사성 (Bag-similarity)를 사용한다. 교집합을 구하는 과정에선 해당 원소가 나오는 최소횟수를 구해주고, 합집합을 구할때는 나오는 전체 갯수로 구해준다. k-shingles(슁글) --> 문서 내에서 발견되는 길이가 k인 부분문자열로 정의 (슁글의 크기는 보통 5~10) characteristic matrix(특성 행렬) --> 행렬의 열은 집합에 해당되며, 행은 집합의 원소들에 ..

big-data 2021. 3. 16. 21:42
Prev 1 Next

Blog is powered by kakao / Designed by Tistory

티스토리툴바