About Data(3)

전공 과목 공부/데이터 사이언스

About Data(3)

캐티시 2021. 3. 17. 19:37

13. Similarity and Dissimilarity (유사도와 비유사도)

1. Simila rity (유사도)

- 두 데이터 객체가 얼마나 같은지에 대한 수치 측정

- 두 객체가 비슷할 수록 값이 높다

- 범위 : [0, 1]

2. Dissimilarity (비유사도)

- 두 데이터 객체가 얼마나 다른지에 대한 수치 측정

- 두 객체가 비슷할 수록 값이 낮다

- 최소 dissimilarity는 0이지만, 최댓값은 다양할 수 있음

※Proximity (근접도) : similarity와 dissimilarity를 모두 가리킴

14. Data Matrix (데이터 행렬) / Dissimilarity Matrix (차이 행렬)

1. Data Matrix

- n개의 attribute를 가진 m개의 data objects를 행렬로 저장

-> two modes (data object, attribute)

2. Dissimilarity Matrix

- n개의 data object들의 서로간 distance를 행렬로 저장

- d(i,j) == d(j,i) 이므로, triangular matrix라고 할 수 있음

- single mode (data object)

15. Proximity Measure (근접도 측정)

15-1. Proximity Measure for Nominal Attributes (명목형 속성의 근접도 측정)

- nominal attribute는 2가지 이상의 state를 가짐 ex) hair_color = {black, brown, red, yellow}

- 방법 1 : Simple Matching

- m이 일치하는 attribute의 수이고, p가 총 attribute의 수일때, data object i와 j의 dissimilarity

d(i, j) = (p - m) / p

- 방법 2 : 여러개의 binary attribute로 바꾸어 계산

- nominal attribute의 각각의 state에 대한 binary attribute를 생성하고, 근접도를 측정

- ex) hair_color attribute의 state가 {black, brown, red, yellow}으로 4가지 일때, 각 state에 대한 Y/N의 binary attrbute를 생성

15-2. Proximity Measures for Binary Attributes (이진형 속성의 근접도 측정)

- binary data에 대한 contingency table(분할표)를 계산

- q : 객체 i와 객체 j 모두 값이 1인 attribute의 수

- r : 객체 i는 1, 객체 j는 0의 값인 attribute의 수

- s : 객체 i는 0, 객체 j는 1의 값인 attribute의 수

- t : 객체 i와 객체 j 모두 값이 0인 attribute의 수

- symmetric binary variable의 경우 distance는 d(i, j) = (r + s) / (q + r + s + t)

- asymmetric binary variable의 경우 distance는 d(i, j) = (r + s) / (q + r + s) (흔한 값인 t가 분모에 있으면 d값간의 비교가 어렵기 때문)

- Jaccard coefficient (자카드 계수) : 두 집합간의 유사도 Dissimilarity (유사도와 비유사도)

- asymmetric binary variable의 Jaccard coefficient는

16. Standardizing Numeric Data (수치형 데이터의 정규화)

16-1.Z-score(Z 점수, 표준 점수) : 각 raw data가 표준편차 상에서 어떤 위치에 있는지를 나타냄

(x = 정규화할 값, μ = 모집단 평균, σ = 표준 편차)

- data가 평균보다 작다면 음수, 평균보다 크다면 양수의 값을 가짐

16-2. Mean Absolute Deviation (평균 절대 편차)

(n = data object의 개수, m = 평균)

- 평균 절대 편차를 Z-score에 표준편차 대신 사용하는 것이 더 성능이 뛰어남

17. Distance on Numeric Data : Minkowski Distance (민코브스키 거리)

- x = ( x1, x2, x3, ..., xn)과 y = (y1, y2, y3, ... , yn)이 n개의 attribute를 가진 data object일때

(p는 1보다 큰 실수로, 거리의 차수. 차수가 p인 거리는 L-p norm)

- 특징

- positive definiteness : i ≠ j라면, d(i, j) > 0 이고, d(i, i)는 0

- Symmetry : d(i, j) == d(j, i)

- Triangle inequality : d(i, j) ≤ d(i, k) + d(k, j)

17-1. 민코브스키 거리의 유형

- p = 1 : Manhattan Distance (city block distance, L-1 norm distance), 맨하탄 거리

- p = 2 : Euclidean Distance (L-2 norm distance), 유클리드 거리

- p ->∞ : Supremum Distance ( L-max norm distance, L-∞ norm distance), 최소 상계 거리

- 2개의 data objects의 attribute중 값의 최대 차이를 보이는 attribute로 계산

18. Cosine Similarity (코사인 유사도)

: 두 vector 사이의 유사도를 측정

- A·B = vector의 dot product (점곱), ||A|| ||B|| = vector 의 길이