About Data(3)

전공 과목 공부/데이터 사이언스 2021. 3. 17. 19:37

13. Similarity and Dissimilarity (유사도와 비유사도) 1. Simila rity (유사도) - 두 데이터 객체가 얼마나 같은지에 대한 수치 측정 - 두 객체가 비슷할 수록 값이 높다 - 범위 : [0, 1] 2. Dissimilarity (비유사도) - 두 데이터 객체가 얼마나 다른지에 대한 수치 측정 - 두 객체가 비슷할 수록 값이 낮다 - 최소 dissimilarity는 0이지만, 최댓값은 다양할 수 있음 ※Proximity (근접도) : similarity와 dissimilarity를 모두 가리킴 14. Data Matrix (데이터 행렬) / Dissimilarity Matrix (차이 행렬) 1. Data Matrix - n개의 attribute를 가진 m개의 data..

Article Thumbnail
About Data(2)

전공 과목 공부/데이터 사이언스 2021. 3. 10. 18:20

7. Data Visualization (데이터 시각화) 1. 목적 - Data는 raw material이므로 단순한 수치로 제공하면 이해하고, 한 눈에 알아보기 어렵다 -> Data가 의사 결정 과정에 도움이 되려면 시각화가 필요 - Data를 그래픽 요소로 매핑시킴으로써 정보 공간에 대한 insight 제공 - 거대한 Data sets에 대한 질적인 overview 제공 - Data간의 패턴, 경향, 구조, 이상성, 관계 탐색에 도움 - 정량 분석 시에 적합한 인자를 파악하는데 도움 2. 시각화의 종류 - Pixel-oriented visualiation techniques - Geometric projection techniques - Icon-based visualization techniques..

Article Thumbnail
About Data(1)

전공 과목 공부/데이터 사이언스 2021. 3. 10. 14:43

1. Data Set의 유형 Record : Database에서 가장 많이 다루는 유형 - Relational records(관계형 레코드) : Table의 형태로 Relational Database에서 사용 - Attribute(Column, field, variable, dimension, feature) : Data Entity의 특성을 설명 - Tuple(Row, Record, instance, Data object, Sample) : 하나의 Data Entity를 설명 - Document Data : Text Document를 term-frequency의 vector 형식으로 표현 -> Document 간의 유사성 파악 가능 - ex) Document1 = 5, 0, 3, 0, 2, 0, 0, ..

Article Thumbnail