- 다른 이름들 : KDD(Knowledge discovery in database), Knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence.....
- 데이터 마이닝에 속하지 않는 것 : Query processing(질의 처리), Expert systems(전문가 시스템), 소규모의 머신러닝, 통계 프로그램
4. KDD Process : 데이터 마이닝 과정
Databases : 이질적인 데이터베이스 내에 산재되어 있는 데이터(Transactions....)
Data Cleaning : noise 제거, 정제 / Data Integration : 산재된 데이터를 통합
Data Warehouse : 데이터를 요약되고 집계된 형태로 저장하는 저장소
Selection : domain에 관련된 데이터만 추출
Task-relevant Data : 타겟에 적합한 데이터들의 집합
Data Mining : 데이터에서 패턴을 추출
Pattern Evaluation : 패턴을 평가하고 시각화하여 제시
- Target data set을 형성하기 위해 application에 대한 사전 학습이 필요
- Data Cleaning과 Preprocessing이 전체 작업의 60~70%를 차지할 정도로 소모적인 작업
Introduction to Data Mining
1. Motivation : 데이터 마이닝 탄생의 원인
- Data explosion problem : 발전된 데이터 베이스 기술과 자동 데이터 수집 툴로 인해 엄청난 양의 데이터가 데이터베이스, 데이터 웨어하우스 등 여러 정보 저장장치에 쌓이게 됨.
- 이 거대한 규모의 데이터에서 제대로 된 정보, 지식을 얻는 것이 중요해짐
("We are drowning in data, but starving for knowledge!")
- 이러한 문제에 대한 해결 방법 : 데이터 마이닝, 데이터 웨어하우스
- 데이터 웨어 하우싱과 온라인 분석 처리(On-line analytical processing, OLAP)
- 거대한 데이터 베이스의 데이터로부터 흥미로운 지식(규칙, 제한, 패턴...)을 추출
2. Evolution : 데이터 베어스 기술의 진화 과정
3. Data Mining : 데이터 마이닝의 정의
: 거대한 데이터 베이스의 데이터에서 "흥미로운" 패턴이나 정보를 추출하는 것
- 흥미롭다(interesting) = non-trivial, implicit, previously unknown, potentially useful
(사소하지 않다, 암시적이다, 이전에는 알려지지 않았다, 잠재적으로 유용하다)
- 다른 이름들 : KDD(Knowledge discovery in database), Knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence.....
- 데이터 마이닝에 속하지 않는 것 : Query processing(질의 처리), Expert systems(전문가 시스템), 소규모의 머신러닝, 통계 프로그램
4. KDD Process : 데이터 마이닝 과정
- Target data set을 형성하기 위해 application에 대한 사전 학습이 필요
- Data Cleaning과 Preprocessing이 전체 작업의 60~70%를 차지할 정도로 소모적인 작업
- Data reduction and transformation
ex) 유용한 특징 탐색, 차원 축소, 변수 축소, 단위 등에서의 비일관성 삭제
- 데이터 마이닝 목적에 맞는 기능 선택
ex) summarization, classification, regression, association, clustering......
- 데이터 마이닝 목적에 맞는 알고리점 선택
- 데이터 마이닝 실행 : 흥미로운 패턴 탐색
- 패턴 평가 후 지식 제시
ex) visualization, transformation, removing redundant patterns.....
- 지식 사용
5. Architecture : 전형적인 데이터 마이닝 시스템의 구조
6. On What Kind of Data : 데이터 마이닝의 대상
- 관계형 데이터 베이스
- 거래 데이터 베이스
- 데이터 웨어하우스
- 발전된 데이터 베이스 또는 정보 저장소
ex) OO(객체 지향), OR(객체-관계) 데이터베이스
공간 데이터 베이스(Spatial Database)
시계열 데이터(시간에 따라 값의 변동이 존재), (Time-series data, temporal data)
텍스트 데이터베이스, 멀티미디어 데이터베이스
이질형 데이터베이스(Oracle, MySQL......)
WWW(World Wide Web)
7. Functionalities : 데이터 마이닝 기능
- Concept description : Characterization, Discrimination (데이터의 특성을 일반화, 요약, 대조)
ex) 건조한 기후의 지역과, 습한 지역을 분석하여 구별
- Association : Correlation, Causality (상관관계나 인과관계 분석)
- X -> Y [Support(중요도, Confidence(신뢰도)]의 형태
("X조건을 만족시키는 tuple은 Y조건을 만족시킨다")
- single dimensional association, multi-dimensional association
- Classification (범주형 자료 예측) : 데이터를 범주로 구별, 묘사하는 model 탐색
- Class Label을 알고 있을 때(Supervised Learning)
- Presentation 방법 : decision-tree, classification rule, neural network
- Prediction (수치형 자료 예측) : 알려지지 않았거나, 누락된 수치 예측
- Cluster Analysis (군집화) : Class Label을 모를 때, 새로운 class를 형성하기 위한 데이터 그룹핑
(Unsupervised Learning)
- class 내의 data item간의 유사도는 최대로, 서로 다른 class사이의 data item간의 유사도는 최소로
- OutLier Analysis : 일반적인 데이터와 상응하지 않는 데이터(Outlier) 분석
- noise나 exception으로 처리될 수도 있지만, fraud detection이나 rare events analysis에서는 중요
- Trend and evolution Analysis : 회귀 분석을 통하여 trend와 deviation을 구분, 분석
- 시간적 패턴, 주기적 패턴 분석
- Other pattern-directed or statistical Analyses.....
8. Are all the discovered patterns interesting? : 패턴 평가
- 데이터 마이닝을 통해 수천가지의 패턴을 얻어낼 수 있지만, 발견된 모든 패턴이 흥미롭지는 않음
- Interrestingness Measure : 사람이 이해하기 쉽고, 테스트 데이터나 새로운 데이터에서도 유효하며, 잠재적으로 유용하거나 새롭고, 사용자가 확인하려는 가설을 입증해주는 패턴이 필요
- Objective vs Subjective interestingness measures
- Objective measure : 통계학적, 구조적 패턴에 기반(support, confidence....)
- Subjective measure : 데이터에 대한 사용자의 판단에 기반(unexpecedness, novelty, actionability..)
9. Can we find all/only interesting patterns : 패턴 탐색 방식
- Completeness : 모든 패턴을 탐색 (Association, classification, clustering)
- Optimization : 흥미로운 패턴만 탐색
- 먼저 모든 패턴을 찾고, 이후에 흥미롭지 않은 패턴들을 제거
- Mining Query Optimization을 이용해 흥미로운 패턴만을 탐색
10. Classification : 데이터 마이닝의 분류
- General Functionality(일반적 기능)에 따른 분류
- Descriptive Data mining : 숨겨진 특성을 찾아냄
- Predictive Data mining : 미래의 data를 예측
- 기타 분류 방식
- Database to be mined(대상 데이터 베이스에 따라)
ex)Relational, transactional, Object-Oriented, Object-Relational, active, spatial, time-series, text....
- Knowledge to be mined(대상 지식에 따라)
ex)Characterization, discrimination, association, classification, clustering, trend, deviation....
- Techniques utilized(사용되는 기술에 따라)
ex)Database-oriented, data warehouse(OLAP), machine learning, statistics, neural network....
- Application adapted(사용되는 분야에 따라)
ex)Retail, telecommunication, bankin,g fraud analysis, DNA mining, stock market analysis....
'전공 과목 공부 > 데이터 사이언스' 카테고리의 다른 글