Introduction to Data Mining

1. Motivation : 데이터 마이닝 탄생의 원인

- Data explosion problem : 발전된 데이터 베이스 기술과 자동 데이터 수집 툴로 인해 엄청난 양의 데이터가 데이터베이스, 데이터 웨어하우스 등 여러 정보 저장장치에 쌓이게 됨.

- 이 거대한 규모의 데이터에서 제대로 된 정보, 지식을 얻는 것이 중요해짐

   ("We are drowning in data, but starving for knowledge!")

- 이러한 문제에 대한 해결 방법 : 데이터 마이닝, 데이터 웨어하우스

     - 데이터 웨어 하우싱과 온라인 분석 처리(On-line analytical processing, OLAP)

     - 거대한 데이터 베이스의 데이터로부터 흥미로운 지식(규칙, 제한, 패턴...)을 추출

 

2. Evolution : 데이터 베어스 기술의 진화 과정

  • 1960년대 이전 : File system이 존재
  • 1960년대 : Data Collection, Database, 정보 관리 시스템(Information Management System,IMS), DBMS
  • 1970년대 : 관계형 데이터 베이스, RDBMS, 발전된 데이터 모델(extended-relational, Object-Oriented, Object-Relational), application-oriented DBMS
  • 1990-2000년대 : 데이터 마이닝, 데이터 웨어하우스, 멀티미디어 DB, Web DB

3. Data Mining : 데이터 마이닝의 정의

: 거대한 데이터 베이스의 데이터에서 "흥미로운" 패턴이나 정보를 추출하는 것

- 흥미롭다(interesting) = non-trivial, implicit, previously unknown, potentially useful

                          (사소하지 않다, 암시적이다, 이전에는 알려지지 않았다, 잠재적으로 유용하다)

- 다른 이름들 : KDD(Knowledge discovery in database), Knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence.....

- 데이터 마이닝에 속하지 않는 것 : Query processing(질의 처리), Expert systems(전문가 시스템), 소규모의 머신러닝, 통계 프로그램

 

4. KDD Process : 데이터 마이닝 과정

  • Databases : 이질적인 데이터베이스 내에 산재되어 있는 데이터(Transactions....)
  • Data Cleaning : noise 제거, 정제        / Data Integration : 산재된 데이터를 통합
  • Data Warehouse : 데이터를 요약되고 집계된 형태로 저장하는 저장소
  • Selection : domain에 관련된 데이터만 추출 
  • Task-relevant Data : 타겟에 적합한 데이터들의 집합
  • Data Mining : 데이터에서 패턴을 추출
  • Pattern Evaluation : 패턴을 평가하고 시각화하여 제시

- Target data set을 형성하기 위해 application에 대한 사전 학습이 필요

- Data Cleaning과 Preprocessing이 전체 작업의 60~70%를 차지할 정도로 소모적인 작업

- Data reduction and transformation

    ex) 유용한 특징 탐색, 차원 축소, 변수 축소, 단위 등에서의 비일관성 삭제

- 데이터 마이닝 목적에 맞는 기능 선택

    ex) summarization, classification, regression, association, clustering......

- 데이터 마이닝 목적에 맞는 알고리점 선택

- 데이터 마이닝 실행 : 흥미로운 패턴 탐색

- 패턴 평가 후 지식 제시

    ex) visualization, transformation, removing redundant patterns.....

- 지식 사용

 

5. Architecture : 전형적인 데이터 마이닝 시스템의 구조

6. On What Kind of Data : 데이터 마이닝의 대상

- 관계형 데이터 베이스

- 거래 데이터 베이스

- 데이터 웨어하우스

- 발전된 데이터 베이스 또는 정보 저장소

     ex) OO(객체 지향), OR(객체-관계) 데이터베이스

          공간 데이터 베이스(Spatial Database)

          시계열 데이터(시간에 따라 값의 변동이 존재), (Time-series data, temporal data)

          텍스트 데이터베이스, 멀티미디어 데이터베이스

          이질형 데이터베이스(Oracle, MySQL......)

          WWW(World Wide Web)

7. Functionalities : 데이터 마이닝 기능

- Concept description : Characterization, Discrimination (데이터의 특성을 일반화, 요약, 대조)

       ex) 건조한 기후의 지역과, 습한 지역을 분석하여 구별

- Association : Correlation, Causality (상관관계나 인과관계 분석)

        - X -> Y [Support(중요도, Confidence(신뢰도)]의 형태

              ("X조건을 만족시키는 tuple은 Y조건을 만족시킨다")

        - single dimensional association, multi-dimensional association

- Classification (범주형 자료 예측) : 데이터를 범주로 구별, 묘사하는 model 탐색

        - Class Label을 알고 있을 때(Supervised Learning)

        - Presentation 방법 : decision-tree, classification rule, neural network

- Prediction (수치형 자료 예측) : 알려지지 않았거나, 누락된 수치 예측

- Cluster Analysis (군집화) : Class Label을 모를 때, 새로운 class를 형성하기 위한 데이터 그룹핑

                                    (Unsupervised Learning)

        - class 내의 data item간의 유사도는 최대로, 서로 다른 class사이의 data item간의 유사도는 최소로

- OutLier Analysis : 일반적인 데이터와 상응하지 않는 데이터(Outlier) 분석

        - noise나 exception으로 처리될 수도 있지만, fraud detection이나 rare events analysis에서는 중요

- Trend and evolution Analysis : 회귀 분석을 통하여 trend와 deviation을 구분, 분석

        - 시간적 패턴, 주기적 패턴 분석

- Other pattern-directed or statistical Analyses.....

8. Are all the discovered patterns interesting? : 패턴 평가

- 데이터 마이닝을 통해 수천가지의 패턴을 얻어낼 수 있지만, 발견된 모든 패턴이 흥미롭지는 않음

- Interrestingness Measure : 사람이 이해하기 쉽고, 테스트 데이터나 새로운 데이터에서도 유효하며, 잠재적으로 유용하거나 새롭고, 사용자가 확인하려는 가설을 입증해주는 패턴이 필요

- Objective vs Subjective interestingness measures

        - Objective measure : 통계학적, 구조적 패턴에 기반(support, confidence....)

        - Subjective measure : 데이터에 대한 사용자의 판단에 기반(unexpecedness, novelty, actionability..)

9. Can we find all/only interesting patterns : 패턴 탐색 방식

- Completeness : 모든 패턴을 탐색 (Association, classification, clustering)

- Optimization : 흥미로운 패턴만 탐색

        - 먼저 모든 패턴을 찾고, 이후에 흥미롭지 않은 패턴들을 제거

        - Mining Query Optimization을 이용해 흥미로운 패턴만을 탐색

10. Classification : 데이터 마이닝의 분류

- General Functionality(일반적 기능)에 따른 분류

        - Descriptive Data mining : 숨겨진 특성을 찾아냄

        - Predictive Data mining : 미래의 data를 예측

- 기타 분류 방식

        - Database to be mined(대상 데이터 베이스에 따라)

            ex)Relational, transactional, Object-Oriented, Object-Relational, active, spatial, time-series, text....

        - Knowledge to be mined(대상 지식에 따라)

            ex)Characterization, discrimination, association, classification, clustering, trend, deviation....

        - Techniques utilized(사용되는 기술에 따라)

            ex)Database-oriented, data warehouse(OLAP), machine learning, statistics, neural network....

        - Application adapted(사용되는 분야에 따라)

            ex)Retail, telecommunication, bankin,g fraud analysis, DNA mining, stock market analysis....

 

 

'전공 과목 공부 > 데이터 사이언스' 카테고리의 다른 글

Data Preprocessing(1)  (0) 2021.03.17
About Data(3)  (0) 2021.03.17
About Data(2)  (0) 2021.03.10
About Data(1)  (0) 2021.03.10
Introduction to Data Science  (0) 2021.03.06