Classification and Prediction(2)

전공 과목 공부/데이터 사이언스 2021. 5. 1. 00:20

7. Overfitting (과적합) 과 Tree Pruning (가지 치기) 1) Overfitting : 유도된 Decision tree는 training data로 인해 과적합의 문제를 포함할 수 있음 training data에 노이즈나 이상치(outlier)가 있다면 tree에도 반영되어 분기 branch가 지나치게 많아짐 ->이는 아직 학습하지 못한 sample에 대해 낮은 정확성을 가져옴 2) Pruning : Overfitting 문제를 해결하기 위한 방법으로, 가장 신뢰성이 떨어지는 분기 branch를 제거 - Prepruning : Tree를 유도하는 과정에서 잠시 중단하여 가지치기를 진행 - 특정 노드의 분기가 Tree의 적합도를 일정 threshold (한도) 이하로 내린다면 분기하지..

Article Thumbnail
Classification and Prediction(1)

전공 과목 공부/데이터 사이언스 2021. 4. 23. 21:58

1. Classification vs Prediction 1) Classification (분류) - 범주형 (discrete, nominal) attribute의 class label 예측 - training set을 이용하여 data를 분류하는 model을 구축, 이를 통해 새로운 데이터를 분류 - classifying attribute : model을 구축하는데 사용되는 attribute - target dimension(attribute) : 새로운 데이터의 분류 예측 대상이 되는 attribute -> training set의 class label(예측의 대상이되는 attribute의 값)을 이용하여 model을 만들고, 이를 이용해 새로운 데이터의 target dimension을 class l..

Article Thumbnail
Frequent Pattern Analysis

전공 과목 공부/데이터 사이언스 2021. 4. 15. 20:13

1. Frequent Pattern Analysis (빈팔 패턴 분석) 1) Frequent Pattern Analysis이란 무엇인가 - Frequent Pattern (빈발 패턴) : 데이터 셋에서 자주 발생하는 패턴 ex) itemset, subsequence(부분순차), substructure (부분 구조).... - 93년 Agrawal, Imielinski, Swami가 frequent itemset과 association rule mining (연관 관계 마이닝)으로 처음 제시 - 목적 : 데이터에 내재되어있는 규칙성의 발견 - ex) 어떤 제품이 주로 함께 구매되는가? PC 구매 후의 구매 subsquence는 무엇인가? 어떤 종류의 DNA가 새 약에 민감한가? 웹문서를 자동으로 분류할 수..

Article Thumbnail
Data Warehousing and OLAP(3)

전공 과목 공부/데이터 사이언스 2021. 4. 9. 19:47

13. 데이터 웨어하우스의 설계 1) Top-down (하향식 접근)과 Bottom-up (상향식 접근) / 두 방식의 조합 - Top-down approach : 전반적인 설계와 기획에서 시작 - 기술이 성숙되어있으며, 해결해야하는 비즈니스 문제가 명확하고 이해하기 쉬운 경우 - 전체 비즈니스 문제에 대한 전반적인 디자인 후 문제를 세분화하며 진행 - Bottom-up approach : 실험과 프로토타입으로 시작 - 비즈니스 모델링과 기술 개발 초기에 큰 도움 - 조직이 중요업무를 수행하기 전, 상당히 적은 비용으로 기술적 혜택을 평가하는 것이 가능 - 작은 단위의 component를 디자인하고 결합하여 검증하는 방식으로 진행 - combined approach (결합 접근법) - 계획한 상향식 접근..

Article Thumbnail
Data Warehousing and OLAP(2)

전공 과목 공부/데이터 사이언스 2021. 4. 1. 20:07

7. Data Cube (데이터 큐브) - 다차원 데이터 모형 : 데이터를 데이터가 다차원으로 모델링되고 뷰를 할 수 있도록 함 - 데이터 웨어하우스는 데이터를 데이터 큐브의 형태로 보여주는 다차원 데이터 모형을 기반으로 함. - 데이터 큐브는 차원과 팩트에 대해 정의함 dimension (차원) : 레코드를 보관하기 위해 조직이 원하는 관점이나 entity ex) 판매량 데이터를 시간, 제품항목, 지점, 위치에 따라 보관 - dimension table (차원 테이블) : 차원에 대해 설명하는 테이블 ex) item (item_name, brand, type) , time(year, quarter, month, week, day) - 차원 테이블은 사용자나 전문가가 설정하거나 데이터 분포에 근거하여 자..

Article Thumbnail
Data Warehousing and OLAP(1)

전공 과목 공부/데이터 사이언스 2021. 3. 28. 21:50

1. What is a Data Warehouse - 데이터 웨어하우스의 다양한 정의 - 데이터 웨어하우스는 다양한 방식으로 정의됨 조직의 운영 데이터베이스와 분리되어 관리되는 의사 결정 지원 데이터베이스 분석을 위해 통합 이력 데이터로 구성된 견고한 플랫폼을 제공하여 정보 처리를 지원하는 데이터베이스 - W. H. Inmon의 정의 : 가장 널리 알려진 정의. 데이터 웨어하우스에 대한 4가지 주요 특성을 제공. "데이터 웨어하우스는 경영자의 의사 결정 과정을 지원하기 위한 주제 지향적이고, 통합되며, 시간적으로 변화하고, 비휘발성인 데이터의 집합이다." - Data warehousing : 데이터 웨어하우스를 구축하고 이용하는 과정 1-1. Data Warehouse - Subject-Oriented ..

Article Thumbnail