Home
MNG
Cancel

2 랜덤 포레스트

랜덤 포레스트의 작동 방식을 잘 이해하기 위해 사이킷-런으로 직접 모델-링을 해볼것이다. 2.1 랜덤 포레스트 분류 모델 간단한 인구조사 데이터셋으로 연봉이 5만달러 이상인지 예측하는 랜덤 포레스트 분류기를 만들어 본다. cross_val_score() 함수를 통해 테스트 결과가 잘 일반화 되는 지 확인해 볼 것이다. import pandas...

1 배깅 앙상블 (Baggin ensemble)

앙상블 모델이 개별 머신러닝 모델보다 뛰어난 이유를 알아본다. 또한 배깅이 뭔지 알아보자. 둘 모두 랜덤포레스트의 핵심이올시다. 1.1 앙상블 방법 머신러닝에서 앙상블 방법은 개별 모델의 예측을 합치는 머신러닝 모델을 말한다. 앙상블 방법이 여러 모델의 결과를 연결하기 때문에 오차를 줄이고 더 나은 성능을 내는 경향이 있다. 어떤 집이 시장에...

5 심장 질환 예측하기

머신러닝을 사용해 심장질환을 예측해달라는 병원의 요청을 받았다고 가정한다. 의사와 간화사가 환자의 건강을 돌보기 위해 관심을 두어야 할 중요한 두 세개의 feature를 예측하는 모델을 만드는 것이 목표이다. 결정 트리 분류기를 사용하고 하이퍼 파라미터 튜닝을 해보자. 모델을 만든 후 심장 질환을 예측하는 데 가장 중요한 특성을 가진 feature_...

4 결정 트리 하이퍼파라미터 튜닝

하이퍼 파라미터는 파라미터와 다른것이다. 머신러닝에서 파라미터는 모델이 튜닝될 때 조정된다. 예를 들어 선형회귀와 로지스틱 회귀의 가중치가 오차를 최소화하는 단계에서 조정되는 파라미터이다. 이와 다르게 하이퍼파라미터는 훈련 단계 이전에 미리 선택된다. 하이퍼 파라미터를 선택하지 않으면 기본값이 사용된다. 4.1 결정 트리 회귀 모델 하이퍼 파...

3 분산(variance)과 편향(bias)

다음 그래프에 있는 데이터 포인트를 가지고 있다고 가정하자. 이 데이터에 직선 또는 곡선을 학습시켜 새로운 포인트에 대한 예측을 만들어야 한다. 랜덤한 포인트들의 그래프 3.1 선형 회귀 각 점들과 직선 사이의 거리 제곱을 최소화하는 선형회귀를 사용한다. 직선은 일반적으로 편향이 크다. 머신러닝에서 편향은 모델을 실제 문제에...

2 결정 트리 알고리즘

결정 트리는 가지(branch) 분할 을 통해 데이터를 두 개의 노드로 나눈다. 가지 분할은 예측을 만드는 리프노드까지 계속된다. 실제 예를 다뤄보면 가지가 분할되는 방법과 리프 노드가 만들어지는 방법을 쉽게 이해할 수 있다. 더 자세한 내용을 살펴보기 전에 첫 번째 결정 트리 모델을 만들어 보자. 2.1 첫 번째 결정 트리 모델 인구 조사...

1 결정 트리 개요

앙상블 방법 중 하나인 XGBoost 의 기본학습기(base learner) 로 가장 널리 사용되는 결정 트리는 독특한 특징을 가진 머신러닝 알고리즘이다. 선형 회귀와 로지스틱 회귀 처럼 특성을 가중치와 곱하는 대신 결정 트리는 특성에 대한 질문에 따라 데이터를 나눈다. 사실 결정 트리를 만드는 것은 스무고개 게임을 하는 것과 같다. 예를...