목록ai - study (16)
cb

랜덤 포레스트 랜덤포레스트는 일반적으로 배깅 방법을 적용한 결정 트리의 앙상블이다. 배깅(bagging: bootstrap aggregating의 줄인말)은 훈련 세트에서 중복을 허용하여 샘플링하는 것으로 배깅을 사용하면 어떤 샘플은 여러 번 선택되고 다른 것은 한번도 선택되지 않을 수도 있다. m개의 샘플에서 m개를 선택하는 경우 선택되는 샘플의 확률을 계산해보면 다음과 같다. 따라서 이는 m개의 샘플에서 m개를 선택하면 약 63%만 선택된다는 것을 의미한다. 그러면 남는 37%의 샘플이 있는데 이를 oob(out of bag)샘플이라고 하고 이는 훈련에 사용되지 않음으로 검증세트로 사용할 수 있다. 랜덤 포레스트는 트리의 노드를 분할할 때 전체 특성중에서 최선의 특성을 찾는 대신 무작위로 선택한 특성..

본 게시물은 의 Chapter 05 - 트리 알고리즘을 보고 정리한 글입니다. 원본 코드는 책의 저자인 박해선님의 깃허브 코드를 참고하시길 바랍니다. GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com 결정 트리 결정 트리(Decision Tree) 모델은 아래의 예시처럼 순서도를 통해 분류를 진행하는 모델이다. 그렇기 때문에 사람이 직관적으로 이해하기도 쉽다. 데이터를 잘 나눌 수 있는 질문을 찾는다면 계속 질문을 추가해서 분류 정확도를 높일 수 있다. 트리 알고리즘은 특정 기준을 통해 샘플들을 분..

본 게시물은 의 Chapter 04: 다양한 분류 알고리즘를 보고 정리한 글입니다. 원본 코드는 책의 저자인 박해선님의 깃허브 코드를 참고하시길 바랍니다. GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com 다중 분류 이전 챕터까지는 생선 데이터가 단순히 도미와 빙어로만 구성되어 있었다. 하지만 데이터세트는 항상 두 가지의 타겟값으로만 구성되지 않는다. 이처럼 2개 이상의 클래스가 타겟 데이터에 포함된 문제를 다중 분류(multi-class classification)라고 부른다. 이진 분류를 사용했..

본 게시물은 의 Chapter 03: 회귀 알고리즘과 모델 규제를 보고 정리한 글입니다. 원본 코드는 책의 저자인 박해선님의 깃허브 코드를 참고하시길 바랍니다. GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com 분류와 회귀 지도 학습 알고리즘은 크게 분류(classification)와 회귀(regression)으로 나뉜다. 분류는 말 그대로 샘플을 몇 개의 클래스 중 하나로 분류하는 문제이다. 이와 달리 회귀는 클래스 중 하나로 분류하는 것이 아니라, 임의의 어떤 숫자를 예측하는 문제이다. (두 변..

본 게시물은 의 Chapter 02: 데이터 다루기를 보고 정리한 글입니다. 원본 코드는 책의 저자인 박해선님의 깃허브 코드를 참고하시길 바랍니다. GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com 지도 학습과 비지도 학습이란? 머신러닝 알고리즘은 크게 지도 학습(supervised learning)과 비지도 학습(unsupervised learning)으로 나뉜다. 지도학습은 데이터와 정답을 모두 제공하여 알고리즘이 정답을 맞히는 것을 학습한다. 여기서 데이터와 정답은 입력(input)과 타깃(t..

본 게시물은 의 Chapter 01: 나의 첫 머신러닝을 보고 정리한 글입니다. 원본 코드는 책의 저자인 박해선님의 깃허브 코드를 참고하시길 바랍니다. GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com 인공지능이란? 인공지능(artificial intelligence)는 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술이다. 인공지능은 크게 약인공지능(Weak AI)과 강인공지능(Strong AI)으로 나눌 수 있다. 먼저, 약인공지능은 특정 분야에서 사람의 일을 돕는 보조..