●결정트리(Decision Tree)
데이터를 분류하거나 예측하는데 사용되는 머신러닝 알고리즘입니다. 스무고개 게임처럼 질문을 던지면서 데이터를 분류하는 방식입니다.
장점은 사람이 해석하기 쉬운 모델이고 데이터 전처리가 적게 필요하고 중요한 특징을 자동으로 선택해줍니다.
단점은 과적합 위험이 있고 작은 변화에도 트리가 크게 변할 수 있습니다.
●군집화
비지도 학습(unsupervised learning) 기법 중 하나로, 라벨(정답)이 없는 데이터에서 비슷한 특성을 가진 데이터끼리 그룹으로 묶는 방법입니다.
예를 들어, 고객 데이터를 분석할 때 비슷한 소비 패턴을 가진 고객들을 그룹화하여 고객 세분화에 활용할 수 있습니다.
대표적인 군집화 알고리즘으로는 K-Means 클러스트링이 있습니다.
ex)군집화 활용사례
- 고객 세분화(Customer Segmentation): 비슷한 소비 패턴을 가진 고객 그룹을 분류
-이미지 압축(Image Compression): 색상을 유사한 그룹으로 묶어 데이터 크기 축소
-이상 탐지(Anomaly Detection): 비정상적인 데이터 탐지 (예: 금융 사기 탐지)
-추천 시스템(Recommendation System): 유사한 사용자 그룹을 기반으로 맞춤형 추천 제공
●차원축소
차원 축소는 데이터의 특성(변수)의 수를 줄이는 과정입니다
데이터에 많은 특성이 있을 때, 이들을 축소시켜 정보 손실을 최소화하면서도 더 적은 특성으로 효율적인 분석이 가능하게 만듭니다
대표적인 차원축소 알고리즘으로는 주성분분석(PCA)가 있습니다.
●주성분분석(PCA, Principal Component Analysis)
PCA는 데이터의 분산이 최대가 되는 방향으로 데이터를 투영하는 방법입니다.
주로 선형 변환을 통해 차원을 축소합니다.
PCA를 사용하는 이유는 고차원 데이터를 2D나 3D로 변환하여 시각적으로 분석할 수 있게 해서 속도를 향상시키고 과적합을 방지 할수 있습니다.
'프로그래밍 > AI 머신러닝,LLM' 카테고리의 다른 글
딥러닝, 신경망, 활성화 함수 (0) | 2025.04.16 |
---|---|
파이썬 numpy, pandas (0) | 2025.04.07 |
파이썬 머신러닝 사이킷런에서 reshape() 사용이유 (0) | 2025.04.02 |
파이썬 머신러닝 train_test_split() (0) | 2025.03.29 |
머신러닝 회귀(regression) 개념 (0) | 2025.03.29 |
댓글