KNN Model과 앙상블(Ensemble) 모델로 예측한 1119회차 5월 11일 로또당첨 예상번호를 참고하시고자 하시는 분들을 위해 매주 금요일에는 두개의 모델로 예측된 값을 공개하려고 합니다. 예측에 사용된 값은 1회부터 1118회차까지 당첨된 번호를 바탕으로 한 것으로 train_data.csv와 test_data.csv의 파일을 80:20 비율로 하여 예측한 것이며, 먼저 실제 당첨은 운빨에 맞기는 걸로 생각하시면 마음이 좀 더 편하실 것입니다.
앙상블 모델은 단일 모델보다 더 뛰어난 일반화 성능을 제공하는 경우가 많습니다. 이는 여러 모델의 다양한 관점을 결합하여 더 강력하고 안정적인 예측을 가능하게 합니다. 하지만, 앙상블 모델은 계산 비용이 높고 설명 가능성이 낮을 수 있으며, 너무 많은 모델을 결합할 경우 과적합의 위험이 있습니다.
KNN 모델은 데이터 간의 거리를 기반으로 이웃 데이터들 중에서 가장 가까운 K개의 데이터를 찾아 해당 데이터들의 라벨을 이용하여 예측하는 모델입니다. 이 모델은 인스턴스 기반(instance-based) 학습 알고리즘으로, 새로운 데이터 포인트에 대한 예측을 할 때 가장 가까운 이웃들의 정보를 사용합니다. KNN 모델은 간단하고 직관적이지만, 데이터가 많을 경우 계산 비용이 많이 들고, 특히 차원이 높을 경우에는 성능이 저하될 수 있습니다.
특징 | 앙상블 모델 | KNN 모델 |
학습 방식 | 여러 개의 모델을 조합하여 학습 | 인스턴스 기반의 지역적 패턴을 사용 |
예측 방식 | 투표(voting), 가중 평균(weighted average) 등을 통해 예측 | 가장 가까운 이웃 데이터의 라벨을 사용 |
다양성 | 배깅(Bagging), 부스팅(Boosting), 랜덤 포레스트(Random Forest) 등의 조합 | 이웃의 수(K)를 조절하여 다양성 확보 |
대표적인 기법 | - 배깅: 랜덤 포레스트<br>- 부스팅: 그래디언트 부스팅(Gradient Boosting), XGBoost, LightGBM 등 | - 최근접 이웃 검색: Ball Tree, KD Tree 등 |
데이터 크기 | 대규모 데이터셋에 적합 | 상대적으로 작은 규모의 데이터셋에 적합 |
train_data.csv 훈련용 데이터와 test_data.csv 검증용 데이터를 읽고, 다음 회차를 예측할 수 있도록 80:20 구조로 데이터로 나누어 저장하였으며, 이 데이터를 파일선으로 읽어서 예측하여 10개의 예측 데이터를 얻을 수 있도록 하였습니다.
기타 예측에 대한 자세한 예측 방법과 절차를 알고 싶으시면 아래 내용을 참고하시기 바랍니다.
(1편) ChatGPT를 활용한 로또번호 예측하기 (최대빈도수)
로또에 당첨된 사람들의 신문기사를 보면 나한테도 이런 행운이 오면 얼마나 좋을까 생각하는 사람들이 많을 것입니다. 물론 금전적인 어려움이 되었던 많은 돈이 생긴다면 좋은 일은 분명할
rinfo.tistory.com
(2편) ChatGPT를 활용한 로또번호 예측하기 (KNN Model)
1편에서는 최대빈도수를 활용한 로또 당첨번호를 예측했었습니다. 2편은 전체 1118회차의 엑셀데이터를 train_data.csv와 test_data.csv의 파일을 80:20 비율로 하여 KNN Model를 활용하여 예측해 보도록 하
rinfo.tistory.com
(3편) ChatGPT를 활용한 로또번호 예측하기 (앙상블 Model)
앙상블(Ensemble) 모델은 여러 개의 개별 모델을 결합하여 하나의 강력한 모델을 만드는 기법입니다. 이러한 방식은 여러 모델의 다양한 예측을 결합하여 단일 예측을 수행함으로써 개별 모델의
rinfo.tistory.com
예측 | 앙상블 모델 | KNN 모델 |
1조합 | (4, 11, 13, 15, 26, 27) | [1, 4, 11, 15, 30, 34] |
2조합 | (10, 11, 19, 30, 33, 41) | [3, 6, 24, 28, 32, 45] |
3조합 | (15, 15, 21, 29, 32, 44) | [5, 7, 8, 13, 22, 28] |
4조합 | (4, 11, 12, 14, 21, 32) | [4, 5, 7, 11, 12, 16] |
5조합 | (4, 9, 11, 21, 26, 45) | [4, 29, 34, 35, 37, 40] |
6조합 | (4, 11, 21, 26, 34, 41) | [3, 5, 20, 22, 36, 44] |
7조합 | (3, 4, 19, 21, 26, 40) | [3, 9, 15, 16, 20, 39] |
8조합 | (1, 2, 21, 22, 26, 41) | [2, 6, 10, 18, 27, 33] |
9조합 | (4, 17, 32, 33, 34, 40) | [2, 11, 23, 29, 34, 39] |
10조합 | 4, 21, 26, 28, 29, 41) | [8, 16, 19, 38, 42, 44] |
앙상블 모델은 여러 가지 예측 모델을 결합하여 보다 강력한 예측을 할 수 있는 방법이며, KNN(K-Nearest Neighbors) 모델은 주어진 데이터 포인트 주변의 가장 가까운 이웃들을 찾아 예측하는 방법입니다. 이 모델을 사용하면 데이터 간의 유사성을 고려하여 패턴을 파악할 수 있습니다. 그러나 어떤 모델을 사용하더라도 로또와 같은 복권은 결국 무작위성에 크게 의존하기 때문에 100%의 예측 정확도를 기대하기는 어렵습니다. 단지 참고하시길 부탁드리며, 로또를 하시는 모든 분들에게 행운이 깃들길 기원합니다.