안녕하세요. SemPer_입니다.

질문들이 많아서 이렇게 추가적으로 글을 쓰게 되었습니다.

아래 그림은 실제 점공순위 계산기에 이용되는 식입니다.

png

그림만 보셔도 아시겠지만, 상당한 상관관계가 있다는 것을 확인하실 수 있습니다.

이를 확인한 뒤에, Simple Linear Regression Model을 적용하였습니다. 영어로 쓰니 있어보이는데, 단순 선형회귀분석을 한 것입니다.

선형회귀분석은 회귀분석 중에서 가장 간단한 모델이지만, 최근 이야기가 많이 나오고 있는 다른 유명한 Regression 모델들에 비해서는 너무 오래전에 나왔다 정도의 문제가 있겠습니다.

그러면 왜 하필이면 이 모델을 적용하였나?

가장 중요한 이유는 데이터의 양이 적습니다.

제가 가지고 있는 데이터의 양은 200여개로, 복잡한 다른 머신러닝이나 딥러닝의 모델을 이용하기에는 굉장히 부족합니다.

실제로 기초적인 DL인 ANN을 시도를 해보았으나, 양이 너무 적어 오히려 Linear Regression보다 그리 좋지 않은 지표가 나왔습니다.

또한 위의 이유와 이어지는데, 현재 데이터의 양이 적기 때문에 학교별로 결과값을 도출해낼 수 없으며 이에 따라서 모든 학교의 자유도를 하나로 합치는 현상이 벌어졌습니다.

이는 결론적으로 range가 쓸데없이 커진다는 것을 의미하며 정확도도 상대적으로 떨어질 수 있다는 것입니다만, 어쩔 수 없습니다. 적어요. 데이터가.

그러면 어느정도 믿어도 된다고 생각하시나요??

이번에 시간에 대한 축을 추가를 했는데, 이는 결과적으로 점공 참여자가 얼마나 될 것인지를 염두해두기 위함입니다.

예를 들어 제가 지금 이 글을 적고 있는 21일 15시 정도에 50명이 점공을 했다면, 이후에 점공이 끝날 때 쯤이면 대충 55명이 하고 있다고 생각할 수 있습니다.

이 점공참여는 당연히 로그함수의 형태로 그려질 것이며, 이것 또한 작년에 데이터를 수집하여 선형회귀를 통해서 구하고 반영을 하였습니다.

작년에 비해서는 확실히 정확할 것이라고 믿고, 실제로 20학년도 연고상경을 통해서 테스트해본 결과 상당히 정확하였었습니다.

하지만 어느정도로 믿어도 되냐? 라고 물어보신다면 저는 예전에 말씀드렸다시피 확률에 기대어 말씀 드릴 수 밖에는 없다고 생각합니다.

만약 학생이 80%확률로 적용을 하였을 떄 예측 범위가 [50,85]라면 80%확률로 그 안에 들어갈 것이라고 생각합니다. 이런 식으로 밖에는 설명드리기가 힘들어요.

추가적으로 말씀드리고 싶은 말

이 점공순위 계산기를 어떻게 하면 좀 더 정확하게 맞출 수 있을까 정말 작년동안 생각을 많이 했습니다. 시험기간에도 중간중간에 생각해서 다른 기법이 있을까도 고민을 정말 많이 했어요. 그럼에도 불구하고 제 생각보다는 덜 구체적인 점공순위계산기를 보여드리게 되어 정말 아쉽게 생각합니다.

내년에는 발전할 수 있는 방향으로 나아갈 것이며 언제나 무료배포를 할 것임을 약속드립니다.

추가적인 질문사항은 기존의 글이나 아니면 제 프로필의 오픈카톡을 이용해주세요.

그리고 점공순위 계산기 다운로드는 하단 링크를 참조해주시기 바랍니다.

감사합니다.

점공순위 계산기 2021 Ver 1.1 다운로드