상세 컨텐츠

본문 제목

[펌] 김상민교수의 ESM 대선 3차 예측개요(2022.02.27)

공감·클리앙

by 21세기 나의조국 2022. 3. 1. 13:38

본문

[펌] 김상민교수의 ESM 대선 3차 예측개요(2022.02.27) 

딸내미아빠
1,950
2022-02-28 19:25:19114.♡.254.114

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

이미지 출처

(이기방V)

 

 

 

대선판이 요동치고 있다. 21일과 24일 두차례 대선 토론회는 후보간의 역량을 온 국민앞에 보인 토론회로 유권자의 선택에 상당한 변화를 준 것으로 나타났다. 또 윤석열 후보에 대한 본부장 리스크와 대장동 사건에서 김만배가 언급한 '그분'이 이재명 후보가 아니라 현직 조재연 대법관으로 밝혀지고, 윤석열 부친의 자택을 김만배등이 사전에 모의하여 구입한 녹취록이 공개 되면서 대장동 게이트가 이재명 게이트가 아니라 법조게이트로 몸통이 이재명이 아니라 윤석열로 드러나고 있다.

 

또 24일 러시아가 우크라이나를 침공하면서 선제타격과 핵무장을 불사하겠다는 윤석열 후보의 주장에 대해 국민들의 안보에 대한 관심이 높아지고, 윤석열의 안보 능력에 대한 회의감으로 재집권을 통한 안보 심리로 이재명에 대한 표 결집이 보여주고 있다.

 

구글 빅데이터 분석에 따르면 1,2차 대선후보 토론회를 격으면서 압도적으로 이재명 후보의 관심도가 높아지고 있다. 지역별로 보더라도 이재명 후보는 전지역에서 관심도가 높아지고 있으며 심지어 윤석열 후보에 대한 관심이 가장 높은 경북에서도 44:30으로 이재명 후보에 대한 관심도가 높아지고 있다.

 

연관검색어에서도 이재명 후보보다 윤석열 후보에 대한 본부장 리스크 관련 부정적인 키워드 검색이 압도적으로 많아 점차 이재명 후보의 승리가 점쳐지고 있다. 안철수 후보의 경우는 단일화 철회 과정에서 잠시 관심도가 높아 졌으나 안철수 X파일로 후보단일화를 강요하려는 시도가 언론에 미리 공개되면서 유야무야 되는 형국이며 점차 관심도는 하양 추세로 접어들었다.

 

네이버에서는 보수 언론의 지형상 상대적으로 윤석열 후보에 대한 검색량이 이재명 후보보다는 다소 높으며 안철수의 단일화 이슈로 각 후보의 관심도가 크게 출렁거린 모습이다. 정치인들은 흔히들 자기에게 유리한 결과가 나오면 훌륭한 결과라고 하고, 자기에게 불리한 여론조사가 나오면 비과학적이라고 한다. 그런데 여론조사라는 것이 모집단의 대표성을 갖는 충분한 샘플링이 전제 되어야 하나 대부분은 그렇지 않다. 특히 선거에서는 조사기관의 의뢰자 입맛에 맞는 결과가 나오기 쉽다.

 

미국 대선에서 대다수 여론조사가 힐러리의 승리를 예측하였을 때 트럼프의 당선을 예측한 것은 빅데이터를 분석한 인도의 인공지능 모그 AI였다. 필자는 구글 등 빅데이터를 이용하여 지난 선거에서 여러차례 선거 결과를 정확히 예측한바 있다. 필자는 윤석열 후보와 같은 79학번으로 서울대에서 통계학과 컴퓨터사이언스를 전공했으며 1985년 (주)한국데이타통신에서 연구원을 시작으로 2007년부터 동양미래대학 로봇자동화공학부 겸임교수로 IOT와 인공지능, 빅데이터와 데이터 사이언스를 수십년간 연구해온 데이터 과학 전문가이다.

 

필자는 지난 2016년말 대다수 선거 전문가들이 힐러리의 승리를 점쳤을 때 빅데이터를 이용하여 트럼프의 당선을 예측했으며, 19대 대선에서 민주당 문재인, 안희정, 이재명 대선후보 경선에서 득표율을 빅데이터를 이용해 거의 정확히 예측했으며, 2016년 20대 총선에서 민주당 122석 의석을 정확히 예측했으며, 20대 4.15 총선에서는 여권의 180 의석을 정확히 예측했다. 역대 선거에서 사용한 필자의 ESM 선거예측 시스템은 거의 오차범위내에서 득표율을 정확히 예측해 왔으며, 본인의 블로그에 그 결과가 기록되어 있다.

 

최근 선거 결과를 미리 예측하기 위해 수많은 여론조사가 쏟아지고 있다. 그러나 조사기관의 유무선 비율, 질문지 구성, 응답률에서 그 신뢰성에서 크게 의심받고 있다. 여론조사에서 낮은 응답률, 신뢰성없는 표본의 추출, 유도성 질문지, 특정 지지층의 과표집 등 많은 문제를 내포하고 있다. 또한 난립한 여론조사 업체에서는 기 응답자의 성향을 미리 수집 파악하여 응답자 표본을 임의로 설계하여 의뢰자가 원하는 대로 돈만 지불하면 원하는 결과치를 얻어내는 것이 아닌가 의심도 든다. 20일 안철수 후보가 윤석열 후보와의 야권 단일화 제안을 철회하고 연이어 안철수 후보의 완주의사가 확인되면서 20대 대선에서는 이재명, 윤석열, 안철수, 심상정 4자 대결로 굳어졌다.

 

다수의 여론조사가 의뢰자에 따라 그 결과가 설계된 상황에서 그 신뢰도가 크게 훼손된 상황으로 역대 선거에서 보았듯이 여론조사 결과는 신뢰성이 크게 떨어져 있으며 대선판도는 여론조사기관의 데이터 보다는 빅데이터만이 유일한 판세를 읽는 수단이 된 상황이다. 그래서 D-16를 시작으로 20대 대선에서 필자가 다년간 연구해온 빅데이터연구를 기반으로 구글트렌드와 네이버 빅데이터 서비스를 이용한 ESM 예측시스템으로 선거 마지막 날까지 예측시스템으로 결과를 예측할 것이다.

 

네이버의 빅데이터는 검색어 트렌드만을 제공하기 때문에 실제 웹페이지 전체에서 트렌드를 볼수 있는 구글의 보완 자료로 사용하였다.

 

필자의 하이퍼 인공지능 예측시스템 ESM은 빅데이터에서 트렌드을 이용하여 선거결과를 예측할때 최종의 관심도가 아니라 기간중 시간을 X축으로 놓고 트렌드 관심도를 Y축으로 놓고 적분하고 최근 데이터에 가중치를 주는 방식으로 득표율을 예상하였다. 또 단순 트렌드가 아니라 연관 키워드 분석을 통해 키워드에 따른 지지율의 가감을 하고 인공지능 예측모델을 이용한 계산으로 정확한 예측을 기하였다.

 

필자는 대선 전일까지 빅데이터를 통한 후보자별 득표율을 예측하여 발표할 예정이다.

 

텍스트 출처 : https://blog.naver.com/handuru/222658776990 (열린뉴스 김상민TV/네이버블로그)

 

 

관련글 더보기