2017.04.15 02:37
댓글로 쓰려다가 글이 길어질 것 같아서 따로 씁니다. 영화 또는 요약본을 보셨다고 치고 글을 쓰겠습니다.
결론적으로 영화의 취지와 결론에는 동감하지만 조작의 증거로서는 매우 부족한 영화였습니다.
오해가 있으면 안되기 때문에, 우선 전제로 깔고 갈게요.
1. 전자개표기나 전자투표기는 절대 신뢰해서는 안 되며, 얼마든지 조작이 가능하다는 사실을 알린 것에 큰 박수를 보냅니다.
2. 영화가 제안한 전자개표기를 보조적인 수단(수개표 후 확인 용도)로 전환하는 방안 찬성합니다. 비용은 조금 증가하겠지만요.
함께 제안한 독일처럼 투표소에서 직접 개표하는 방법도 좋은 방법입니다. 다만 관리인력이 분산되며 생기는 문제가 없는진 봐야겠죠.
3. 영화에서 제기된 의심들은 선관위에서 반드시 시연회 등을 포함하여 깨끗하게 해명해야 합니다.
이제 조작 가능성의 근거로 내세운 부분들에 대한 제 생각입니다.
1. 시간 역순 문제.
이건 컴퓨터 시간 오차 문제로 쉽게 설명가능합니다. 몇 분 정도 차이라면 충분히 있을 수 있는 문제입니다.
당일에 미리 시간을 네트워크를 통해서 맞춘 다음에 하면 이런 일이 없을 텐데, 개표소마다 관리자가 휴대폰을 보고 맞추도록 했답니다.
도대체 왜인진 모르겠지만, 저희 부모님이 간혹 저한테 휴대폰 시간 안 맞다고 물어보시면, 시간 자동 설정 옵션이 꺼져있더라고요.
모든 분들의 휴대폰 시간이 반드시 정확한 것은 아닙니다. 그리고 매뉴얼이 저렇다면, 컴퓨터 시간을 미리 맞추는 수고도 안했겠죠.
저는 역순이 되었을 때 오차가 몇분 정도씩 났는지 분포도가 나오기를 기대했는데 결국 안나오고 넘어갔더군요.
그게 나와야 오차로 설명가능한 수준인지, 의심해야할 수준인지를 판단할 수가 있을 것 같습니다.
2. K=1.5 문제.
이 영화에서 계속해서 미분류표는 랜덤하게 추출된 표이므로, 분류표와 비슷한 비율(K=1.0)정도로 나와야 한다고 설명합니다.
하지만 미분류표는 전체 표 중에 3%정도를 랜덤하게 추출한 표가 아닙니다. 개표기가 인식에 실패한 표들을 모은 것이죠.
이런 당연한 문제를 왜 통계학 전문가 두 분이 생각하지 않으셨는지 궁금한데, 쓰셨다는 논문은 아직 인터넷에 없는 모양이더군요.
비유를 해볼게요. 덧셈은 잘하지만 뺄셈은 아직 잘 못하는 아이에게, 덧셈 문제 100문제, 뺄셈 문제 100문제를 섞어서 줍니다.
이 아이가 40문제를 못 풀었다고 하면, 그중에 덧셈 20문제과 뺄셈 20문제 정도가 나오는 게 정상일까요?
당연히 덧셈 문제보다 뺄셈 문제가 훨씬 많이 나오는 것이겠죠.
전자개표기는 '기계'이니까 당연히 미분류표도 아무런 경향이 없이 나올 것이라고 착각할 수 있겠지만
전자개표기의 인식 알고리즘에 따라 당연히 약점이 생기게 됩니다.
예를 들면 전자개표기가 순간적으로 빛이 어두울 때 미분류표가 생기는 거라면, 미분류표의 K값은 1.0 정도가 나오는 게 맞겠죠.
하지만 표의 제일 끝쪽에 찍혀있는 인주를 인식하는 데 약간 약점이 있는 거라면, 미분류표에는 1번 표가 다른 표보다 많이 나오겠죠.
게다가 문재인 투표자와 박근혜 투표자 간에 극명한 특성(세대) 차이가 있었다는 것도 잊으면 안 됩니다.
1.5란 수치가 좀 높긴 합니다. 하지만 조작이라고 설명하기보단 개표기의 성능 문제라고 보는 게 더 간단합니다.
더 큰 문제는 박근혜 미분류표를 더 만들어야 할 동기를 설명하지 못한다는 거죠.
미분류표만큼 빠진 표를 다른 표로 채워넣은 것이 아니냐는 가설을 세웠지만, 이건 말이 안 되죠.
그냥 다른 표를 박근혜 표로 분류하면 그만인데, 그만큼 박근혜 표를 미분류로 뺄 이유가 없습니다.
물론 해킹을 하다 보니 뭔가 어쩔 수 없는 이유가 있어서 그렇게 됐을 가능성을 부정하진 않겠습니다.
하지만 K=1.5 이건 그냥 전자개표기의 성능 또는 특성이라고 보는 것이 더 타당해 보입니다.
그것과 무관하게 3%의 미분류율까지 생각하면, 개표기 성능에 문제가 많은 건 사실 같습니다.
이것도 확인할 방법이 있습니다. 동일한 개표기를 사용한 다른 선거에 미분류표 비율을 확인하는 겁니다.
만약 거기서도 K=1.5와 비슷한 수치가 나온다면, 그건 개표기 특성이라고 보는 게 명확합니다.
거기서는 전혀 다른 수치가 나왔다면, 이건 재검표가 필요한 사항이 되는 거죠.
이전 대선에서는 1.0이 나왔다고 설명하긴 했지만, 과연 동일한 기계를 썼는지는 알 수가 없습니다.
그래서 이 영화에서 왜 최근 총선에 대해서 같은 분석을 하지 않았는지 상당히 아쉽습니다.
3. 개표기 조작 실험
개표기 소프트웨어에 접근하는 순간 너무나 당연히 가능한 것입니다. 이걸 굳이 실험을 해야하나 싶을 정도로요.
제겐 투표함에다가 가짜 1번표를 무더기로 넣은 다음에, 개표를 해보니 1번표가 엄청 많이 늘었죠? 하는 느낌이었어요.
그런데 실험에 참가했던 분들이 너무 반복적으로 놀라셔서 연기자인가 고민하기도 했습니다.
그런 의미에서 서두에 썼듯이 이 사실을 모두에게 알린 점에는 큰 박수를 보냅니다.
다만 개표기 조작을 통해서 예를 들어 100장당 1장씩 꾸준히 혼표를 넣었다고 한다면, 검표 과정에서 문제가 훨씬 많았겠죠.
사람이 하는 것이니 놓치는 것이 많을 수 밖에 없겠지만, 전국적으로 수정사항이 더 많이 생겼을 겁니다.
하지만 실제로 검표 과정에서 수정이 된 경우는 이 정도밖에 나온 것이 없었죠.
http://www.newsis.com/ar_detail/view.html/?ar_id=NISX20131028_0012468338&cID=10301&pID=10300
심지어는 가장 오차가 컸던 투표소 검표결과에는 박근혜 표가 더 늘어나고 문재인 표가 줄었습니다.
그런데 영화엔 나오지 않았지만, 파파이스에서 김어준 씨가 말한 것 중에 황당한 것이 있더군요.
개표 직전에 개표기를 네트워크에 연결해서, 개표 프로그램 완결성을 확인하는 프로그램을 다운로드 받는단 거죠.
과연 그 개표 프로그램의 완결성을 확인하는 프로그램의 완결성은 확인을 하는 걸까요?
윈도에는 이미 프로그램을 인증서로 서명할 수 있는 기능이 멀쩡히 들어있습니다.
여기에 서명된 인증서의 핑거프린트와 루트 인증기관 인증서 등을 눈으로 확인하면 됩니다.
그런데 굳이 개표 직전에 네트워크에 연결해서 뭐든 할 수 있는 프로그램을 실행하게 한다니 충격적이죠.
완결성 확인하는 프로그램이 제대로 서명이 되어 있고, 이를 확인하는 절차가 있었다면 다행이고요.
그 외 역누적 문제는 큰 의미를 두지 않겠습니다. 개표 순서에 어떤 것이 영향을 미치는진 모르겠지만,
오전까지는 문재인이 이기는 분위기였다가 오후 늦게 넘어갔다는 사실과 관련이 있을 것으로 보입니다.
결론적으로 이 영화를 보고 '전자개표기라는 것이 이만큼 조작에 취약할 수 있구나' 정도로 받아들여야지
'지난 대선은 조작된 것이 틀림없어'로 받아들이기엔 근거가 많이 취약했다고 생각합니다.
선관위가 과연 이 영화에 대응을 할지가 가장 궁금합니다.
실제 개표기를 가지고 미분류표가 어떻게 나오는지를 보여주는 것이 확실하겠죠.
(물론 그래봤자 그거 조작해서 시연하는 거 아니냐고 하면 그만이니, 음모론이란 없앨 수 있는 게 아닙니다.)
어쨌든 선관위가 더 꼼꼼하게 일하게 되는 계기가 될 수 있겠죠. 가능성은 작지만 개표방식을 개선할지도 모릅니다.
참관인도 더 많이 모집할 수 있을 거고요. 그게 이 영화의 순기능일 거라고 생각합니다.
2017.04.15 03:23
2017.04.15 05:21
2017.04.15 10:55
1번에서 1.0에 수렴해야 한다는 가정 자체가 틀렸다는 것이 제 글입니다. 즉 빼박 증거라는 것이 증거가 아니란 것입니다.
2-4번에는 대체적으로 동의하고, 중앙 서버에서 프로그램 다운로드 받는 부분이 악성 코드를 넣는 포인트일 겁니다.
검표기 251개를 하나씩 감염시키는 것보다는, 중앙 서버의 파일을 조작하는 편이 쉬울 테니까요.
2017.04.15 11:49
2017.04.15 12:15
2017.04.15 07:50
2. 박근혜 미분류표를 굳이 많이 만든 것은 박근혜표가 실제 투표수보다 많이 나오게 하는 하나의 방법일 뿐입니다. 이렇게 설계 하는 알고리즘은 수없이 많겠지만 영화에서 제시한 방법을 시뮬레이션한 결과 실제 현상과 동일하다는 것을 보여준 것입니다.
지적하신 기계의 약점일 수 있다는 점에 대해서는 '소프트웨어 버그가 있어서 1번 표를 미분류로 많이 보낸다'라는 것과 동일한 포인트고요. 그걸 소프트웨어 버그라고 할거냐, 아니면 소프트웨어를 인위적으로 조작해서 그렇게 만들었느냐에 대해서는 알아낼 방법이 없습니다. 하지만 양쪽 모두 동일한 결과를 가져옵니다. 결함이 소프트웨어에 있으면 기획이고 하드웨어 있으면 그냥 기계의 오작동인 건 아니죠.
통계 얘기가 나왔으니 말인데 만약 개표기 하드웨어가 인식 장치에 편향성을 가지고 있고 오작동률이 3%가 넘는다면 공장밖을 떠나지 못합니다. 흔한 가전제품 세탁기, 냉장고도 3%의 에러율로 QC, QA를 통과하지는 못해요. 개발단계에서 다시 만들어야죠. 은행에서 돈 세는 기계나 ATM이 3% 에러율을 갖고 있다고 생각해보세요. 투표 기계가 3% 에러율을 갖고 있고 특정후보에게 편향된 인식을 보이는데 선관위가 그대로 가져다가 쓴다고요? 게다가 17대 대선에 사용된 기계는 문제가 없었는데 굳이 바꿔서 편향된 기계를 대규모로 전국에 뿌렸다. 그런 기계의 약점을 모르고 (혹은 검수 도중 발견되지 않고) 수백대의 기계가 모든 테스트를 통과해서 막상 개표작시에만 편향성을 보였을 확률은 소프트웨어를 조작하지 않고 자연발생적으로 K값이 1.5가 나올 확률과 비슷하지 않을까 싶어요. 오히려 가능성은 '기계의 약점을 알고도 갖다 썼다'는 쪽이 높겠죠. 그것 역시 플랜입니다.
저보고 플랜을 짜라고 한다면 소프트웨어를 수정할 것 같아요. 하드웨어를 특정방향으로 만드는 건 너무 까다롭거든요. 관련자들을 모두 매수해야 하고(개발자 공장 QC 선관위 검수자 등등) 중간에 후보가 바뀌기라도 한다면 기계를 모두 다시 만들어야 되고 선거때엔 무슨 일이 일어날지도 모르는데...
2017.04.15 11:27
우선 박근혜 미분류표를 만드는 것은 투표수를 많이 나오게 하는 방법이 전혀 아닙니다. 시뮬레이션은 도대체 뭘 시뮬레이션했다는 것인지, 논문이 공개될 때까지는 알 수가 없겠더군요.
미분류표를 만드는 것에 편향성이 있는 것은 오작동이 아닙니다. 지폐분류기를 가정해볼까요. 만원짜리 1000장과 오만원짜리 1000장을 넣었다고 칩니다.
그 결과 만원짜리 950장과 오만원짜리 2장이 만원으로 분류되었고, 오만원짜리 988장이 오만원으로 분류되었다고 하죠. 나머지 만원 50장과 오만원 10장은 분류실패로 보냈습니다.
이 기계의 정확도는 분류한 1940장 중 1938장을 제대로 분류했기 때문에, 99.8969%가 됩니다. 하지만 3%나 분류를 포기했기 때문에 성능이 좋다곤 할 수 없죠.
보통 이런 기계에서 분류실패율을 줄이는 것과 정확도를 높이는 것은 트레이드오프 관계가 됩니다. 무리하게 분류하면 잘못 분류하는 것이 늘어날 수 밖에 없으니까요.
즉 미분류표에서의 편향성은 기계의 성능과 무관하므로, 개표기 검수에서 미분류표의 비율은 확인해도 미분류표의 편향성을 확인할 이유가 없습니다.
결국 미분류표의 편향성은 개표기의 성능 문제이거나 의도된 조작 두가지로 모두 설명 가능합니다.
하지만 이를 의도된 조작으로 볼만한 증거나 동기가 없다는 것이 제 글입니다.
개표기 하드웨어는 그냥 표 하나씩 긁어서 사진찍고 소프트웨에서 시키는 곳으로 움직이는 장치일 뿐이라, 조작이 있다면 당연히 소프트웨어입니다.
2017.04.15 13:39
2017.04.15 13:32
저도 배경 지식이 좀 있는 입장에서 열심히 devil's advocate 을 하면서 보았습니다.
언급하신 다른 문제들은 저도 동의하고 부차적인 문제라고 생각합니다
중요한게 2번에 말씀하신 내용인데.
개표기 설계 자체가 1번에 찍은걸 더 잘 못읽어서 미분류로 더 많이 보낼 수 있다는 가정이 물론 가능합니다만. 그렇다면 통계적으로 편향된 값이 나오는것도 맞는데.
이 경우에는 납득할수 있는 이유가 설명이 되어야 합니다.
제가 생각하기에는 기계가 1번을 더 잘 못읽을 이유를 찾을 수가없습니다. 투표지 끝쪽에 있는 도장은 (투표지 끝도 아니지요 1번 기표란은 중앙에 더 가깝습니다) 더 인식 못한다는 설명을 할 수는 있습니다. 하지만 왜 그런일이 일어날까요?
어떤 스캐너와 어떤 인식 알고리즘을 써야 그렇게될까요 라는 질문에 대한 대답을 저는 할 수가 없더군요.
이유야 만들어 낼수 있겠지만 그렇게하면 그쪽이 더 억지가 됩니다.
그리고 1번을 명백히 더 잘 못읽는 개표기를 사용했다면 그 개표기의 디자인 자체가 결함 내지는 조작인거구요 그것 자체로 문제입니다.
16 17대 대선의 결과에서는 문제가 없었고 18대에 사용된 개표기가 다른 모델이었다 하더라도 더 열등한 모델을 사용했다는것도 이해할 수 없구요.
그리고 박근혜 지지자들은 손이 떨려서 도장을 잘 못찍어서 그렇다 가능성도 저는 별로 공감할수가없네요. 정말 기계가 인식할수 없을정도라면 무효표가 되는쪽이 자연스럽구요.
그리고 실제로 분류된 표에서 잘못된게 발견된것도 조작에 힘을싫어주는거구요.
미분류 중에 유효표가 많다는건 true negative가 많다는거고 이럴경우에는 false positive는 없어야되는게 정상이지요
그리고 1번을 미분류 표로 보낼 이유는 있습니다.
그래야지 분류표에 더 적은 수의 표를 섞어도 표차가 더 나게 되거든요. 표를 섞은 수 대비 효과가 두배가 나는거죠.
이걸 부정선거의 증거로 얘기하기에는 좀 약한 감이 있긴하지만. 자연스럽게 설명이 안되는 이상한 일이 일어난것만은 분명한것같습니다. 그리고 앞으로 더 진지한 조사를 해야하는 충분한 이유가 되는것같습니다.
2017.04.15 15:57
저도 구체적으로 어떤 알고리즘으로 인한 것일까는 모르겠습니다. 솔직히 이런 간단한 기계에 true negative가 많은 이유도 모르겠고요.
어쨌든 결과에 특별한 경향성이 있으니, 그것이 어떤 원인인지, 그리고 혹시 다른 결과에 영향을 준 건 아닌지 진지하게 조사해야 한다는 점에 백퍼센트 동의합니다.
1번을 미분류 표로 보내도 결국 수검표를 통해서 돌아오게 되는데, 표 차이가 더 난다는 게 어떤 의민지 궁금합니다.
지금까지 들은 해석 중엔 미분류 표를 검표하는 쪽으로 인력이 집중되어 혼표를 찾아낼 가능성이 적어진다는 정도만 이해가 됐어요.
2017.04.15 13:39
2017.04.15 14:50
2017.04.15 15:22
제가 무식해서....; 머핀탑님의 가설에 근거한다면 정상적인 기계가 아닌 투표용지의 구조나 개표기 오작동이 존재한다먄 애초에 k값이 1.5에 집중되도록 인위적 조건이 갖추어져 있다는 것에 다름 없다는 이야기를 설명하다보니 꼬인듯 합니다.
다만, k값 0.9~2.1 분포를 이루어 1.5에 수렴되었다는 자체가 자연발생적 상황을 넘어서 인위적이거나 실수에 의한 결과치라는건 움직일 수 없다는것이고 그러한 우연히 존재할 수 없는 통계수치가ㅡ발생한 원인 중에서 단순 오류,오작동,투표용지 문제 등은 배재될 수 밖에 없다는건 다큐 내용에 이미 포함되어 있습니다.
흠...
그러한 존재할 수 없는 정규분포를 야기한 원인에 대해서 다큐는 이제 질문을 던진 단계인거 같아요. 여러 전문가들이 말하듯이 결과에 존재하는 오류를 발견하기도 어려웠지만 그 원인은 범인이 자백하지 않는 이상 밝힐 수 없을것이라고 하죠. 섣부른 시니리오보다는 전자개표방식의 사소한 오류도 민주주의 선거시스템을 무너 뜨릴 수 있다는 것에만 집중하는것이 좋겠다는 생각입니다.
2017.04.15 15:53
1번 표를 분류실패할 확률이 2번 표를 분류실패할 확률의 1.5배라면 그 결과는 1.5를 중심으로 정규분포를 이루는 것이 맞을 것 같습니다.
제가 개념을 혼동할까봐 걱정되긴 하는데, 이항분포는 정규분포에 근사한다고 하는 것이 바로 이런 경우죠.
앞면이 나올 확률이 40%인 조작된 동전을 천 번 던지기해서 앞면은 1점, 뒷면은 0점으로 합산하면, 이상적으로는 400점이 나오겠죠.
하지만 이런 천번씩 던지기를 만번정도 해서 나온 점수를 그래프로 그려보면, 400점을 평균으로 하는 정규분포가 나오게 됩니다.
1.5라는 수치가 기계의 이상이든 실수든 조작이든 무언가의 영향을 받았다는 사실은 저도 동의합니다.
다만 그 무언가가 단순 기계의 경향성일 가능성이 높아보이고, 그 경향성은 실제 개표 결과에 영향을 주지 않는 수준이란 거죠.
뭐 저도 각설하고 비용을 아까지 말고 수개표 등 확실한 방법을 써야한다는 사실엔 동의합니다.
다만 "빼도박도 못할 개표 조작의 증거를 찾았다"라고만 하지 않았음 하는 바람에서 쓴 글입니다.
혹시 총선의 미분류표 통계는 없나 검색해봤더니 역시 대선 조작을 주장하는 카페에 20대 총선 몇몇 선거구 결과가 있네요.
http://cafe.daum.net/electioncase/LiQ3/309 와 http://cafe.daum.net/electioncase/LiQ3/312 입니다.
새누리당 대 민주당 표를 가지고 K값을 계산해 보니, 1.62, 1.84, 1.29, 1.56, 1.63이 나옵니다.
만약 K값이 조작의 결과라면, 20대 총선에서도 동일한 조작이 이루어졌을 가능성을 보여주는 결과입니다.
자세한 계산 결과는 http://imgur.com/OWoTGsm 에서 보실 수 있습니다.