[일상 잡담] 통계를 배우는 과정에서.

2014.07.15 15:44

엄밀히 말하면, 통계를 배우는건 아니고 통계치를 계산해내는 도구를 배우고 있습니다. 단 3주짜리 단기 강의에 1주일 단위로 초급, 중급, 고급을 듣는데 중급까지는 서른 명 정도로 반이 가득가득 찼지만 고급이 되니 여섯 명이서 오손도손 듣고 있습니다. 그런데 참, 통계를 배우는 과정에서 위로가 많이 되더군요, 뭔가 이상한 이야기처럼 들리긴 하지만 말이에요.

일상에서 평균이란 단어는 자주 사용하잖아요. 그래서 "평균적으로 따지면 어떻게 되는데?" 같은 말도 하고 그런데, 어떤 숫자의 모임에서 평균이란건 얼굴이나 이름 정도에 해당하는 거더라구요. 그의 성격까지 파악하려면 분산을 알아야 하는데, 일상에서 "그래서 분산적으로는 뭐라 하는데?"라던가 여러 평균값들의 나열에서 분산이 표기되는 일은 흔하지 않잖아요. 그런 느낌은 마치, 어떤 사람이 자라나는 과정을 사진으로 찍어서 앨범을 보는데 그 눈에 보이는 변화에 따라 이렇거나 저런 이야기들을 하지만, 그의 성격이 어떻게 변했는지를 나누지는 않는 그런 느낌이에요. 시간이 흐르면 달라질 수도 있겠죠.

그리고 이 쪽 계열에서 많이 쓰이는 분산분석이란게 있는데요, 그게 제가 흔히 말하던 걸 수식으로 분석하는 내용이더라구요. 예를 들어서, 남자와 여자간의 특정한 성격적 차이가 남자끼리의 성격적 차이보다 작다면 그건 지적할만한 바가 되지 않는다거나, 지역과 지역 간의 특정한 특성 차이가 지역 내에서 서로의 특성 차이보다 작다면 이상한 지적일 거라구요. 이걸 집단간 분산과 집단내 분산이라고 통계학에선 표현을 하고 집단간 분산이 집단내 분산보다 작다면 그 집단간 차이를 무의미하다고 말해요. 제가 생각했던 논리가 수학적으로 검정된다니 사회학자들이나 수학자들도 이 문제에 대해 동일하게 생각하고 있구나, 하며 위로가 되었달까 그랬습니다.

회귀분석을 배우면서는 이상한 부분에서 왈칵 눈물이 나서 수업 도중에 참느라 힘들었습니다. 정말, 수학시간에 감정이 동해서 운다면 너무 이상하잖아요. 기본적으로 통계라는 학문에서는 원래 있는 의견을 존중하고 그 존중의 정도를 유의수준이라고 합니다. 유의수준이 낮을수록 본래의 상식을 존중하고 왠만해서는 바꾸지 않겠다고 마음먹는단 의미인데, 그 수준 이하로 계산값이 나오게 된다면 통계적으로 더 이상 원래의 상식이 맞지 않는다고 판단할 수 있기 때문이에요. 예를 들면 수리적 검정에서는 누군가의 첫 성적이 54점이 나오고 그 다음 성적이 58점이 나왔다면, 전보다 더 공부를 잘하게 되었다고 하겠지만, 통계적 검정에서는 54점과 58점이 모든 정보를 다 가지고 있지 않다고, 즉 우리는 그 점수 하나만으로 모든걸 알지 않는다는 겸허한 태도를 취합니다. 그래서 양 쪽의 결과 이전에 그 결과가 나올 가능성들을 생각해서 수 많은 값 중에 54점과 58점이 선택되었다면, 그 범위 상에서 공부를 잘 하게 되었는가?를 따져 묻습니다.

어쨌거나 이러한 기본 상식을 [귀무가설]이라고 부르는데, 그 귀무가설은 거의 대부분 "유의미하지 않다", 즉 "무의미하다"라고 말합니다. 대부분의 연구자들은 그 "무의미함"에 대항해서 싸우고 승리하거나 패배하는 것이지요. 돌아와서, 회귀분석에서 여러 변수들을 넣은 상태에서 결과값에 대한 귀무가설은 그 변수 모두가 결과값에 영향을 주는데 "무의미하다"고 말합니다. 거기서 대립가설은? [적어도 하나의 독립변수가 종속변수에 영향을 준다.], 이게 회귀분석의 대립가설입니다. 전 이 대립가설을 읽으며 머리 속에 [적어도 하나의], [적어도 하나의] 이러면서 "적어도 하나"란 말이 깊게 울려퍼져 나가더라구요. 바꿔 말해서 [적어도 하나]만이라도 그 결과에 영향을 준다면 "무의미"하지 않은 것입니다. 예를 들어 우리 삶 속에 우리가 삶을 바꾸기 위해 해왔던 그 많은 노력들 가운데, [적어도 하나]만 영향을 줬다면 그 과정이 "유의미하다"고 검정된다는 것이죠. 이 후 사후검정으로 어떤 변수가 결과에 영향을 줬는가 분석하긴 하지만, 어쨌든 유의미하다는게 어딘가요.

이론적인 통계 이야기에서 벗어나서, 거기서 만나는 사람들과 대화하는데 참 재미있습니다. 강사와 이야기하는 것도 재미있구요. 다만, 취미로 이 수업을 듣는 사람이 저말고 아무도 없다는건 많이 아쉽기도 합니다. 대부분 논문을 쓰는데 필요해서 듣더라구요. 그래도 그 분들 중에 몇몇은 통계 자체를 이해하는데도 상당히 흥미가 있으셔서 즐겁더랍니다. 아, 그런데 이 수업이 있는 곳이 통계학과 전산실인데, 바로 옆에 통계학과 동아리가 있더군요. 아마 과내 동아리긴 하겠지만 저로써는 너무 가슴이 두근거리는 이름이었습니다. (그렇다고 제가 생각하는 것과는 전혀 다른 동아리 라이프이긴 하겠지마는...)

그리고 최근에 사회조사분석사란 실기 시험을 봤습니다. 이도 취직과 관련해서 따려고 하는게 아니라, 그저 내가 이 분야를 좋아한다는 걸 공인받고 싶은 마음이 있고, 게다가 그런 [자격]이라는 걸 한번도 국가에서 인정 받아본 적 없는 저로써는 (자동차 [면허]와 또 다르다고 생각합니다) 관련 시험이 있길래 준비하게 되었습니다. 사실 결과가 나왔을 때 이야기를 꺼내고 싶었습니다만, 과정 상에서도 이야기를 하는 버릇을 들여야 겠단 생각이 들어서요. 기쁠 때나 슬플 때만 말을 할 수 있는건 아니니까요. 그제 시험을 봤는데, 보고 나오면서 홀가분하단 생각이 안들고 우울이 마구 밀려왔더랍니다. 뭐, 다시 암기 시험을 보고 싶진 않다거나, 내가 도대체 뭘 보고 있는 것인지 모르겠다거나, 필기는 모르겠지만 실기는 정말 열심히 했는데 통과했으면 좋겠다거나 여러 생각이 있겠습니다만 무엇이 됐든 시험을 보고 나서는데 우울한 감정을 느껴본 건 처음이었습니다. 수능도, 공무원 시험도, 대학 시험도 어느 것도 망치든 망치지 않았든 끝났다는 즐거움에 밖으로 걸어 나왔었는데 왜 이것만은 끝났는데도 우울한 것일까, 란 생각이 들더군요. 그리고 앞으로도 뭔가를 결과가 나올 때까지는 끝난 일이 됐는데 우울해진다면 정말 끔찍하겠단 생각이 들었습니다.

그런데 이후에 생각해보니, 제가 지금까지 공부했던 것들에는 그렇게까지 애정을 들이지 않았구나, 하는 생각이 들었습니다. 내가 이 시험에 엄청나게 애정을 쏟았구나, 그래서 그게 보답받지 못한다면 정말 슬프겠구나 하는, 그런 결론을 짓게 되었어요. 그리고 어느 정도는 내가 못하는 암기 시험에 대해서도 못하면 못하는대로 수용하고, 내가 잘하는 실습 시험에 대해서도 잘하면 잘하는 대로 받아들이면 되겠구나 싶었습니다. 제가 어떤 결과에 대해 우울하면 우울할수록, 제가 거기에 투자했던 애정이 상당했다는 것이고, 역으로 제가 그렇게 많이 감정적 자원을 투자할만큼 자원량이 늘어났다는 뜻이란 생각이 들어 위로가 되는군요.

지난번에 자격 시험을 신청해놓고 가지 않았다는 이야기를 한 적이 있습니다. 전날 새벽까지 밤을 꼴딱 새고 잠들어 무단 결석 했다는 이야기였죠. 그에 대해서 지인에게 왜 이번과는 다를까 생각해봤는데 구직활동이나 도달해야 할 목표로 두지 않고, [취미]라고 생각했기 때문이지 않을까라고 말했더니, 넌 그렇다면 인생을 취미로 살아보는게 어떻냐, 고 했습니다. 지금에 와선 [취미는 사랑]이란 노래 제목도 생각나고 하는데 그래도 꽤 생각해볼만한 우회로적인 논리가 아닌가 생각이 들었습니다. 네, 그렇네요.

일상_잡담, 이 게시물을

espiritu

2014.07.15 15:46

SPSS? SAS? JMP?

댓글
잔인한오후

2014.07.15 15:48

espiritu_ SPSS이고, 이 후에 R도 겉핡기 식으로 살펴볼까 생각 중이에요.

댓글
난로와주전자

2014.07.15 15:58

R은 쉽기도 하고 이야기도 편만한데 각 단계를 넘어가는 데에 특유의 불친절함으로 (저만 그렇게 느낄지도요) 계속 익히기가 쉽지많은 않았어요. 지금은 SAS를 익히는 데에 - 특히나 최근에 SAS university edition이라고 무료 버전이 공개된지라, 대학원생이니 나도 써야지! 하고는 - 시간을 내야지, 하고는 손놓고 있네요.

댓글
잔인한오후

2014.07.15 16:06

난로와주전자_ SAS가 어디서 자주 쓰이더라... SAS가 특정 계열에서 많이 쓰인다고 알고 있지만, 도서관의 책들 중에 SAS를 다룬 책들은 그렇게 많지 않더라구요. 위의 공부하는 곳 뒤에 아아아주 오래된 SAS를 가르치는 서적들이 있더군요. 아마 고려대학출판이었던 거 같은데 적어도 20년은 되어 보였... 그런데 프리웨어가 나왔다니 흥미 돋는데요? 그리고 뭐, R의 경우엔, 저는 프로그래밍을 따로 배우게 될지 안 될지 모르겠지만 R이 그렇게 그림을 잘 그린다해서 (SPSS에서 지원하는 것도 나쁘지 않지만) 프로그램과 짜집기하면 그림을 자동으로 뿌리는 그런게 만들 수 있지 않을까 해서 관심이 가거든요.

댓글
난로와주전자

2014.07.15 16:19

#잔인한오후:
고대 통계연구소의 SAS 입문 및 기초 프로그래밍이나 성내경 저 SAS/STAT 분산분석이 좋은 책이거든요. 말씀하신 것처럼 오래됐어요. 그래도 크게 바뀐 게 없어서 좋아라 보려고 하고 있습니다, 더구나 제 수준의 기초통계량 검정에서는요. 책을 펴야 할텐데..
기본적인 통계량들에 대한 내용에 대해서는 저도 잘 모르지만 김응환 저 통계교육이라는 책이 볼만해요. 평균과 분산, 검정 등에 대해 아주 잘 설명하고 있는 책이예요. 이것도 빨리 봐야할텐데..
R의 그래픽 툴들이 좋고, 여러 분들이 만들어놓으신 라이브러리의 옵션값을 잘 설정하면 그대로 출판할만한 결과물이 나와서 쓰기 좋아요. 그냥 자료 불러와서 기본으로만 뿌려도 꽤 그림이 나오는 친구들도 있구요. 확실히 그림은 R.. 이지만 지난번 워크샵에서 본 SAS의 완전 automation이 잊혀지지는 않네요. 앗, 이건 기업용이긴 해요 - 비용도 억대였던 걸로.

댓글
한군

2014.07.15 16:11

1) ㅎㅎㅎ 홧팅입니다! 응원합니다.
2) 취미니 지금은 아무 프로그램이나 써도 괜찮겠지만 나중에 R로 가세요. free 잖아요. Reference로 쓸만한 책이 잘 안 보이긴 하지만 google 검색을 잘 이용해서 몇 번이나 위기(!!)를 넘어선 적이 있어요. 관심있다면 coursera(https://www.coursera.org/)가서 지금 하고 있는 'R programming (Johns Hopkins University)' 강좌 신청해도 좋을 듯 싶어요 (전 작년에 이 강좌 들었어요. 대충 아는 내용인지라 시험은 그냥 pass하고 동영상 강의과 강의노트 pdf 파일을 훑어보는 정도로 코스를 끝내지만요).

댓글
난로와주전자

2014.07.15 16:21

#한군:
작년에 하셨으면 저랑 같이 들으셨을지도요?! 반갑습니다 ^^

댓글
초마짬뽕

2014.07.15 16:15

R책도 사고 윗댓글분이 언급한 강좌도 coursera에 등록했지만 책은 2강까지만 하고 멈췄고 강의는 introduction에서 멈췄어요.

데이터를 다뤄보고 싶은데 혼자 꿋꿋이 뭔가 해보기는 쉽지가 않네용

예전에 미니탭은 배웠는데 그건 정말 도구인듯 느껴졌어요

댓글
호레이쇼

2014.07.15 23:42

#초마짬뽕:
저는 그 강의 물리적으로는 끝까지 다 들었는데 뒤로 갈수록 영어 실력이 부족해서 도통 이해를 못하겠더라고요. 영어만 질했어도. 원통합니다.

댓글
잔인한오후

2014.07.15 16:22

한군_ 흐, 흐아니! 근데 영어를 못해서 영어도 이렇게 여유가 늘어날 때 배워둘까 합니다. 결국, 많은 정보가 영어로 통용되더라구요. 으으, 그래도 신청은 해볼까 하는 생각도 있으면서도 으아니 영어라니, R, 부러라도 들어볼까요. 근데 지금 PC가 없는 상태인지라. SPSS도 14까진가는 프리웨어라더라구요. 그리고 저도 소프트웨어를 불법으로 사용하기보단 무료로 사용하는게 낫단 마음가짐이었던지라 검색하다보니 R을 만나게 되었는데, 관련 서적 한 두 개 정도 읽으면서 이번에 SPSS에서 배운 것들을 R식으로 적용시켜봐야겠어요.

아.... 근데 링크해주신 홈페이지를 보며, 뭔가... 신세계를 느끼는 기분이네요...

초마짬뽕_ 크흑. 독학하는 통계덕이라니 동지를 만난 마음으로 눈물이 앞을... 가리기 전에 아마 실용적인 의미로다 배우고 계신거겠죠? 저도 자료를 의미가 있는 정보로 변환하는 것에 관심이 가다보니 흘러흘러 여기까지 들어오게 되었는데 참 많은 사람들이 고생 고생하며 명제들을 만들어내고 있더군요. 앞으로 얻을 수 있는 자료가 늘어날 걸 생각해보면 맥락을 제시하는 것도 중요하고 정보를 분석하는 것도 중요해질 것만 같은 기분도 들고. 그런데 미니탭이란건 간단한 도구인가 보죠? 제 듣기로는 많은 사회학 연구자들이 엑셀로 t-검정과 분산분석을 한다고 하더군요. (쿨럭..)

난로와주전자_ 추천해주신 책들 감사합니다. 이번 주는 계속 강의들으러 등교할텐데 오후 시간에 뒤에 있는 책들의 먼지를 털어내고 한 번 살펴봐야겠군요. 아주 오래된 중세시절 도서관처럼 등에 족쇄를 끼고 있는 녀석들입니다. 근데 Automation란 자동화고 SAS와 관련된 건, SAS 마케팅 자동화란게 걸리는군요. 시연을 어떻게 했다는 건지 상당히 궁금하네요.

댓글
샘물

2014.07.15 16:34

글을 읽다가 전에 잔인한오후님이 종종 올리던 통계자료 글도 생각이 나서 학생이신 줄 알았는데 취미로 통계를 배우신다니 놀랍네요. 전 직장생활하다 뒤늦게 대학원 다니느라 SPSS 공부하고 있거든요. 선배들 얘기를 듣다보면 꼭 세부전공 살려서 사는 건 아니다보니 박사 하면 연구 그 자체로 살 수 있는 방법도 없진 않은 것 같더라구요. 잔인한오후님처럼 숫자와 통계를 좋아하시고 분석하는 걸 즐기는 분이라면 취미로만 하기엔 아까운 실력이신 것 같아서 더 공부를 해보시는 것도 어떠실지 오지랍 넓은 말씀을 드리게 되네요^^; 사회과학은 통계 수치를 뽑아내는 것보다 그 수치를 어떻게 해석하느냐에 묘미가 있는 것이니까요.

댓글
잔인한오후

2014.07.15 16:39

샘물_ 제가 인구학과 통계자료를 듀게에 가끔 올리긴 하지만, 제 학부 전공은 인문학이에요. 사실 제가 깊게, 보단 넓게 파고들고 있는 인구와 통계라는 것이 전체를 이해하기에 앞서 바탕이 되는 방법론과 전체의 한계치가 아닌가 싶기도 해요. 그것들 자체가 무언가를 의미하는건 아니고 하나는 도구고 다른 하나는 크기가 정해진 백지인거죠. 그렇기에 제가 뭘 채워넣어야 할질 모르겠어요. 일단은, 내용보다는 형식부터 갖추고 있는 중인가봐요. 그리고, 또 그런데, 인문학에 관심이 없는 것도 아니에요, 전공 관련 글을 잘 안 썼는데 요번에 힘이 나서 그 쪽도 써볼까 싶어요.

댓글
AT

2014.07.15 17:10

이런 시각으로 통계에 대한 이야기를 들으니 재미있습니다. 집단 내의 특성 차이가 집단 사이의 특성 차이보다 더 많을 경우가 있는데도 불구하고, 집단 내에서는 평균을 강조하고 집단 사이에서는 차이점에 집중하고... 일반화라든가 스테레오타입화 하는 것이 살아가면서 도움이 될 때도 있지만 이 과정에서 어떤 유의미해질 수 있는 요소가 묵살되고 무의미해진다는 것이 가끔 사람을 힘들게 하지요. "[적어도 하나]만이라도 그 결과에 영향을 준다면 "무의미"하지 않은 것입니다" 라는 말씀은 어쩐지 저에게도 위안이 되었어요.
저는 학창시절부터 통계 이런 거 되게 싫어했는데 잔인한오후님의 이야기를 들으니 숫자로 이루어진 어려운 학문이라기보다는 차이와 변화를 진지하게 다루고싶어 하는 학문인 것 같이 느껴지네요 매력 있어요 저도 한번 진지하게 배워보고 싶군요.

댓글
잔인한오후

2014.07.15 18:16

#AT:
그래도 통계 자체를 배우는건 주관대로 오독하는 아집이 있어야 즐겁지, 이론은 방법론에 가깝고 마치 무기를 사용하지는 않고 어떤 재원이고 형태인지 배우기만 하는 것과 비슷하거든요. 그러니 통계를 통해서 자신이 관심있는 분야를 관찰한 것에서부터 시작하는게 이해에 도움이 될꺼라 생각해요. 저야 인구를 비추는 방식들이 통계라 익숙해있습니다만, 막상 열어보면 재미 없을지도 몰라요. 그래도 다른 무엇보다도 배우신다면 이론들이 20세기 학문들의 받침돌로 깔리는 형국이라 다른 학문들의 기초가 어떻게 깔리는지를 알 수 있다는 장점이 있을꺼에요. 아무래도 저만 해도, 논문에서 제시하는 T-검정은 물론 분산분석, 상관계수 내지 회귀식, 그리고 이번에 배우는 모수요인과 공변량들이 어떤 뜻이고 어떻게 구하는데다 어떻게 검정하는지를 이해하고 읽을 수 있을테니까요.

그리고 분산분석에 대해서는 결국, 그 집단을 나누는 변수가 무엇인가를 누가 선정하느냐가 담론을 지배하는 사람들이라는 거죠. 사실 어떤 것으로 쪼개든 검정을 할 수 있는 것이고, 유의미와 무의미를 나눌 수 있지만 대화과정에서 검정하며 할리는 없을테고 교묘히 자신의 주장을 강화시키기 위해 집단간 차이를 써먹겠죠. 실제 학계에서 그 한마디 하려고 별별 노력과 조사, 분석과 검정을 거치는데 말에요. 하지 말라는 이야기는 아니지만 적어도 할 때는 그렇게 불완전한 기반에서 이야기하고 있다는 자각만이더라도 있었으면 해요.

댓글
양자고양이

2014.07.15 18:46

일상에서 분산이란 말은 잘 사용하지 않지만 편차라는 용어는 어느정도 자주 쓰지 않나요? 실제로 분산분석에도 사용하는 값은 표준편차와 평균이니까 그렇게 틀린 표현은 아닌 것 같아요.

댓글
잔인한오후

2014.07.15 19:02

#양자고양이:
그러고보니 편차는 가끔 쓰는군요. 그런데 편차가 쓰이는 상황이 분산이라기보단 두 수의 차를 지적하는 경우가 흔하지 않나요? 평균과는 달리 형용에서 쓰일 때 통계의 뜻과는 좀 다른 뜻으로 쓰이는 거 같아요. (평균과 변수의 차의 제곱합의 제곱근이니 비슷하긴 하지만서도...) 아니아니, 검색해보니 특정 값이 넓게 퍼져 있다, 또는 차별이 심하다란 식으로 쓰이는 걸 보니 같게 쓰고 있네요. 그러고보면 상관관계 같은 말도 쓰고 있고, 이런 식으로 가다보면 전국민의 통덕화가 우후후후... (이제 회귀식과 오차항, 음/양의 상관계수와 교호작용 정도만 일반적으로 썼으면 좋겠는데...?)

댓글
양자고양이

2014.07.15 21:24

#잔인한오후:
통계는 중요합니다. 얼마 전에 BBC 다큐멘터리 'The Men Who Made Us Thin' 를 봤는데 메트라이프 보험회사의 통계원이었던 한 사람이 어떻게 통계를 잘못 적용하여 미국인의 절반을 비만 과체중으로 만들어 버리고 미국 정부가 이 표준을 채택하고 발빠른 수완가들이 이 표준으로 다이어트 사업을 시작하면서 오늘까지 이르게 되었는가를 설명해 주더군요. 통계는 잘못 적용되거나 잘못 이해되는 사례가 많은 만큼 전국민의 통덕화는 적극 바라는 바입니다.

댓글
잔인한오후

2014.07.15 22:53

#양자고양이:
그런 무서운 일이. 제가 이번에 듣던 이야기 중 재미있었던 이야기가, 한국 야구선수들의 연봉 책정이 회귀식으로 계산된다고 하더군요. 몇 십 개의 변수를 넣으면 타닥, 하고 나오나 보더라구요. 그런 변수 가운데 한 두개가 이상한 게 들어있다 생각하면 소름돋죠. 회사 연봉의 경우도 그런 식으로 계산되는 곳이 있나 궁금합니다. 그리고 통계 예측의 큰 실수라고 불리우는게 세계의 연금 계산 문제가 있더군요. 통계청의 인구추계를 기반으로 국민 연금의 틀을 짰는데 그 미래는 아시다시피 현재입니다. 그게 우리나라 만의 문제가 아니라고 하던데 정확히는 잘 모르겠군요. 그리고 제 기억에 아주 오래전 통계관련 다큐멘타리를 봤던 기억이 아련하게 자리잡고 있는데, 그게 국민연금 이야기도 나오고 시작할 때었던가 싶기도 하고, 엄청나게 카다란 고래가 아주 작은 연못에 갖히게 되었다 이런 이야기를 하면서 국민연금으로 공격적인 투자를 해야한다고 부추기는 그런 다큐멘타리였나 아니었나 싶은데, 여튼 중요한건 거기서 유럽의 어느 나라 이야기가 나와요. 그 나라에선 사람들이 통계를 그렇게도 좋아해서 숫자로 빼곡한 통계 신문을 가져다가 삼삼오오 모여 이게 이런거 아닌가 저런거 아닌가 토론한다는 내용이었습니다. 어렸는지 아니었는지 모르겠는데 제 영혼에 쿵 하고 충격을 받는 장면이었죠. 으으, 그런 꿈과 희망의 미래라면 좋겠습니다만, 누군가에겐 절망과 지옥의 미래일테니 적당히 퍼지기만 해도 무방합니다.

댓글
팔락펄럭

2014.07.15 23:16

통계적인 가설검증이 과학적 방법론을 확률이론으로 표현 해 놓은 것이라는 생각을 합니다. 서로가 서로를 이해하는데 도움이 되는 것 같더군요. 전공에 상관없이 확률이론 같은 건 안면이라도 터 놓으면 도움이 많이 되죠.

댓글
잔인한오후

2014.07.15 23:24

#팔락펄럭:
과학적 방법론이란건, 귀무가설과 대립가설을 놓고 제 1종 오류와 제 2종 오류의 위험을 피해 둘 중 하나를 선택하는 방법이죠? 그리고 그 사이에 가설에 몇 가지 조건들이 달려있구요. 이건 가설검정이고, 방법론은 재검정 가능한 실험설계를 바탕으로 한 것이었던가, 긴가민가 하네요. 확실히 가설에 대한 여러 검정의 수학식을 보면, 확률이론적으로 표현했다는 생각이 듭니다. 다만 전 공대, 자연대 계열과는 거리가 멀어서 잘 모르겠군요.

댓글
팔락펄럭

2014.07.15 23:37

#잔인한오후:
그 외 여러가지 것들이 어울려서 과학적 방법론이 이루어지겠죠. 실험이 인과관계를 밝힐 수 있는 가장 좋은 방법이긴 하지만 과학적으로 얻어진 지식이란 건 그 외의 다른 방법으로도 얻어질 수 있는 것이구요. 사람을 대상으로 하는 행동과학, 사회과학 등에서는 그런 것들이 중요하죠. 사실 그 구분이란게 애매하기도 하지만 인문학을 비롯한 교육학, 사회과학, 의학 등 대부분의 분야에서 통계적 가설검증은 중요한 역할을 하고 있습니다. 뭐 다 아시는 얘기일테구요. 심지어 음악 전공하는 분의 가설형성과 분석을 자문 해 준 적도 있네요.

댓글
잔인한오후

2014.07.15 23:50

#팔락펄럭:
그렇군요. 박사과정 분들이 논문 돕는 이야기를 들어보니 방법론으로서는 굉장히 넓은 범위에 쓰이고 있는 필수 도구더라구요. 다른 것보다 어떻게 가설을 설정하고 그 설정한 가설을 어떻게 검정하느냐만, 그런 기본적인 자신이 가지고 있는 궁금증을 어떻게 문제로 성립시키냐만 배운다 하더라도 참 많은 도움이 되겠다 싶었습니다. 그런걸 모르면 머리에 품고 있는 질문을 어떤 식으로 해결하고 확증시키는지 몰라서 헤맬테니까요.

댓글
iphone5s

2014.07.16 00:02

잔인한오후님과는 정말로 밥 한 끼
먹어보고 싶군요. 박태원이 "우리에게는 생활이 없다!"고 했었죠.

댓글
잔인한오후

2014.07.16 00:37

#iphone5s:
박태원이 한참 글쓴지도 어언 70년은 되었는데도 공감할 수 있다니 이 무슨 씁쓸함인지. 저도 인간관계는 좁지만 온라인 분들을 아아주 가끔 만나보면 좋더군요. 그런데 아직도 그 개념이 잡하질 못해서. 애초에 지방에 있으니 번개 같은 것도 참여 못해서 그런지도 모르겠습니다.

댓글
행인3

2014.07.16 00:55

피셔의 귀무가설검정(http://en.wikipedia.org/wiki/Statistical_hypothesis_testing) 기법은 희안한 귀무가설을 세우고 이를 기각하는 활동이죠. 예를 들어서 '남자와 여자의 IQ 평균점수가 완벽하게 동일하다'같은 귀무가설과 '동일하지 않다'는 대립가설. 즉 영가설에 따르면 성별은 IQ에 완벽하게 아무런 정보를 가지지 않는다는 것이고. 대립가설은 뭔가 아주 작은 연관을 갖는 정보를 가진다는 거죠. 그렇기 때문에 귀무가설의 기각이 과연 의미있는 정보의 획득인가에 대해서 비판이 있을 수 있어요.

예를 들어서 남자와 여자의 IQ차이가 엄청나게 작은 차이(0.00001점)로 존재하긴하고, 그래서 샘플을 엄청 크게 만들면 어느 순간엔가는 '소수점자리 끝까지 완벽하게 동일하다'는 귀무가설을 기각하게 되는데, 그게 정말 의미가 있는 정보인가에 대한 물음이 있을 수 있죠. 그래서 effect size를 봐야한다는 얘기들을 하죠.

multiple regression이나 ANOVA같은 경우에 '어떤 변수든 하나라도 유의미한 효과가 발견되면 유의미한거다'는 유추도 사실 충분히 그렇지 않다고 반론을 낼 수 있죠. 사실 귀무가설을 기각해서 우리가 얻게되는 정보는 '특정한 독립변수가 종속변수에게 아무런 영향을 끼치지 않는건 아니다'라는 거죠.

댓글
잔인한오후

2014.07.16 07:03

#행인3:
재미있는 이야기들 감사합니다. 저야 기초를 다지며 심정적으로 이해했던걸 풀어 쓴거니까 (사고적으로 이해한걸 써서야 공감도 안되고 독자들을 다르게 상정해야 할테니) 엄정한 정의와는 꽤 멀어졌을껍니다. 표본수를 늘리게 되면 자유도도 함께 늘어나서 각각의 의미가 더 줄어들지 않나요? 어떻게 보면 모평균보다 표본평균이 더 사실을 잘 전달할 수 있다는, 즉 한계를 잡아 표본을 추출하라는 이야기와도 연관성이 있을 것 같군요. 통계는 그 값만이 아니라 전체를 전부 읽어야만 하는 소설 같은 명제라고 생각하는데, 위의 한정된 공격에 방어한다면 그 이야기는 남녀의 엄청나게 큰 집단간 차이가 적다는 걸 말하는 그 자체다, 라고 말할 수 있겠죠. 아주 비대해진 집단을 하나로 놓고 서로 비교한다는 가정 하에 그렇다고요.

다중회귀와 교차분석에 대한 이야기도 사실 재귀적인 농담 같은 걸로 만들어버릴 수도 있겠죠. 수학자들이 미리 세워놨던 가설이 회귀식을 만들기 위한 것이고 그렇기에 변수의 변화가 값에 영향을 미치느냐 마느냐가 그 식을 사용할만 한가 안한가를 물어보는, 말 그대로 적어도 하나냐고 물어봤기에 적어도 하나가 의미가 있거나 없다고 검정하게 되는 상황이란걸 알고 있습니다. 그러나 삶의 의미를 묻는 것과 그 마찬가지로, 수학자들의 첫 의문에도 자의적인 부분이 있고 그 결과값을 받아드는 걸껍니다. 게다가 거기서 우리는 정말 의미가 있느냐? 없느냐?를 질문 한다고 해도 컴퓨터는 묵묵부답으로 수치를 뽑아내어 보여줄 뿐이고 결국 얼마나 엄밀할 것이냐 말 것이냐의 선을 그어주는 것은 인간이 감내해야할 것이므로, 판단도 인간에게 달렸다 생각합니다. 다만 통계는 감수성을 강화해주고, 인간 보편에게 설명력이 높아지는 것이겠죠. 사실 행인3님이 마지막에 내주신 대응가설도 (제가 쓴 가설보다 통계적으로는 훨씬 올바르고 엄밀하겠지만) 문학적으로는 맘이 따뜻해지는 구절에서 멀리 벗어나진 않으니, 쓴웃음이 나옵니다. (유의하다는 게 참 어렵습니다.)

댓글

번호	제목	글쓴이	날짜	조회 수
공지	제 트위터 부계입니다. [3]	DJUNA	2023.04.01	32869
공지	[공지] 게시판 관리 원칙.	엔시블	2019.12.31	51918
공지	[공지] 게시판 규칙, FAQ, 기타등등	DJUNA	2013.01.31	362317
24	[전일상 잡담] 두문불출하던 시간들. [7]	잔인한오후	2014.07.24	1389
23	여러가지 일상 잡담 [7]	shyness	2012.04.13	1391
22	[일상 잡담] 도서관 봉사활동, 시험감독, 아이들 [7]	잔인한오후	2012.07.16	1412
21	[일상 잡담] 중학교 도서관 봉사활동 [12]	잔인한오후	2012.07.04	1812
20	광주 1박 2일 여행 후기 (부제: 듀나인 감사해요) [13]	13인의아해	2016.05.14	1880
19	[일상 잡담] 약한 흥분 내지 불면증. [10]	잔인한오후	2014.06.25	1899
18	[비일상 잡담] 꽤 늦은 엑스포 후기 [18]	잔인한오후	2012.07.05	1934
17	미녀는 괴로워 [8]	sargent	2011.10.11	2131
16	오늘 할 일도 내일로 미룬채.. [10]	남자간호사	2011.01.29	2197
15	[마음이 식는 일상 잡담] 운동, 상담 그리고 [6]	잔인한오후	2014.06.19	2224
14	[일상 잡담] 고맙습니다 외. [14]	잔인한오후	2014.08.23	2410
13	1.출장명령서 2.우리 고양이는 나를 뭘로 보는가? 3. 아몰라 [10]	Koudelka	2015.12.12	2510
12	일본사태가 일깨워준 일상의 소중함 [2]	soboo	2011.03.17	2521
11	[바낭] 요령 없음 [20]	에아렌딜	2012.02.13	2848
»	[일상 잡담] 통계를 배우는 과정에서. [26]	잔인한오후	2014.07.15	2958
9	댄싱 위드 더 스타 결승전(스포일러) / '나는 가수다' 이번 주는 선호도 조사 / 위대한 탄생 시즌 2 [10]	로이배티	2011.08.19	2976
8	[붕괴하는 일상 잡담] 자기 옹호. [21]	잔인한오후	2014.06.28	3107
7	본의 아니게 애인이랑 똑같은 생일선물 주고받은 이야기. [7]	Paul.	2011.08.26	3439
6	[사진] 뒷모습 [10]	낭랑	2010.08.26	3551
5	출근길 지하철 유감 [13]	거울에비친	2012.10.19	3785

첫 페이지 1 2 끝 페이지

쓰기

태그

댓글 26