이 책을 읽는 분들에게
단 하나의 통계학 책만 읽어야 한다면 어떤 책을 추천해 주실 수 있나요?
이 책을 알게 된 것은 2014년이었습니다. 인하대학교 황승식 교수님 강의를 듣던 중, 강의 끝에 교수님께서 가장 많이 받는 질문이라며 그에 대한 답으로 추천하신 게 이 책입니다. 저는 책을 바로 사서 읽기 시작했고, 기존 다른 통계책들과는 사뭇 다른 참신한 내용에 감탄했습니다. 특히 저자도 강조하는 ‘빠지기 쉬운 통계학 함정’에 대한 내용은, 그동안 개인적으로 궁금했던 점을 재미있게 풀어낸 이 책의 정수라 할 만합니다.
통계적 이해능력(statistical literacy)이 점점 중요해지고 있습니다. 시민권을 얻기 위해 읽고 쓰는 능력이 중요한 만큼 미래에는 통계적 사고가 중요해질 것이라는 H. G. Wells의 말을 굳이 빌리지 않더라도, 무질서한 듯 보이는 현상에서 규칙을 발견하고, 그 규칙을 설명하는 모형을 고안한 후, 그 모형의 유효성을 검증하는 통계적 사고는 자연과학을 이해할 때뿐만 아니라 복잡한 사회현상을 이해하는 데도 점점 더 중요한 것으로 여겨지고 있습니다.
또한, 날마다 방대하게 수집되는 자료를 컴퓨터로 분석하는 것이 가능한 빅데이터 시대를 맞이하게 되면서, 분석자료를 적절하게 해석해 결과를 제공하는 기술통계(descriptive analysis)분야에서 통계 이해능력은 필수적인 항목이 되었다 해도 과언이 아닙니다.
이 책의 저자는 통계학에는 P<0.05로 대변되는 통계적 유효성 이외에도 무궁무진한 이야깃거리가 있다고 강조합니다. 그리고 그 이야기를 가능하면 복잡한 수학공식 없이 쉽게 말로 풀어 독자로 하여금 이를 직관적으로 이해하도록 유도합니다. 이 책으로 통계공부를 시작하는 분들은 분명 여타 통계서적과는 다른, 통계학의 흥미롭고 풍성한 부분과 만나게 되실 겁니다.
가능한 한 쉽게 읽히도록 내용을 풀어쓰려고 애썼으나, 기술적인 내용을 설명할 때는 그 의미를 명확하게 하고자 직역체로 남겨둔 부분도 있습니다. 오자나 탈자, 오번역에 대한 수정 부분은 cafe.naver.com/intusta를 통해 업데이트 하겠습니다.
통계에서 피해야 할 함정 (45장에서 발췌)
함정 #1: 효과의 크기보다 P값과 통계적 유의성에 주목하기
P값과 통계적 유의성은 유용할 수 있지만, 통계학에는 P값과 별표(유의성을 표시하는)보다 더 중요한 것이 있다. 효과(차이 또는 연관성)의 크기에 먼저 주목하기 바란다. 차이나 연관성이 관심을 가질 만큼 큰가? 신뢰구간을 보았을 때, 그 효과의 크기는 충분히 정밀하게 측정되었는가? 표본이 매우 크면 통계적으로 유의한 작은 효과를 발견할 수 있지만, 의미 없는 결과일 수도 있다. 표본이 작으면 유용한 결론을 내릴 만큼의 정밀성을 갖는(신뢰구간이 좁은) 효과를 발견하기 어렵게 된다.
함정 #2: 자료에 의해 제시되는 가설검정하기
관심 있는 질문에 대한 답을 찾기 위해 설계된 연구라면, 그 결과는 해석하기 어렵지 않다. 하지만 어떤 연구는 많은 연구대상자 집단을 두고 많은 변수에 대해 분석하며 연구를 시작할 때 어떤 실제적인 가설이 없기도 하다. 그런 연구를 탐구적 자료분석(exploratory data analysis) 이라고 하는데, 가설을 만드는 데 유용한 방법일 수는 있다. 하지만 그 가설을 검정하려면 새로운 자료가 필요하다.
함정 #3: 계획 없이 분석하기 ―‘P-해킹’
자료를 분석할 때는 많은 결정을 내려야 한다. 표본의 크기는 얼마나 커야 하는가? 어떤 통계검정방법을 선택해야 하는가? 이상값은 어떻게 해야 하는가? 자료를 먼저 변환해야 하는가? 외부 조절값으로 자료를 정규화해야 하는가? 교란변수의 차이를 통제하기 위해 다중회귀분석을 시행해야 하는가? 이런 내용을 포함한 연구에 대한 결정은 실험을 설계할 때 사전에 이루어져야 한다.
자료를 본 후 분석방법을 결정한다면, 당신이 원하는 결과를 얻을 만한 분석방법을 선택할 위험이 있으며, 이는 스스로를 기만하는 결과를 낳는다. 이미 26장에서 사후검정에서 표본크기선택 문제에 대해 다루었으며 23장에서 P-해킹의 어리석음도 보았다.
함정 #4: 자료는 연관성만 보여 주는데 인과성에 대한 결론 내리기
Messerli (2012)는 왜 어떤 나라는 다른 나라보다 노벨상 수상자가 많은지 궁금했고, 이 질문에 대한 답을 얻고자 그림 45.3과 같은 그래프를 그렸다. Y축은 각 국가의 총 노벨상 수상 횟수다. X축은 최근 수년간의 초콜릿 소비량이다(자료 접근성 문제로 사용된 국가별 소비 연도수는 다르다). X축과 Y축은 모두 현재 국가별 인구에 표준화되었다. 그 연관성은 r=0.79로 매우 강하다. 실제 연관성이 없다는 귀무가설에 대한 P값은 0.0001보다 작다.
함정 #5: 대리지표나 대리표지자를 측정하는 연구결과 과장하기
중요한 결과를 측정하려면(예: 사망)은 시간과 비용이 많이 든다. 따라서 대리지표(proxy)나 대리표지자(surrogate) 변수를 측정하는 것이 훨씬 실용적일 때가 있다. 하지만 어떤 경우 대리지표를 개선한 치료가 실제 더 중요한 결과변수를 개선시키지 않을 수도 있다.
- 목차 -
PART A 통계학 소개
01 통계학과 확률을 직관적으로 이해하기는 어렵다 / 02 확률의 복잡성 / 03 표본에서 모집단으로
PART B 신뢰구간
04 비율의 신뢰구간 / 05 생존자료의 신뢰구간 / 06 계수자료의 신뢰구간(포아송분포)
PART C 연속변수
07 연속자료를 그래프로 그리기 / 08 변수의 종류 / 09 산포 정량화하기 / 10 가우스분포 /
11 로그정규분포와 기하평균 / 12 평균의 신뢰구간 / 13 신뢰구간의 이론 / 14 오차막대
PART D P값과 통계적 유의성
15 P값이란 / 16 통계적 유의성과 가설검정 / 17 신뢰구간과 통계적 유의성의 관계 /
18 통계적으로 유의한 결과 해석 / 19 통계적으로 유의하지 않은 결과 해석 / 20 통계적 검정력 / 21 동질성 또는 비열등성 검정
PART E 통계학의 난제들
22 다중검정이란 / 23 다중검정의 편재성 / 24 정규성 검정 / 25 이상값 / 26 표본크기 정하기
PART F 통계검정
27 비율 비교 / 28 환자-대조군 연구 / 29 생존곡선 비교 / 30 두 평균 비교: 독립표본 t검정 / 31 짝지어진 집단비교 / 32 상관성
PART G 모형 적합하기
33 단순선형회귀분석 / 34 모형 / 35 모형 비교 / 36 비선형회귀분석 / 37 다중회귀분석 /
38 로지스틱회귀분석과 비례위험회귀분석
PART H 그 밖의 통계학 주제들
39 분산분석 / 40 분산분석 후 다중비교검정 / 41 비모수검정 / 42 민감도, 특이도 그리고 수신기-운영 특성곡선 / 43 메타분석
PART I 종합해보기
44 통계학의 주요 개념 / 45 통계에서 피해야 할 함정 / 46 핵심 예제 / 47 검토 문제 /
48 검토 문제에 대한 해답
PART J 부록 · 참고문헌 · 찾아보기
APPENDIX A Graphpad를 이용한 통계학 / APPENDIX B 엑셀을 이용한 통계학 / APPENDIX C R을 이용한 통계학 / APPENDIX D 신뢰구간 계산에 필요한 t분포값 / APPENDIX E 로그 / APPENDIX F 통계검정법 선택 / 참고문헌 / 찾아보기
등록된 상품이 없습니다.
사용후기가 없습니다.
상품문의가 없습니다.