그래프 가지고 장난치지 말자

http://goo.gl/G97AW : 6월 3일자 매일경제의 기사다. ‘0을 포함하지 않는 그래프’를 그리고 있다. 이걸 실제로 0을 포함하는 그래프로 그리면 아래와 같은 형태가 된다.

매일경제의 잘못된 그래프

이 그래프를 놓고보면 인구 10만명 당 자살 사망자 수가 급격히 증가한 것으로 보인다. 이걸 내가 다시 그려봤다. 다만 “정직한 연구자라면 마땅히 해야할 것 같은” 형태로 해봤다.

제대로 그린 그래프

이렇게 그리면 인구 10만명 당 자살 사망자 수는 증가세인 건 마찬가지지만, 그 증가세는 훨씬 작아 보인다.

내가 대학원 시절에 배운 그래프 그리는 기본 원칙 중 하나는 다음과 같다.

  • 모든 그래프는 y축에 0을 포함해야 한다.
  • 단, log 스케일로 그릴 때는 예외로 한다.

한국의 언론이란 것들은 이런 식의 그래프를 자주 그린다. 속지 말도록 하자. 그래프는 사실을 간결하게 전달해주긴 하지만, 해당 원자료의 신뢰도, 그리고 그 그래프를 그린 사람의 의도에 따라 완전히 왜곡된 정보가 담길 수 있다.

Default image
Jinuk Kim

SW Engineer / gamer / bookworm / atheist / feminist

Articles: 934

10 Comments

Leave a Reply

  1. MBC 게임 폭력성에 대한 실험도 그렇고…
    하고 싶은 말을 정해놓고 뭐든 짜맞추려고 하는 기자들이 종종 보이네요

  2. 0을 포함하더라도 제시하신 그래프에서 X축을 좁게 한다면 자살율의 증가가 보다 강조될 수 있습니다. 물론 더 넓게 하면 증가 추세가 더 약해 보이겠지요. 말씀하신 내용의 99%에 동의하며 평소에 개인적으로 공감해온 문제입니다만, 어짜피 절대 객관적인 그래프는 있을 수 없다는 생각입니다. 누군가는 반대로 여기서 제시하신 그래프를 의도적으로 문제의 심각성을 감추는 문제가 있다고 비판할 수도 있는 것이죠. ‘정직한 연구자’의 자세도 중요하지만, 그것만으로 100%의 객관성은 획득할 수 없으며, 더욱 중요한 것은 (글쓴이께서 여기서 바로 하신 것 처럼) 수용자가 비판적으로 판단하고 받아들일 수 있느냐 하는 부분인 것 같습니다.

    • 네 통계 데이터를 쓰는 이상 (글쓴이의) 의도가 들어가는건 어쩔 수 없을 겁니다. (하다못해 원자료 소스의 선택, 자료에서 부분을 발췌하는 방식) 말씀하신대로, 비판적으로 판단하고 받아들이는 태도가 중요합니다.
      그렇지만 축의 틱 값들을 읽지 않고선 왜곡될 수 밖에 없게 그리는 언론은 좀 슬펐습니다.

      ps. CSAIL이라니!

  3. 2005년은 24.6명인데 그래프가 꺾인 모양이니 그래프에서 또 뺐나보네요.
    그리고 신문 기사 내용은 연예인 자살, 카이스트 자살 내용인데
    사실 통계의 큰 부분은 노인 자살… 그 얘긴 또 하나도 없네요.