그래프 가지고 장난치지 말자

http://goo.gl/G97AW : 6월 3일자 매일경제의 기사다. ‘0을 포함하지 않는 그래프’를 그리고 있다. 이걸 실제로 0을 포함하는 그래프로 그리면 아래와 같은 형태가 된다.

매일경제의 잘못된 그래프

이 그래프를 놓고보면 인구 10만명 당 자살 사망자 수가 급격히 증가한 것으로 보인다. 이걸 내가 다시 그려봤다. 다만 “정직한 연구자라면 마땅히 해야할 것 같은” 형태로 해봤다.

제대로 그린 그래프

이렇게 그리면 인구 10만명 당 자살 사망자 수는 증가세인 건 마찬가지지만, 그 증가세는 훨씬 작아 보인다.

내가 대학원 시절에 배운 그래프 그리는 기본 원칙 중 하나는 다음과 같다.

  • 모든 그래프는 y축에 0을 포함해야 한다.
  • 단, log 스케일로 그릴 때는 예외로 한다.

한국의 언론이란 것들은 이런 식의 그래프를 자주 그린다. 속지 말도록 하자. 그래프는 사실을 간결하게 전달해주긴 하지만, 해당 원자료의 신뢰도, 그리고 그 그래프를 그린 사람의 의도에 따라 완전히 왜곡된 정보가 담길 수 있다.

Jinuk Kim
Jinuk Kim

SW Engineer / gamer / bookworm / atheist / feminist

Articles: 935

10 Comments

  1. MBC 게임 폭력성에 대한 실험도 그렇고…
    하고 싶은 말을 정해놓고 뭐든 짜맞추려고 하는 기자들이 종종 보이네요

  2. 0을 포함하더라도 제시하신 그래프에서 X축을 좁게 한다면 자살율의 증가가 보다 강조될 수 있습니다. 물론 더 넓게 하면 증가 추세가 더 약해 보이겠지요. 말씀하신 내용의 99%에 동의하며 평소에 개인적으로 공감해온 문제입니다만, 어짜피 절대 객관적인 그래프는 있을 수 없다는 생각입니다. 누군가는 반대로 여기서 제시하신 그래프를 의도적으로 문제의 심각성을 감추는 문제가 있다고 비판할 수도 있는 것이죠. ‘정직한 연구자’의 자세도 중요하지만, 그것만으로 100%의 객관성은 획득할 수 없으며, 더욱 중요한 것은 (글쓴이께서 여기서 바로 하신 것 처럼) 수용자가 비판적으로 판단하고 받아들일 수 있느냐 하는 부분인 것 같습니다.

    • 네 통계 데이터를 쓰는 이상 (글쓴이의) 의도가 들어가는건 어쩔 수 없을 겁니다. (하다못해 원자료 소스의 선택, 자료에서 부분을 발췌하는 방식) 말씀하신대로, 비판적으로 판단하고 받아들이는 태도가 중요합니다.
      그렇지만 축의 틱 값들을 읽지 않고선 왜곡될 수 밖에 없게 그리는 언론은 좀 슬펐습니다.

      ps. CSAIL이라니!

  3. 2005년은 24.6명인데 그래프가 꺾인 모양이니 그래프에서 또 뺐나보네요.
    그리고 신문 기사 내용은 연예인 자살, 카이스트 자살 내용인데
    사실 통계의 큰 부분은 노인 자살… 그 얘긴 또 하나도 없네요.

Leave a Reply