중앙대 건강지킴이팀 조예빈 학생
공공데이터 활용 '학생 비만에 영향을 미치는 요인 탐색 연구'

[에듀인뉴스-한국교육학술정보원 공동기획] 공공데이터란 정부, 지방자치단체, 공공기관이 생성·보유하고 있는 데이터를 의미한다. 이 자료는 국민 누구나 사용할 수 있으며, 데이터 간 결합을 통해 재사용 및 재배포도 가능하다. 교육부와 한국교육학술정보원, 대학교육협의회는 교육 공공데이터에 대한 국민의 관심을 높이고, 교사·학생의 데이터 리터러시 역량 및 문제해결능력 향상을 위해 올해 ‘제1회 교육공공데이터 활용대회’를 공동 개최했다. 참가 팀들은 학교교육 환경 개선 및 교육 문제 해소를 위한 다양한 아이디어를 제시했다. 에듀인뉴스는 실제 학교에서 교육공공데이터 활용 교육이 어떻게 이뤄졌는지 소개하는 기획을 통해 학교 전반에 공공데이터 활용 교육이 활성화되길 기대한다.

중앙대 건강지킴이팀 조예빈 학생

과연 내가 할 수 있을까?

평상시 교육과 관련한 이슈와 문제에 관심이 많았던 터라, ‘항상 좀 더 많은 학생이 행복하게 교육 받으며 살아갈 수 있는 방법이 없을까’ 하는 생각을 자주 했다. 그러나 언론 기사와 주변 사람들 말에 의존하는 수준이라, 가슴 한쪽에는 항상 아쉬움이 자리 잡고 있었다.

우연히 교육 공공데이터 활용대회를 알게 됐다. 하지만 ‘혼자서 데이터를 분석해볼 수 있을까?’라는 두려움이 들었다. 그러던 중, 탑재되어 있는 교육 공공데이터를 활용해 실제 데이터를 분석해 보면 모든 학생이 공통으로 직면한 교육문제들을 발견할 수 있을 것이라는 생각이 들었다.

그를 통해 문제를 해결할 수 있는 새로운 대안을 제시해 더 좋은 환경에서 학생들이 교육 혜택을 누릴 수 있을 것이라는 결론에 도달했다.

(이미지=픽사베이)
(이미지=픽사베이)

데이터를 샅샅이 훑어보자.

첫 번째로 한번 부딪혀보자는 마음으로 공공데이터 포털과 에듀데이터(EDSS)에서 제공하는 교육데이터들을 열어보기 시작했다. 많은 데이터가 공개되어있는 만큼, 각각의 파일들이 어떤 항목 등을 측정하고 있는지 알기 위해서는 샅샅이 그 안을 살펴볼 필요가 있었다.

어떤 유형의 정보를 제공하고 있고 어떤 속성을 지니고 있는지, 무엇을 측정하기 위해서 이뤄졌는지 등을 살펴봤다. 목적에 따라 측정하는 데이터의 유형이 매우 다양했고, 초등학교와 중학교별로 측정하는 항목들이 조금 달라서 당황하기도 했다.

그렇지만 공공데이터에 탑재된 파일의 맨 앞에는 본 데이터가 무엇을 측정하는 항목이며 언제, 어떻게 측정됐는지를 소개해주는 내용이 함께 들어 있어 쉽게 내용을 이해할 수 있었다.

어떠한 특성 등을 갖고 있고 무엇을 파악하기 위해 데이터가 수집됐는지 간략하게 기록했다. 이렇게 데이터들을 정리하는 과정에서, ‘여러 데이터들을 어떻게 연관 지을 수 있을까?’라는 생각이 들었다.

연도별, 학제별, 비만여부별 학생의 수.(자료=조예빈 학생)
연도별, 학제별, 비만여부별 학생의 수.(조예빈 학생 자료 캡처)

단순히 성별에 따른 학생 수 데이터만을 보는 것이 아니라, 지역에 따른 학생 수 특징, 각 지역에 제공되는 경제적인 지원항목, 각 학교의 수업편성과 교사 수 등의 자료들을 함께 본다면 더 다양한 시각에서 학생의 성별에 따른 수업 지원 방법 등을 고민해볼 수 있을 것 같았기 때문이다. 이 방식으로 최대한 다양한 시각에서 데이터를 살펴보려고 노력했다.

궁금했던 교육 현상을 파악하기 위해서는 데이터들을 선정해 분석과정을 거쳐야 했다. 평상시 갖고 있는 여러 가지 교육문제에 대한 궁금증들을 적기 시작했고, 현재 주변 사람들이 자주 언급하거나 뉴스나 기사 사이트 등에서 언급되는 교육문제들이 무엇인지 파악했다. 그러다보니 교육문제와 데이터들을 자연스럽게 연결할 수 있게 됐다.

데이터와 데이터 간의 연결성을 나름대로 세운 후 여러 연구 가설 등을 세웠다. 최근 2019년 1차 학생건강증진 기본계획 정책이 추진된 만큼, 학생들의 영양 불균형과 신체활동 부족으로 인한 비만 학생 증가 문제가 매우 심각하다는 생각이 들어, 나름대로 비만 문제와 관련 있다고 생각되는 데이터들을 선정하기 시작했다.

연도별, 지역별, 비만여부별 평균 체육관 수(자료=조예빈 학생)
연도별, 지역별, 비만여부별 평균 체육관 수.(조예빈 학생 자료 캡처)

특히 어렸을 때부터 체육활동을 해야 학생들이 체육활동에 덜 거부감을 느낄 수 있다는 생각에 학교 유형과 지역, 성별에 따른 학생들 건강 현황과 학생 체육활동을 지원해 줄 수 있는 방법을 제안하고 싶었다.

또한 학생 건강에 영향을 미치는 것에는 개인적·사회적·환경적 요인들이 존재할 것이라는 생각이 들었고 그 중 건강에 가장 큰 영향을 미치는 환경적 요인으로 미세먼지를 떠올렸다.

지역마다 미세먼지 수치 데이터를 가져온 후에, 각 학교가 위치에 있는 시·군·구에 맞는 미세먼지 데이터들을 합쳤다. 이렇게 분석을 위한 모든 준비가 끝났다.

(이미지=픽사베이)
(이미지=픽사베이)

여러 데이터를 하나의 파일로 만들기 어려웠어요ㅜ

첫째, 분석할 수 있도록 여러 가지의 데이터를 합쳐야 했다. 하지만 데이터를 하나로 만들기는 그리 쉽지 않았다. 학생 수와 학생건강현황 결과 등의 파일이 떨어져 있어서 이러한 연관성 있는 데이터를 하나로 합쳐야 했다.

특히 연도별, 학교별로 학생들이 고유한 특성을 가질 것이라는 생각이 들어 연도와 학교별로 데이터를 합쳤는데, 시간이 오래 걸렸고 합치는데 데이터가 날아가기도 했다.

또한 여러 목적들로 조사된 데이터들이라 서로 다른 구조로 되어 있었고, 가진 내용이 달라서 구조를 맞춰줘야 하기도 했다.

둘째, 데이터 값이 존재하지 않는 빈값이 많았다. 예를 들어 평균을 계산했는데 데이터가 없는 값이 너무 많아 분석결과가 이상하게 나오는 것이었다.

이 밖에도 내가 원하는 결과를 도출하기 위해 어떤 과정이 필요한지 알기 어려웠고, 막상 데이터를 분석했는데 내가 예상한 결과가 나오지 않았을 때 당황스럽기도 했다.

여러 시행착오를 겪으며 중간에 포기할까 하는 생각이 들기도 했다. 하지만 이러한 어려움을 극복한다면 더 다양한 관점에서 문제 해결책을 찾을 수 있을 것 같다는 생각이 들어 힘내자는 마음으로 열심히 분석에 몰두했다.

나도 할 수 있다!

활용대회 참가 준비를 하면서 여러 데이터를 살펴볼 수 있었다. 그 과정에서 다양한 데이터를 통해 현 사회의 모습, 우리들을 바라볼 수 있을 것이라는 생각이 들었다. 그리고 그 속에서 좀 더 나은 대안과 방안 등을 모색해볼 수 있을 것이라는 확신이 들었다.

본 대회를 통해서 시행착오를 많이 겪고 시간이 조금 걸리긴 했지만 할 수 있다는 자신감을 얻었다. 또한 여러 관점에서 다양한 시각으로 데이터를 바라봐야 함을 알게 되었다.

데이터를 통해 행복한 교육의 미래를 꿈꾸다

최근 빅데이터라는 말이 화두가 되는 만큼, 굉장히 많은 양의 방대한 데이터를 손쉽게 무료로 확인해볼 수 있었다. 본 교육 공공데이터 활용대회를 통해 더 많은 사람이 교육데이터에 관심을 가지고, 교육문제를 해결할 수 있는 다양한 아이디어를 제시하는 장이 마련된 거 같아서 기뻤다.

앞으로도 더 많은 데이터를 다양한 관점과 시각에서 분석하여 좀 더 나은 교육, 행복한 사회에서 사람들이 살아갈 수 있는 발판이 마련됐으면 좋겠다.

나 역시도 앞으로 교육 공공데이터를 활용해 더 다양한 교육문제를 해결하기 위한 분석을 계속해서 진행하고 싶다.

중앙대 조예빈 학생