김소현, 반예서 한성과학고 학생

공공데이터 활용 '지역별 장애학생 분포 현황'에 따른 '특수학교 포화 문제 해결 방안'

[에듀인뉴스-한국교육학술정보원 공동기획] 공공데이터란 정부, 지방자치단체, 공공기관이 생성·보유하고 있는 데이터를 의미한다. 이 자료는 국민 누구나 사용할 수 있으며, 데이터 간 결합을 통해 재사용 및 재배포도 가능하다. 교육부와 한국교육학술정보원, 대학교육협의회는 교육 공공데이터에 대한 국민의 관심을 높이고, 교사·학생의 데이터 리터러시 역량 및 문제해결능력 향상을 위해 올해 ‘제1회 교육공공데이터 활용대회’를 공동 개최했다. 참가 팀들은 학교교육 환경 개선 및 교육 문제 해소를 위한 다양한 아이디어를 제시했다. 에듀인뉴스는 실제 학교에서 교육공공데이터 활용 교육이 어떻게 이뤄졌는지 소개하는 기획을 통해 학교 전반에 공공데이터 활용 교육이 활성화되길 기대한다.

(이미지=픽사베이)
(이미지=픽사베이)

'교육 격차 문제 해소' 위한 '공공데이터 활용대회'를 발견하다

[에듀인뉴스] 평소에 데이터 사이언스에 관심이 있던 우린 선생님의 권유로 교육부에서 주최하는 '공공데이터 활용대회'에 나가 직접 데이터를 분석하는 활동에 참여하게 되었다. 이미 고교 1, 2학년 정보 시간에 2인 1조로 코딩 프로젝트를 한 경험이 있어 분석 방향을 잡는데 뒷받침이 되었다.

우린 사회 교육 격차 문제를 해소한다는 대회 목적에 맞는 다양한 아이디어를 떠올려 보았다. 학생 건강과 미세먼지, 특수 유치원과 장애우 어린이 인구 분포를 비교해 최적 위치 선정, 지역별 장애 학생 수와 특수학급 분포 등의 주제를 구상하였고, 데이터 분석 계획이 뚜렷하게 잡힌 특수학급 포화 문제를 택하였다.

현재 우리나라는 특수교육대상자가 증가하는 반면 특수학교 진학률은 크게 증가하지 않는 상황이다. 특수학교가 부족해 교육을 받고 싶어도 교육을 받을 수 없는 문제를 공공데이터 기반으로 지역별 특수학교 분포 현황을 체계적으로 분석하고, 문제 해결이 시급한 순서로 우선순위를 매겨 효율적 특수학교 운영 방안을 탐구하고자 하였다.

인터넷 매체에서는 대부분 현시점의 특수학교 포화 문제를 다루어왔다. 통상적으로 특수학교 증축을 위한 예산은 한정되어 있어, 어떤 지역의 특수교육대상자 수가 앞으로 어떻게 변할지를 고려하면 더욱 효율적으로 예산을 분배할 수 있을 것이라는 생각이 들었다.

데이터 분석을 위한 선형회귀법의 도입, 새로운 개념의 정의, 탐구 결과를 보여주는 방법으로 시각화라는 아이디어 등을 계획에 추가해 점차 탐구 방법의 윤곽이 잡히기 시작했다.

지역별 특수교육 대상자 수 변화의 선형회귀분석 후 구한 일차함수의 수식, 변화율, 우선순위.(자료=김소현, 반예서 학생)
지역별 특수교육 대상자 수 변화의 선형회귀분석 후 구한 일차함수의 수식, 변화율, 우선순위.(자료=김소현, 반예서 학생)

'파이썬', 'SVG', '선형회귀분석법'까지..."어떻게 하면 값을 제대로 보여줄 수 있을까" 

탐구 목적에 맞는 데이터를 우선 찾았다. 시도별 특수교육 대상자 수를 파악하기 위하여 보건복지부의 장애인 등록 현황 데이터(2013~2018)를 살폈으며, 시도별 특수학교 수를 알아보고자 교육통계서비스 특수학교 행정구 별 설립 현황 데이터(2018)을 이용했다.

데이터가 십만 개가 넘어 수작업은 불가능했다. 특수교육 포화 문제를 해결하기 위해 필요한 데이터를 쉽고 빠르게 추출하기 위하여 방안을 탐색하던 중, 평소 학교수업, 과제 등을 하며 많이 이용하였던 프로그래밍 언어 ‘파이썬’이 떠올랐다.

그 결과, 프로그래밍을 통해 쉽게 문제를 해결할 수 있었다. 여러 조건문, 반복문을 사용해 알고리즘을 구축하였고 지역별 특수교육 대상자를 원본데이터에서 지역별, 연령별, 장애 유형을 모두 고려하여 대상자의 수를 집계하였다.

특수학교 포화 문제를 직접적으로 보여줄 수 있는 지표가 없나 고민하던 중, 포화도라는 개념을 떠올렸다. 각 시도 특수교육 현황을 수치화 하기 위하여 해당 지역의 특수 교육 대상자 수를 특수학교 학생 수로 나눈 값을 포화도라는 개념으로 새로 정의하였다.

탐구는 포화도 계산, 추세 분석, 데이터 시각화, 최종 우선 순위 결정의 절차로 진행하는 것으로 계획하였다.

포화도 계산은 앞에서 정의한 개념으로 각 지역별 포화도를 모두 계산하였다. 하지만 현재 시점의 포화도뿐만 아니라 지역의 변화하는 인구까지 고려하는 것이 타당하다고 생각하여 2013~2018년까지의 각 지역의 특수 교육 대상자 변화 추세를 선형회귀분석법으로 예측하여 추세 분석을 행하였다.

시각화 예시-지역별 특수학교 포화도 수치를 svg 파일을 이용하여 시각화하였다.(자료=김소현, 반예서 학생)
시각화 예시-지역별 특수학교 포화도 수치를 svg 파일을 이용하여 시각화하였다.(자료=김소현, 반예서 학생)

앞에서 구한, 혹은 앞으로 구할 최종 결과 데이터들을 시각적으로 도식화하기 위하여 2차원 벡터평면에 데이터를 시각화 할 수 있는 파일인 svg를 파이썬으로 수정하여 나타냈다.

svg 파일은 이미지 파일의 영역별로 값을 지정할 수 있고 또 색과 같은 디자인 요소를 수정해 입력할 수 있다. 이 특성이 우리의 탐구 결과를 우리나라 지도에 지역별로 도식화하기 가장 적합하다고 생각하였다.

시각화 예시 중 하나로, 특수학교 포화도를 지역별로 지도에 할당된 영역에 데이터를 값의 크기에 따라 다른 색으로 시각화 하였다.

목적에 부합하는 데이터를 집계하기 위하여 사용한 파이썬 코드의 일부.(자료=김소현, 반혜서 학생)
목적에 부합하는 데이터를 집계하기 위하여 사용한 파이썬 코드의 일부.(자료=김소현, 반혜서 학생)

지역별로 구한 포화도와 특수 교육 대상자 변화율을 동시에 고려하기 위하여 최종 우선 순위를 결정할 수치를 식으로 정의하였다. 지역별로‘포화도+포화도 평균(변화율 순위의 역수)’로 계산되는 식의 크기순으로 최종 우선 순위를 결정했다.

변화율은 순위가 작을수록 실제 수치가 큰 값이기 때문에 역수를 취하여 식에 사용하였다.

또 최종 우선순위는 지역별로 특수학교 설립이 시급한 정도를 수치화 한 것이므로 특수교육학교 증축이 우선적으로 필요한 지역 순위를 나타낸다.

최종적으로 특수학교 증축 우선순위를 1위 부산, 2위 울산, 3위 광주로 구하였다. 또 지역별로 구한 최종 우선순위를 svg 파일로 시각화하여 한눈에 알아볼 수 있도록 하였다.

최종적으로 구한 특수학교 증축 우선순위 수치를 지역별로 도시화 한 것.(자료=김소현, 반예서 학생)
최종적으로 구한 특수학교 증축 우선순위 수치를 지역별로 도시화 한 것.(자료=김소현, 반예서 학생)

시행착오로 얻은 자신감 "데이터 사이언스는 더 쉽고 더 정확하게 퍼즐 완성하게 해"

실제 우리나라 공공 데이터를 이용해 데이터 분석 과정을 직접 해보면서 데이터 분석의 단계를 수행하는 경험을 쌓을 수 있었다.

포화도라는 개념을 정의해야겠다는 생각으로부터, 과거의 데이터를 토대로 미래의 경향성을 예측하고, 분석한 결과를 시각화하여 나타내는 것까지 이어졌고, 이 과정에서 효과적인 데이터 활용 방법을 공부할 수 있었다.

단순히 데이터를 계산만 하는 것이 아니라. 분석 결과의 의미를 잘 전달하기 위해 시각화까지 완료하였기 때문에 뿌듯했다.

데이터 사이언스와 통계에 대한 관심으로 이 대회를 시작하였는데, 대회를 준비하는 과정에서 이 흥미가 더 증폭된 것 같다. 구체적으로 어떠한 단계로 데이터 분석이 이루어지는 지를 직접 체험함으로써 직접적인 경험을 쌓을 수 있었다.

우리는 데이터 사이언스 공부를 꼭 하고 싶다는 마음이 들었다. 또 데이터 분석은 과목에 상관없이 필요하기 때문에 융합적인 연구를 하고 싶은 우리에게 매력적으로 다가왔다. 이번 대회만 해도 사회 교육 문제를 데이터 분석을 통해서 과학적으로 접근하여 해결 방안의 타당성을 확인할 수 있었다.

데이터를 체계적으로 분석하고, 적절한 분석 방법을 찾는 과정이 흥미로웠다. 우리가 탐구한 데이터의 경우 과거부터 현재까지의 특수 교육 대상의 경향성이 존재하기 때문에 이를 토대로 특수 교육 포화 문제가 가장 시급한 지역이 어느 곳인지 도출할 수 있었다.

이 과정에서 경향성이 존재하는 연도별 데이터라는 특성에 맞게 미래에 대한 예측을 하는 것이 타당하다고 판단했다. 또한, 미래에 대해서도 예측할 뿐만 아니라, 현재 시급한 정도도 고려해야했다.

특수교육 현황을 비교하기 위한 데이터를 수치화하는 수식을 세우는 것이 어려웠다. 여러 가지 변수를 고려해야하기 때문에 가중치를 더하는 것이나, 비례식을 세우는 것 등을 생각해보았다.

우선순위를 결정하는 식에 대한 조사를 통해 이와 관련된 통계 법칙이 없다는 것을 알게 되었고, 따라서 우리가 자체적으로 식을 세우게 되었다.

결과적으로 만든 우선순위를 결정하는 식에는 포화도와의 비례 관계와, 변화율 순위와의 반비례 관계가 포함되었다. 현재 시점의 포화도가 미래의 교육 대상자 변화율보다 중요하므로 포화도는 그대로 사용하고 변화율 순위의 역수는 포화도의 평균을 곱해 더하기로 결정하였다.

따라서 이 식은 우리가 구하는 지역별 특수포화문제 해결 우선순위를 비교하기에 타당하다고 판단하였다.

데이터 시각화를 위해서 우리가 이전까지 해보지 않은 SVG 파일을 이용하였기 때문에 성공하는 데에 여러 시행착오를 거쳤다.

파이썬의 ‘Beutifulsoup’라는 라이브러리를 활용하였는데, 처음에 코드가 작동하지 않아 여러 번 시도를 거듭했다. 낯설어서 어느 부분에서 오류가 발생했는지 파악하기 힘들었다. 하지만 성공함으로써 자신감을 얻었다.

이렇게 ‘특정 문제를 해결하기 위해 어떤 점을 고려해야 가장 최선의 결정을 할 수 있을 것인가’에 대해 탐구하는 것이 마치 전체 그림을 완성하는 데에 맞는 퍼즐 조각을 찾는 과정과 같았다. 그리고 앞으로 그 퍼즐 조각을 쉽게 찾는 방법을 알아가고 싶다.

우리는 변화율 순위를 구하여 결과적으로 특수학교 추가 설립 우선순위 수치 분포를 시각화하였다. 지역별로 미래의 특수교육 대상자 변화율과 현재 시점의 포화도를 고려하여 특수학교 설립이 추가로 필요한 지역을 이와 같이 순위를 매겨서 선정할 수 있다.

따라서 지역별로 균등한 특수 교육을 실시하고, 문제 해결이 시급한 곳부터 특수교육 문제를 순차적으로 해결할 수 있을 것으로 기대된다. 더 나아가, 시도별이 아닌 더 세분화하여 행정구역을 구 단위로 자세히 구별하면 더욱 더 구체적으로 특수학교 증축 계획안을 작성할 수 있을 것이다.

'제1회 교육 공공데이터 활용 대회' 포스터 일부.
'제1회 교육 공공데이터 활용 대회' 포스터 일부.