이효섭 HEC Paris MBA/Sciences Po 정책학석사 복수학위 과정

[에듀인뉴스] 소프트웨어, 코딩을 넘어 인공지능까지. 빅데이터를 중심으로 한 응응 기술의 발전이 교육에 새로운 시대를 열고 있다. 에듀인뉴스는 ‘이효섭의 Tech 인사이트’를 통해 최신 기술 동향과 역사 간 접점을 찾아 새로운 기술의 개념과 응용 예시를 보다 쉽게 소개하고자 한다. 이번 연재는 어학 공부에 도움을 주기 위해 영문도 함께 제공한다.

▲이효섭 HEC Paris MBA/Sciences Po 정책학석사(Digital, New Technology and Public Policy) 복수학위 과정=고려대 법학과/경영학과를 졸업한 이효섭씨는 前 국방부 국제정책관실 통역장교, 前 ㈜한국항공우주산업 KF-X 및 APT 사업 계약협상 담당과장을 지냈으며 Palantir Technologies 런던사무소 근무 예정이다. "억지로 공부해서 대학도 가고 대학원도 왔지만, 공부하는 재미를 이제서야 깨우친 아저씨입니다. 한번에 읽히는 글, 진실이 담긴 글, 겸손한 글을 쓰기 위해 노력하겠습니다."

알렉산드리아 대 도서관

[에듀인뉴스] 알렉산드리아 대 도서관은 사상 최초의 국제 도서관이다. 이 유서 깊은 도서관은 고대 세계에서 최대 규모를 자랑하는 가장 중요한 지식의 저장고였다.

알렉산더 대왕의 이름을 딴 항구 도시 알렉산드리아는 헬레니즘 문명의 진원지이자 수천 년 간 활기찬 무역 중심지로 이름을 떨쳤다. 구전에 따르면 항구에 새로운 선박이 들어올 때마다 관원들이 배에 실린 책을 압수해 이를 베낀 복사본을 도서관에 입고할 때까지 보관했다고 한다.

도시에 정박하는 배가 늘어날수록 도서관에 저장된 지식의 양도 늘어났다. 이 위대한 도서관에는 당대 인류의 모든 기록된 지식이 보관되어 있었다고 한다. 한 서고에 새겨진 비문대로 이곳은 ‘영혼 치료의 성소’였다.

그렇다면 기원전 3세기에 세워진 고대 도서관이 21세기 빅 데이터와 무슨 관련이 있을까?

기원 전 2세기에 이 도서관의 사서가 된 자신의 모습을 한번 상상해보자. 웅장한 도서관의 복도에 들어서자 따스한 햇빛이 대리석 바닥을 부드럽게 비추고 있다. 이제 천천히 책과 양피지로 가득 찬 서고로 시선을 돌려보자. 자, 이제 제국의 지혜의 창고를 담당하는 대 사서로서 오늘도 황제가 부탁한 세 가지 임무를 수행해야 한다.

위대한 계보를 찾아서 – 모래사장에서 바늘 찾기

오늘 당신의 첫 번째 과업은 황제 조부(祖父)의 전기(傳記)를 쓰는 일이다.

서고의 수많은 두루마리와 책을 뒤져보면 그의 삶에 대한 기록 파편들이 있지만 아직 그의 일대기를 한 권으로 정리한 책은 없다. 양이 방대할 뿐만 아니라 때로는 상충되는 기록더미에서 한 사람의 일생을 하나의 줄거리로 풀어낼 수 있을까?

먼저 핵심 질문이 무엇인지 고민해보도록 하자.

황제의 할아버지는 누구였으며 그가 남긴 업적은 무엇이었을까? 재위 기간 중 어떠한 중요한 결정들을 내렸을까? 또 당시 역사적으로 중요한 사건들은?

이런 질문을 바탕으로 모든 관련 기록을 정리하여 목록을 작성하다 보면 (Catalogue) 그것이 바로 원천 데이터(Data Source)가 된다. 이 원천 데이터를 내용과 주제에 따라 분류하는 작업을 먼저 마쳐야 할 것이다.

물론 각 분류 별로 정리된 책 중에는 관련 없는 정보가 포함되어 있다. 따라서 필요한 정보만 선별하여 상호 참조와 확인이 가능하도록 기록을 정리하고 색인을 작성하는 일이 뒤따른다.

오늘날 이 모든 작업은 빅 데이터에 사용되는 오픈 소스 프레임워크인 ‘Hadoop’에서 ‘Map Reduce’라는 프로세스로 구현되어 있다.

기근 퇴치하기 – 비슷한 유형을 찾아서

두 번째 과제는 잠재적 경제 위기를 막는 일이다.

지난 몇 달간, 지방 영주들이 세입과 수확량이 지속적으로 감소하고 있다고 보고하자 황제는 오래 전 예언된 비참한 기근의 전조인지 걱정하고 있다.

이번에도 먼저 핵심 질문이 무엇인지 고민하며 시작해 보도록 하자. 우선 각 지역에서 상소한 보고서를 종합했을 때 과거의 흉년 기록들과 유사한 패턴이 드러나는지 여부를 판정한다.

또 그러한 가능성이 보인다면, 백성들의 고통을 덜어주기 위해 얼마나 많은 곡물을 저장하거나 빌려와야 하는지 예측해야 할 것이다.

방대한 양의 글과 기록을 하나씩 읽다 보면 의미 있는 패턴을 식별하거나 예측하기가 어렵다. 따라서, 연대기와 최근 보고서에서 확인된 주요 수치를 도표로 작성하면 한눈에 이해할 수 있는 정보가 정리된다.

이 도표의 절대 수치를 비교하는 것보다 주요 수치들 간 비율에 대해 생각하고 교차 표를 통해 상관 관계를 찾아 내면 과연 기근이 다가올 것인지, 어떠한 대비를 해야 하는지 판단할 수 있게 된다.

국경을 지키는 막중한 임무 – 데이터 중심 의사 결정

마지막 임무는 제국의 국경을 침략으로부터 보호하는 것이다.

황제는 당신에게 이듬해 국방 계획을 수립해달라고 부탁했다. 직접 전투를 겪어본 적이 없는 사서로서 이것은 특히 어려운 일이기 때문에 실전 경험이 풍부한 동료 장군과 상담하기로 결정했다.

함께 과거 전투에 대한 도서관의 기록들을 살펴보면서 중요한 질문이 무엇인지 토론해보자. 여기서는 장군의 군사 전문 지식이 매우 유용하다. 당신이 선별한 주요 기록들을 장군의 관점에서 바라보면 핵심 질문은 무엇이며 실현 가능한 대비책으로는 어떤 것들이 있는지 구체적으로 생각해낼 수 있다.

당신은 지도에서 적군의 가장 빈번한 공격 경로와 전투에 사용된 무기 및 전술의 유형을 시각화(Visualize) 함으로써 장군이 계획을 수립하는 일을 도와주기로 한다.

이 과정을 통해 기록된 정보에 생명을 불어넣어 제국의 방위 전략에 대한 데이터 중심 결정을 내리도록 조언할 수 있게 된다.

(이미지=픽사베이)
(이미지=픽사베이)

빅 데이터: 인류의 디지털 대 도서관

지난 2년간 전 세계 데이터의 90%가 생성되었다고 한다. 어떻게 이런 일이 가능한 것일까?

첫째, 정보 기록 비용이 기하 급수적으로 감소했다.

알렉산드리아 대 도서관의 예에서 볼 수 있듯이 고대 세계에서는 정보를 기록하는데 막대한 시간과 비용이 소요되었다. 그러나 오늘날 우리는 일상의 사소한 순간들조차 매우 적은 노력으로 쉽게 기록할 수 있다.

둘째, 데이터를 안전하고 영구적으로 저장하는 체계가 완성되었다.

알렉산드리아 대 도서관은 침략으로 인해 불타 버렸지만 ‘Hadoop’ 및 ‘Spark’와 같은 최신 데이터베이스 아키텍처는 언제든지 데이터를 안전하게 기록하고 접근할 수 있는 솔루션을 제공한다.

마지막으로, 초고속 인터넷 및 데이터 분석 소프트웨어 도구를 사용하여 방대한 양의 데이터를 신속하게 처리할 수 있게 되었다. 이를 통해 특정 정보를 찾거나, 패턴을 발견하고, 데이터를 통해 실시간으로 협력할 수 있는 힘을 얻게 되었다.

알렉산드리아 대 도서관 사서의 하루를 통해 살펴본 것처럼, 인류는 지식을 기록해 제국과 문명을 건설했다. 21세기 인류는 빅 데이터 분석을 통해 사회의 가장 어렵고 중요한 문제를 해결할 수 있는 도구를 확보했다.

빅데이터 분석가라는 직업이 선진국에서 각광받는 직업으로 등장한 이유는 바로 이 도구를 전문적으로 활용하는 사서 역할을 수행하기 때문이다. 이제 우리의 미래는 인류가 공유하는 빅 데이터라는 도서관을 얼마나 능숙하게 활용하느냐에 달려 있다.

관련 동영상

500만권의 책을 통해 배운 것(구글 디지털 도서 프로젝트 소개) 쟝 밥티스트 미셸 및 에레즈 리버만 에이든 
https://www.ted.com/talks/jean_baptiste_michel_erez_lieberman_aiden_what_we_learned_from_5_million_books#t-35942

1000권을 하루 안에 정리하는 방법- 챤드 존
https://www.youtube.com/watch?v=WaNLJf8xzC4

The Great Library of Alexandria

The Great Library of Alexandria was the first of its kind. The venerable library was the largest and the most significant storage of knowledge of the ancient world.

Alexandria, a port city founded by the namesake legendary conqueror himself, was the epicenter of Hellenistic civilization and continued to remain a prominent trade hub for millennia. Legend has it that whenever a ship stopped at the city’s harbor, city officials would search the vessel for new books and confiscated them until they made copies to be stored in the library. With each passing ship, the volumes stored in the library grew. The Great Library contained all recorded human knowledge of the era. This was indeed a “place of the cure of the soul,” as an inscription read on one of its shelves.

What does an ancient library have to do with Big Data? A few things, actually. Imagine yourself as the royal librarian in the 2nd century B.C. As you enter the halls of this magnificent library, the warm sunlight gently shines on the marble floors as you turn your eyes on the shelves filled with tomes and scrolls. You are in charge of the empire’s repository of wisdom and tasked with three missions by the emperor today.

Tracing the Royal Lineage: Needle in the Haystack

The first task is to help the emperor write his grandfather’s biography. The problem is, there are scattered records of his life in a multitude of scrolls and books, but no one single tome under his name. How can you narrate a person’s life from numerous different and often conflicting records?

You should start from formulating key questions. Who was the emperor’s grandfather, and what were his accomplishments? What significant decisions did he make? What important events happened during his time? Then, by drafting a catalogue of all the relevant records, you have your primary data source. Each data source can be categorized into different groups, or data silos.

But remember, each scroll you catalogued also contains irrelevant information. Therefore, you will need to clean the data and create an index so cross referencing can be possible. In the world of Hadoop, an open source framework used for big data, the indexing, searching and cross-referencing cycle is automated in process called Map Reduce.

Fighting Famine: Finding Patterns

The second task pertains to a potential economic crisis. For the past few months, provincial lords have reported that the tax revenue and harvest figures are in constant decline. The emperor is worried whether this portends a disastrous famine foretold in a prophecy.

Again, start by asking the right question. Here, one important question would be whether the reports from differing regions signal a pattern observed in previous records of famine. Also, if they do point to such possibility, you can predict how much grain needs to be stored or borrowed to relieve the people from their suffering.

Identifying and predicting patterns will be difficult when you are browsing through endless texts written in prose. First, start by tabulating the core quantitative data from the annals and recent reports. After comprehensive tables are created, comparing absolute numbers may be of little avail. Thinking in terms of ratios and finding correlation through cross tabulation will help you find the patterns you are looking for and the solution to your problem.

Enemies at the Gate: Data-driven Decision Making

Your final task is to advise the emperor on protecting the borders from invasion. The emperor is asking you to devise a comprehensive defense plan for the next year. As a librarian with no combat experience, this may be especially challenging. So, you decide to consult your friend who happens to be a battle hardened military general.

Perusing through the library’s collection on the outcomes of previous battles, you and your friend start discussing the seminal question. Here, the general’s military expertise comes in especially handy. His worldview combined with the data sets you bring to his attention creates a list of critical and feasible questions.

You help him by visualizing on the map the most frequent attack routes from enemies, as well as the types of weaponry and tactics used in combat. This data visualization brings the recorded information to life, helping you and your friend advise the emperor to make data driven decisions on the empire’s defense strategy.

Big Data: The Digital Library of Humanity

It is said that 90% of the data in the world was created in the past 2 years. How did this come to happen?

First, the cost of recording information has exponentially decreased.

In the ancient world, passing on information was a costly enterprise, as seen in the example of the Great Library of Alexandria. But now, for a fraction of the efforts of a diligent scribe, we can record even the most insignificant details of our everyday lives.

Second, we have created architectures that store data securely and permanently.

Alexandria’s legendary library was burned to the ground by foreign invasion, but modern database architecture such as Hadoop and Spark provide solutions to safeguard and access data when we need it.

Finally, with fast-speed internet connection and the data analytics software tools, we can process data to patch together discrete pieces of information, find patterns from large unrelated data sets, and discovered new ways to collaborate through databases.

As we have seen through a day in the life of the imperial librarian, humanity has built empires and civilizations with recorded information. The same holds true in the 21st century, as even the most challenging and difficult questions of our time can be solved by harnessing the power of big data analytics. Therefore, many knowledge economies have seen a steep rise in demand for data scientists, the professional librarians of our time. And we must, as our future depends on our ability to ask the right questions to our ever-expanding library of big data we now share as humanity.

Also watch: What we learned from 5 million books, Jean-Baptiste Michel, Erez Lieberman Aiden

https://www.ted.com/talks/jean_baptiste_michel_erez_lieberman_aiden_what_we_learned_from_5_million_books#t-35942

What's the fastest way to alphabetize your bookshelf? - Chand John

https://www.youtube.com/watch?v=WaNLJf8xzC4