Data Science의 역사

서론

우리의 삶은 끊임없는 선택을 요구합니다. '아는 것이 힘이다'라는 말이 있듯이 더 많은 정보를 가진 사람이 더 현명한 선택을 할 수 있습니다. 이러한 관점에서 Data science는 가장 현명한 선택을 제시하는 학문이라고 생각합니다. 데이터를 통해 정보를 추출하고, 패턴을 찾아내며, 미래를 예측하기 때문입니다. Data science를 활용한 알파고, 이미지 생성, chatGPT 등의 기술들은 이미 인간을 뛰어넘는 수준의 선택을 자랑하고 있습니다.

들어가기에 앞서 사실 Data science라는 학문은 명확하게 정의되기 어렵습니다. 하나의 분야가 아닌 데이터분석, 통계학, 수학, 컴퓨터과학 등 다양한 분야를 아울러 연구가 이뤄지고 있기 때문입니다. 따라서 Data science가 하나의 학문으로 자리 잡은 것은 얼마 안 되었기에 그 역사를 제대로 파악하기에는 어려움이 있습니다. 하지만 역사를 알아야 현재를 이해할 수 있기에 Data science가 어떻게 탄생하고 발전하였는지 알아보고자 합니다.

Data의 등장 : 1940년대 ~ 1950년대

1940년대 전자식 컴퓨터가 발달하면서 '저장하고 전송가능한 컴퓨터 정보'라는 뜻으로 ‘Data’의 개념이 사용되기 시작하였습니다. 이후 1950년대에 들어 Data를 모으고 가공하여 정보를 얻는 'Data processing'이라는 개념이 등장하였습니다. 하지만 당시 컴퓨터가 대중화되지 않았기에 본격적인 Data processing에 대한 논의는 1960년대 이후로 이뤄졌습니다.

Data Science의 시작 : 1960년대 ~ 1970년대

유니벡, IBM 1401 등의 상용 컴퓨터가 발전하면서 1960년대부터 컴퓨터의 보급은 점점 증가하였습니다. 1970년대가 되어 정부와 공공기관, 교육기관, 기업 등 컴퓨터 보급이 활성화되었고 이에 따라 데이터를 수집, 저장, 분석에 대한 연구가 활발히 진행되었습니다. 예를 들어 의사결정 나무, 얕은 인공신경망 등 새로운 알고리즘과 모델, 기술들에 대한 연구가 이뤄졌습니다. 이에 따라 'Data science'는 1974년 Peter Naur에 의해 처음 등장하였습니다. 그는 Data science를 '데이터를 다루는 과학'이라고 정의하였습니다. 하지만 실제로 'Data Science'가 공식적으로 사용된 것은 1996년 IFCS 국제기구에서였습니다. 이때 IFCS에서는 Data science와 함께 데이터 수집, 분류, 클러스터링 분야의 이론적, 방법론적 발전에 대한 논의가 이뤄졌습니다.

‘Data science’를 딥러닝이라고 생각했을 때 Data science가 주목받기 시작한 것은 2000년대 이후입니다. 1943년 Neural network의 개념이 탄생하고 1960년에 back propagation 기법이, 1980년대와 90년대 CNN과 LSTM 모델이 등장하였습니다. 하지만 여전히 데이터 크기, 처리속도, 저장비용에 있어 현실적으로 딥러닝을 활용하기 어려웠습니다.

Data science의 발전 : 1990년대 ~

1990년 초반부터 인터넷과 모바일 기기가 발전함과 동시에 컴퓨터의 하드웨어, 소프트웨어 기술이 발전하면서 데이터 수가 급격히 증가하였습니다. 1999년 GPU의 발명이 이뤄졌고 데이터 처리속도가 급격히 증가하였습니다. 데이터 분석과 관리에 대한 분야가 주목을 받기 시작하였고 Data science에 대한 투자가 시작되었다고 할 수 있습니다. 2000년대 초반부터 Data science가 학술지에 언급되기 시작하였으며 2006년에는 Hadoop의 등장으로 대용량의 데이터를 저장하고 처리할 수 있게되었습니다. 이후 2009년에는 ImageNet이라는 인공지능을 활용한 대회가 개최되었고 계속되는 기술의 발전으로 인공지능을 활용한 기술들과 연구가 발전되었습니다. ‘Data science’를 데이터를 처리하고 분석하는 시스템에 대한 연구라고 한다면 Data science의 발전은 데이터의 증가와 기술의 발전과 함께 나타났다고 할 수 있습니다.

결론

Data science는 사실 상 역사가 거의 없다고 할 정도로 짧으며 지난 몇 십년간 굉장히 빠르게 발전하였습니다. 또한 역사를 살펴보았지만 Data science에 대한 명확한 정의는 내려지지 않고 있습니다. 서론에서 말했듯이 Data science는 어떻게 보면 통계학, 데이터분석, 컴퓨터과학의 연장선으로 존재하기 때문입니다. 쉽게 Data science에 대해 이해하기 위해서는 Data scientist가 무엇을 하는 지 생각해 볼 수 있습니다. Data scientist가 하는 일은 곧 Data science이고 이들은 빅데이터에서 유용한 정보를 추출하거나 조직에 도움이 되는 최적의 알고리즘을 설계하는 역할을 맡고있습니다. 또한 Data science의 발전에 대해 더 자세하게 알고 싶다면 Data scientist들이 연구한 것들을 살펴 볼 수 있습니다. 이러한 것들은 DS위키 페이지를 둘러보시면서 확인할 수 있습니다.

Last updated