KT 에이블스쿨

[에이블스쿨 AI 4주차] 미니 프로젝트1 - EDA

발전생 2022. 8. 19. 00:16

 4주차는 미니 프로젝트 주간이다. 데이터 분석을 기반으로 몇 개의 데이터를 살펴보고 가정을 만들고 검정하는 실습 문제가 주어진다. 드디어 한국형 데이터셋을 사용했다. 공공데이터 하나랑 KT에서 제공하는 비식별 조치가 취해진 통신 데이터를 제공해줬다. 다른 어디에서도 써볼 수 없는 데이터를 사용해서 실습을 수행한다니 너무 좋았다. 이번 주제는 주어진 데이터를 사용해서 버스 정류장이나 노선을 추가로 설치해야 할 자치구를 결정하기였다. 

 

[1일차] 

 개별 실습 시간이 많이 주어졌다. 주어진 데이터를 바탕으로 가설을 설정하고 검정하면 됐다. 개인적으로 데이터로부터 참신한 인사이트를 도출해내는 게 너무 어렵다. 데이터도 컬럼이 꽤나 많기 때문에 시도해볼 수 있는 가짓수가 많다. 물론 그 중에 타겟이랑 관련 있어 보이는 피쳐는 몇 안 되지만 말이다. 주어진 데이터의 컬럼들을 제대로 이해해보는 것부터 까다롭다. 데이터 분석 단위인 행이 뭘 기준으로 결정되었는 지 알아야 하는데 여러 컬럼의 값의 조합으로 행이 결정된다. 이렇게 되니까 데이터 행 여러개를 같이 보기가 어렵다. 새로운 컬럼을 만들기 위해 pandas의 여러 함수를 사용하는 부분, 데이터프레임을 merge하기 위해 어떤 형태로 가공할 것인지 계획하는 게 쉽지 않다. 왜 인적성 검사를 더 중시했는 지 알 것도 같다. 지금까지만 보면 이 분야는 효율적인 알고리즘으로 잘 푸는 능력보다는 수리 능력이나 추리 능력 같은 인적성에서 보는 능력들이 더 중요하다 느껴진다. 

 

[2일차]

 오전에는 토론 방법론을 여러가지 배웠다. 너무 많은 토론 방법론을 훑듯이 지나가다 보니 머리에 잘 들어오지 않았다. 유튜브에 아직 만들어지 않은 제품을 만들어진 듯 홍보하는 영상을 올려 댓글이나 폼으로 수요를 파악하는 방법은 머릿속에 확실히 꽂혔다. 구글 글래스가 이렇게 수요를 검증했다고 한다.

 오후에는 1일차 때 세운 개인 가설들을 조별로 모여서 발표하고 대표 가설을 뽑는 과정을 수행했다. 개인의 가설을 돌아가며 발표하고, 투표를 통해 최종 가설을 뽑는 과정이었기 때문에 토론이라고 하기도 애매하다. 오전에 알려준 사이트인 MURAL에서 화이트보드에 포스트잇을 붙이고 투표를 할 수 있어 굉장히 편했다. 이걸 비대면으로 각자 얘기하고 투표를 하려면 시간도 많이 걸릴 뿐더러 얘기하기를 꺼리는 사람, 자기 주장을 강력하게 주장하는 사람이 나올 수 있다. 하지만 MURAL이라는 사이트를 이용하니 각자 감정을 싣거나 강조하는 것 없이 순수하게 텍스트만 보고 평가를 할 수 있기 때문에 더 공평할 수 있었다.

 조원들끼리 매니저님 없이 마이크 켜고 이야기를 나누는 것은 이번이 처음이라 서로 많이 낯설어했다. 그래도 모두 개인 가설 발표를 잘 해주셨다. 다들 여러가지 시도를 해보셨다. 덕분에 미처 생각하지 못한 부분에 대한 분석을 들을 수 있어 좋았다. 3일차에 여러 조의 발표를 들어볼 수 있는데 이 때 어떤 새로운 가설이 나올 지 기대된다. 우리 조는 가설 3개를 하나의 주피터 노트북에 정리하는 작업을 빨리 끝냈다. 그래서 시간이 많이 남았고 정적이 흘렀다. 조원들 중 MBTI가 E이신 분들이 먼저 스몰 토크를 시작해주셨다. 덕분에 이번 조원들끼리 얼굴도 확실히 익히고 서로 개인적인 대화도 해볼 수 있었다. E 분들 정말 존경한다. 나도 E가 되고 싶다. 

 

[3일차]

 2일차에 했던 내용들을 PPT로 정리해서 발표하여 여러 조와 공유하는 날이었다.  여럿이서 PPT를 만들다 보면 전체적으로 흐름이 분산될 수 있는데 우리 조는 거의 한 사람이 만든 것처럼 잘 만들어줬다. 2일차에 이은 우리 능숙하고 똑부러지는 조장님 덕분이다. 다른 조들이 분석한 결과를 보는데 참신한 인사이트가 정말 많았다. 지도에 색을 입혀 거리와 수치량을 한 눈에 볼 수 있게 준비해온 조가 가장 인상 깊었다. 실제 지도를 보니까 시선을 확 끌었고 한 눈에 이해가 됐다. 에이블스쿨에 대단한 에이블러님들이 정말 많다. 그리고 A->B, B->C의 삼단 논법 형태의 가설 검정을 해주신 조도 인상 깊었다. B->C 하나만 해야한다는 강박관념이 있었고 이로 인해 뻔한 결과밖에 나올 수 없지 않나 생각 중이었다. 그런데 해당 조의 삼단 논법 가설 검정을 보니 이렇게 할 수도 있겠다 싶었다. 이렇게 구한 가설도 정말 참신하다 느꼈다.