KT 에이블스쿨

[에이블스쿨 AI 3주차] 데이터 분석, 전처리 후기

발전생 2022. 8. 14. 23:56

 벌써 3주차 수업까지 들었다. 9시부터 5시까지의 수업을 휴일을 제외하고 매일 듣다보니 시간이 정말 빨리 간다. 항시 반별 팀즈의 캠도 켜놓아야 하기 때문에 쉬는 시간을 제외하면 딴짓을 할 수가 없었다. 그래서 확실히 수업에 더 집중할 수 있다는 장점이 있다.

 한편으로는 불안한 마음도 있다. 컴퓨터공학과 4학년 2학기만 남은 현 상황에서 일반적인 프론트엔드 개발자나 백엔드 개발자 길을 가기 위한 준비를 하지 않고 데이터 분석, 머신러닝을 이렇게 하루종일 공부해도 괜찮은 걸까 하는 의문이 계속 머리에 맴돈다. 에이블 스쿨이 취업 연계 과정이기는 하지만 취업률 100% 보장이 아니다 보니 차선책을 준비해야 하는데 데이터 엔지니어링이라는 새로운 분야를 공부하면서 준비하기가 어렵다. 하반기가 되면 백엔드 개발자 공고가 수도 없이 올라올 거고 지원을 해야할 텐데 지금처럼 병행해서 준비하다 이도 저도 아니게 될까 걱정이 된다. 

 강의 중간에 데이터 엔지니어가 될 여러분이라는 표현을 강사님이 사용하셨다. 데이터를 중요하게 여기고 데이터가 곧 돈이 되는 시대이기에 데이터 엔지니어는 분명 주요 직책이다. 평소에 개발자 관련 정보를 얻기 위해 블라인드에 자주 검색을 해본다. 데이터 관련 직업에 대해 검색을 해봤는데 데이터 사이언티스트나 AI 개발자는 석, 박사가 주이며 이들에게 모델링을 시킨다고 한다. 그리고 데이터 엔지니어나 데이터 분석가의 경우 학사 출신도 종종 뽑는다고 한다. 데이터 분석가는 보고가 주 업무인 느낌이고 회사에 따라 비개발자의 연봉 테이블을 따르는 경우도 있다고 한다. 모은 정보들을 가지고 고민을 해봤는데 KT 에이블스쿨에서 계속 도전을 이어나간다면 데이터 엔지니어가 되겠다는 목표에 초점을 두고 공부를 해야겠다. 나중에 배포 단계를 교육해줄 때 웹, 운영 관련 교육을 열심히 들어야겠다. 분산 시스템 파이프라인을 잘 설계하고 개발하는 게 중요한 직책 같다.

 강사님은 대기업을 대상으로 데이터 분석 관련 강의도 자주 해주시는 분이라고 한다. 에이블스쿨 AI 트랙의 커리큘럼에 대해 강사님께서 조언을 해주셨고, 이 트랙을 수강하면 보통의 현직자 정도의 수준을 갖추게 되는 거라는 말씀을 해주셨다. 이렇게 된 거 믿고 복습까지 열심히 하면서 배워봐야겠다. 


 3주차에는 데이터를 가지고 가장 먼저 하는 작업인 데이터 탐색과 전처리에 대해 배웠다. 전처리는 월, 화에 다른 강사님이 강의해주셨고, 수,목,금에는 대표님께서 오셔서 데이터 탐색을 강의해주셨다. 전에도 이 분께서 numpy, pandas에 대해 기초를 가르쳐주셨다. 그 때도 깔끔하고 재밌게 잘 가르쳐주신다고 생각했는데 이번에 데이터 탐색 역시 깔끔하게 잘 설명해주셨다. 통계 부분이 들어가서 이해가 어려운 부분도 있었지만 쉽게 설명해주시려 노력하신다는 게 느껴져서 좋았다. 대부분의 강의를 대표님께서 가르쳐주실 예정이라 하셨는데 너무 좋다. 데이터 관련 업무를 회사에서 현직으로 하시던 분이셔서 재밌는 데이터 에피소드를 들을 수도 있고, 전문성이 있으셔서 안 좋아할 수가 없다. 실시간 질문이 올라올 때마다 막힘 없이 설명해주시는데 감탄밖에 안 나온다. 그리고 데이터 분석 작업은 어느 정도까지는 다 할 수 있으므로 인사이트를 찾아내기 위해서 도메인 지식이 제일 중요하다고 말씀하셨다. 입사 전에 희망 회사의 도메인 지식을 기를 방법에 대해 고민해볼 필요가 있어 보인다.

 3일동안 강사님께서 가르쳐주신 분량이 ppt로 거의 180 페이지라 주말동안 복습하는 데 시간을 많이 썼다. 확실히 복습을 하니 수업 진도 때문에 놓치고 갔던 부분을 잡을 수 있고, 이해가 안 됐던 부분은 천천히 고민해볼 수 있어 좋았다. 앞으로는 생소하고 자세한 설명이 많이 나올 예정이라 꾸준히 복습을 해야한다.

 이번 주부터 코딩 마스터스가 시작되어 코테 100문제를 풀고 있다. 가장 쉬운 단계는 매우 무난하고, 중간 단계는 몇 개가 수학적 센스가 필요하다. 이 수학적 센스가 별로 없어서 중간 레벨의 문제 중에도 어려운 게 조금 있다. 어려운 단계는 백준 실버, 골드 정도의 문제들이다. 이 난이도의 문제는 확실히 한 문제를 푸는데 시간이 꽤나 걸린다. 시간 효율성을 위해 가장 적합한 알고리즘을 생각해내야 하기 때문에 이렇게 저렇게 관점을 바꿔보려는 시도를 많이 하고있다. 벌써 고난이도 문제를 다 푸신 분도 있고, 거의 다 풀어가시는 분도 있다. 순위권을 유지하고 싶지만 압박감이 장난 아니다. 사람들이 정말 빨리 푼다. 이번 연휴인 월요일까지 100문제를 다 풀고 싶었지만 복습하니 시간이 별로 없기도 하고, 막히는 문제도 있어 불가능하지 않을까 싶다.