KT 에이블스쿨

[에이블스쿨 AI 4주차 2] 미니 프로젝트 2 - EDA

발전생 2022. 8. 20. 01:21

 3주차 마지막 날 금요일에는 화~목까지 했던 주제와는 다른 주제로 데이터를 분석해보는 실습 시간을 가졌다. 처음 뵙는 강사님셨는데 역시 훌륭하신 강사님이셨다. 이력도 화려하시고, 따뜻하셔서 이런 분께 교육과 피드백을 받고 있다는 게 너무 좋았다.  이번 주제는 따릉이 수요 분석이었다. 지역은 한 구로 한정되어 있었고 따릉이 대여량과 연관 있는 변수를 찾는 가설 검정을 해보는 미니 프로젝트였다.

 하루도 안 되는 시간 동안 분석을 해야했기에 일부러 쉬운 데이터를 충분히 전처리해서 가져와주셨다고 말씀하셨다. 아직 능숙하지 않아 이 주제도 완전 쉽게 느껴지지는 않았지만 저번 데이터보다는 확실히 이해하기 쉬웠다. 분석 단위인 행이 시간으로 깔끔하게 떨어져서 머릿속이 복잡할 일이 거의 없었다. 미니 프로젝트 1 때 한 번 해봐서 그런 지 신선한 가설을 세우려고 노력했다. 저번 미니 프로젝트의 발표를 보고 충격을 받았기에 나도 어느 정도는 해내고 싶었다. 

 진행 순서는 저번 미니 프로젝트와 비슷하게 강사님이 도메인이랑 데이터에 대해 어느 정도 설명해주시고 개인 실습 시간이 주어졌다. 그 뒤에 같은 조원들끼리 모여서 발표, 의논을 하고 PPT를 제작했다. 마무리로는 여러 조들과 데이터 분석을 공유하며 발표하는 시간이었다.

 나름 새로운 시도를 해본다고 미세먼지와 초미세먼지의 합, 쾌적한 온도 여부를 변수로 두고 가설을 세워봤었다. 미세먼지와 초미세먼지가 외출에 영향을 미치니까 따릉이 대여량과 연관이 있을 거라고 생각했는데 상관계수가 너무 낮게, p-value가 너무 높게 나왔다. 미세먼지 수치, 초미세먼지의 수치의 합이라도 영향을 미치지 않을까 싶어 스케일링 해서 합을 구한 뒤 따릉이 대여량과 비교해봤는데 역시나 가설 검정 결과 해당 가설을 기각해야 했다. 예상과 다른 결과라 왜일까 싶었다. 그런데 잘 생각해보니 주어진 데이터는 2021년 데이터였는데 그 때는 미세먼지보다 코로나가 더 무섭던 시대다. 코로나로 인해 마스크를 항시 쓰기 때문에 미세먼지는 별다른 걱정거리가 아닌 게 됐었다. 중국발 미세먼지로 한참 시끄럽던 것도  꽤 전이고 코로나로 인해 미세먼지는 관심이 시들어진 게 체감이 되고 있었으니 미세먼지 수치와 따릉이 대여량이 관계가 없는 게 타당해 보였다. 

 두번째 가설은 더우면 자전거를 타도 더운 바람이 부니까, 추우면 손 시려워서 자전거를 잘 안 타니까 쾌적한 온도인지 여부인 범주형 변수가 자전거 대여량에 영향을 미칠 거라는 가설이었다. 가능성이 많이 높은 가설이라고 생각했다. 쾌적한 온도는 기준점을 잡는다고 구글에 검색을 해봤었다. 검색하자마자 구글에서 요약해준다고 15.6도 ~ 20도에 굵은 글씨로 써있기에 해당 온도를 쾌적한 온도의 기준점으로 잡았었다. 해당 기준점으로 t-검정을 해보니 값이 너무 낮게 나오는 것이다. p-value 값 역시 많이 높았다. 배운 대로 5%를 유의수준으로 보고 있었다. 내가 발표할 때까지만 해도 그냥 관련이 없구나 싶었는데 ppt를 만들던 중에 쾌적온도의 범위가 너무 좁다는 생각이 문득 들었다. 그래서 15도 ~ 26도 정도로 범위를 넓혀보니 0에 가까운 p-value 값, 10이 넘는 t-검정 값이 나왔다. 역시 쾌적온도일 때 자전거 대여를 많이 한다는 것을 확인할 수 있었다. 구글링을 조금만 더 해볼 걸 하는 후회가 들었다. 기사에 나와있는 15.6도 ~ 20도에다가 적절한 실내 온도인 22도 ~ 26도까지 포함시킨다면 나름 근거 있는 범위 확장이었을텐데 일찍 생각하지 못한 게 아쉽다.

ppt를 시간에 쫓기며 만들던 중이라 이 사실을 조원들에게 말해줄 겨를이 없었다. 쉬는 시간까지 열심히 ppt를 만든 우리 조 고생 많았습니다.

 이번에도 발표 시간이 길지는 않아 모든 조가 발표할 수는 없었다. 이 날은 4조 정도가 발표한 것 같다. 이전 미니 프로젝트 때 발표를 들으면서 놀라움을 선사했던 조들이 자발적으로 발표를 해줬다. 한 조는 오늘 분석한 게 맞나 싶을 정도로 상당히 많은 가설을 세우고 단변량 분석까지 꼼꼼하게 진행했었다. 에이블스쿨 내에 실력자가 진짜 많다는 것을 다시 느낄 수 있었다. 나도 부단히 노력해야하니 이번 주말에는 pandas 기본 메소드와 데이터 전처리에 대해 복습을 해야겠다. 시간이 조금 흘렀다고 메소드 인자랑 메소드 이름들이 바로바로 생각이 안 나더라...