본문 바로가기

분류 전체보기

(38)
데이터분석_개발일지3 한동안 인턴생활과 자격증 시험을 병행해서 공부하다 보니 스파르타 코딩 클럽 수업을 제대로 듣지 못했다. 이미 완주를 한 상태이지만 3주 차부터 개발일지를 적지 않아서 다시 제대로 들어보며 적으려고 한다. 현재 자격증 시험은 다 끝났고, 인턴생활도 11월 30일이면 끝이 나서 지금부터 남는 시간에 개발일지를 쓸 것이다 스파르타 코딩 클럽에서 배운 데이터 분석 3주 차는 크게 4가지로 원하는 데이터 찾기, 정렬과 로직과 수치 정보의 결합, 상관관계 분석, 시각화 기초 수업을 했다. 정리 1. 원하는 데이터 찾기 이 부분은 가끔 헷갈려서 오류가 날 때가 있었는데 수업에서 다시 한번 짚어줘서 좋았다. 특정 열을 선택할 때 df['col1'] df['co11','col2'] # 오류 df[['co11','col2..
대회일지_발표 저번 대회 참여했던 것을 정리하여 학교에서 우리 팀이 발표를 하게 됐다. 그래서 팀원들과 발표 준비를 하며 블로그 포스팅 준비까지 하고 있다. 블로그 포스팅이 완성되면 올리겠다! 정리를 마크다운으로 하며 설명과 함께 모든 사람들이 이해할 수 있게끔 정리 중이다. 시간이 좀 지났지만 그래도 다시 한번 정리하고 발표할 수 있는 기회가 우리 팀에게 주어져서 좋다.
sqld 자격증 후기 2022.11.05에 본 sqld 자격증 시험 후기 인턴을 하면서 자격증 시험 두 개를 준비하기란 정말 쉽지 않았다... 그래도 바쁘게 쉬지 않고 하루하루를 보낼 수 있어서 뜻깊었다. 인턴을 하면서 공부까지 하니까 진짜 열심히 사는 느낌이랄까..ㅎㅎ (내 착각일 수 있지만..ㅋㅋㅋㅋ) 이제 모든 시험이 끝났다! adsp와 sqld시험이 한 주 차이라서 adsp보다 sqld를 덜 공부했다. adsp에 더 많은 에너지를 쏟았다. 그래서 sqld시험을 보며 이번에 합격할 수 있을까 걱정을 많이 했다. 왜냐하면 아직 2과목이 어렵다. 특히 부모형제 쪽 코드? 그 부분이 아직도 이해가 잘 안 간다. 나는 sqld 공부를 유명한 주황 책으로 공부를 했는데 이번에 그 책의 기출에서 비교적 문제가 안 나왔다고 한다. ..
adsp 시험 후기 2022년 10월 29일에 본 adsp시험 후기 이번 adsp시험은 기출에서 꽤 많이 나온 거 같다. 근데 기출에서 나오고 풀기까지 했는데... 오답하면서 엄청 눈여겨본 문제를 틀려버렸다. 문제 풀 때 긴장했는지 기출이라고 생각도 안 하고 풀다가 틀렸다...ㅎㅎ 이번 시험은 전반적으로 1,2과목이 쉬웠다고 한다! 나도 원래 1,2과목이 이론쪽이라 외우기가 힘들어서 많이 틀리고 어려워했는데 이번 시험은 1,2과목을 잘 본 것 같다. 하지만... 3과목이 큰일났다. 기출 풀 때보다 더 많이 틀린 거 같다...ㅠㅠ 나에게는 3과목이 이번 시험에 너무나 어려웠다.. 3과목 때문에 합격을 못할까 봐 너무 불안하다. 빨리 18일에 미리 점수가 나오면 바로 확인해야겠다. 아 그리고 우리 반은 많은 분들이 굉장히 빨리..
adsp, sqld 자격증 시험 개념 정리 블로그 추천! 현재 adsp와 sqld 자격증 시험 준비를 하고 있다. 공부하면서 도움이 된 사이트가 있는데 개념 정리가 잘되어있다. 그래서 난 처음 공부를 시작할 때 한번 개념 정리를 읽어보며 개념을 익혀나갔다. 이분의 개념 정리 블로그를 보고 많은 분들이 도움을 받았으면 좋겠다. 나도 아는 분께 추천받은 블로그다! 아는 분은 현재 adsp 자격증 시험에 붙으셨는데, 이 개념 정리 블로그가 가장 도움이 되었다고 한다. 깔끔하게 잘 정리되어 있고 중요한 부분에 표시도 있어서 보기 편하다. 나도 열심히 시험공부를 해서 두 자격증에 다 붙어야겠다. 점점 시간이 촉박해지고 두 자격증이 비슷한 시기에 시험을 봐서 걱정이지만 잘 해낼 수 있도록 파이팅하겠다!! 링크 같은 분의 개념 정리 블로그이다. adsp 자격증 개념 정리 ..
대회일지_피쳐엔지니어링 대회에서 내가 맡은 피쳐엔지니어링 부분을 정리해봤다! 피쳐엔지니어링 1. 결측치 처리 결측치에서 시간이 많이 소요됐다. 결측치를 처리해주면서도 힘들었던 게 설명이 뭔가 명확하지 않아서 스플라인 보간법으로 채워줄지 0으로 해줘야 할지 고민을 많이 했다. 결국은 기존 데이터들의 예측에 피해가 안 가게 결측값들을 윗 값과 아랫 값을 가져와서 채워줬다. train.fillna(method='bfill',inplace=True) train.fillna(method='ffill',inplace=True) inplace=True는 변수를 지정하지 않아도 바로 train에 적용이 된다는 의미이다. 0으로 채워주면 예측에 방해가 됐고, drop을 해줄 수도 없는 상황이었다. 스플라인보간법을 쓰려고 했지만 무한 값이 나오..
대회일지_파생변수 대회를 하며 만든 파생변수 나만의 인사이트를 도출하여 새로운 피쳐들을 추가해줬다. 새로운 피쳐를 만드는 일은 정말 머리가 아팠다. 창의력과 연관성을 함께 봐줘야 해서 언제나 제일 힘든 작업인 거 같다. 그래도 새로운 피쳐를 만들었는데 그 피쳐가 예측력에 도움이 되었을 때의 행복감은 최고다ㅎㅎ 피쳐는 총 5개를 추가해줬다. 그리고 요일과 년도 칼럼도 추가해줬다. 요일추가 우선 날짜를 '년도-월-일' 이런 식인 칼럼(datetime)을 추가하여 이 칼럼을 이용하여 구했다. 구한 요일을 수치화해줬다. train['datetime'] = train['datadate'].apply(lambda x: pd.to_datetime(str(x), format='%Y-%m-%d')) train['week_day'] = t..
대회일지 2022.10.05 같은 동아리 팀원들과 함께 스터디를 구성하여 대회에 참여한 이후 대회 준비 과정을 적으려고 한다. 9월 한 달을 총 달렸다. 팀원들과 밤을 새우며 대회를 준비했다. 대회에 참가하여 좋은 점수를 얻기 위해 공부하고 이해하고 노력했다는 것만으로도 좋은 경험이었다. 실력을 올릴 수 있었던 기회였고, 대회를 참가하는 것이 실력을 올리는 최고의 방법이라고 생각한다. 현재는 대회가 끝났지만, 대회를 준비하며 분석할 때 중요했던 부분이나 기억에 남는 것, 많이 고민했던 부분(오류 등)에 대해 정리하고자 한다. 이번 대회의 데이터가 깔끔하지 않아서 준비하기가 너무 힘들었고 설명도 적어서 지금까지 해본 대회 중에 최고로 힘들었던 대회였다. 우선 나는피쳐엔지니어링 부분을 맡았고 나만의 인사이트를 도출하..