본문 바로가기

전체 글

(38)
자격증 공부 지금까지 가지고 있는 자격증이 사회조사분석사만 있다. 그래서 이번 인턴을 하면서 sqld와 adsp 자격증을 딸 생각 중이다. 두 달 안에 이 두 자격증 시험을 보고 합격하고 싶다. 그러려면 지금부터 공부를 시작해야 해서 우선 책은 주문했다. 다행히 하루만에 왔고 이제 공부를 시작하려 한다. 인턴 하면서 자격증 공부까지 하려니까 시간도 없고 너무 힘들지만, 그래도 시간을 최대한 알차게 쓰고 싶다. 합격후기를 적게 되길 바란다. 독학으로 책만 가지고 공부할 생각이다. 교재는 sqld와 adsp 다 유명하다는 책으로 샀다. adsp교재 색깔은 민트색이고 sqld 교재 색깔은 주황색인 듯하다. 최대한 열심히 해서 한 번에 합격하자 파이팅!! adsp(데이터분석준전문가) 접수일: 2022.10.04 ~ 2022..
대회_개발일지 2022.09.19 같은 동아리 팀원들과 함께 스터디를 구성하여 대회에 참여했다. 9월부터 시작하여 한 달간을 달린다. 최종 제출을 9월 30일! 그 안에 예측 대회 분석을 끝내야 하는데 너무 어렵다. 지금까지는 못 본 예측 데이터들이다. 예측해야 하는 데이터를 만들어내야 해서 어렵고 데이터 양도 많아서 그 많은 데이터를 사용하고 이해하기도 처음에는 어려웠다. 현재 나는 피쳐엔지니어링과 피쳐를 추가하고 있다. 전처리 부분도 데이터가 많고 특이한 데이터가 있어서 전처리하기 힘들다.. 가장 힘든 부분은 역시 나만의 인사이트를 만드는게 힘든 거 같다. 나만의 인사이트로 새로운 피쳐를 만들어내서 그것이 분석에 중요한 부분을 끼칠 것인가를 알아내기가 쉽지 않다. 피쳐를 만들어도 중요하지않거나 예측을 더 악화시키거..
개발일지4 학교에서 진행한 데이콘 스쿨에서 2022년 6월 29일부터 2022년 8월 8일까지의 교육 중 4번째(마지막) 대회의 일지를 쓰겠다. 마지막 대회는 와인 품질 분류 예측 대회였다. 지금까지 대회와는 다르게 회귀가 아닌 분류 문제였기에 더 기대가 됐다. 분류를 예측하는 방법에 대한 많은 배움을 얻고 가야겠다고 생각했다. 교육시간에 분류 대회라서 그런가 새로운 부분들을 많이 배웠다. 분류 문제에 이용할 수 있는 하드보팅, 소프트보팅을 배웠다. 하드보팅은 pred['pred'] = pred.mode(axis=1)[0].astype(int) 소프트보팅은 pred0 = models[0].predict_proba(test[features]) pd.DataFrame(np.argmax(np.array(pred), ax..
개발일지3 학교에서 진행한 데이콘 스쿨에서 2022년 6월 29일부터 2022년 8월 8일까지의 교육 중 세 번째 대회의 일지를 쓰겠다. 세 번째 대회는 버스 운행 시간 예측 대회였다. next_arrive_time : 다음 정류장에 도착할 때까지 걸린 시간 (단위:초)를 예측하는 대회이다. 이번 대회는 인사이트를 도출하기에 어려운 대회로 느껴졌다. 많은 인사이트를 만들어내려고 노력했지만 다 실패를 했다.. 실패한 나만의 인사이트들을 적어보겠다. 나만의 인사이트 가설1: 요일에 따른 버스 운행 시간이 다르지 않을까? 가설 1은 낮은 상관관계와 낮은 안 좋은 RMSE로 실패 가설 2: 그래도 주말과 평일의 차이가 있지 않을까? bar형태로 그래프를 그려본 결과, 주말과 평일의 버스 도착시간 평균은 거의 비슷했다. -..
개발일지2 학교에서 진행한 데이콘 스쿨에서 2022년 6월 29일부터 2022년 8월 8일까지의 교육 중 두 번째 대회의 일지를 쓰겠다. 두 번째 대회는 따릉이 대여량 예측 대회였다. 대여량 예측 대회를 하기 전 교육을 해주셨는데 교육시간에 배운 split은 년, 월, 일을 나눌 때 도움이 많이 됐다. train['date_time'][0].split('-') -> ['2018', '04', '01'] train['date_time'][0].split('-')[1] -> '0.4' 그리고 lambda를 사용하면 함수를 간단하게 표현해줄 수 있다. train.apply(lambda x : x*2) 이런 식으로 해주면 def를 사용한 함수를 사용하지 않고도 한 줄로 나타내 줄 수 있다. x는 매개변수이고 x*2는 적용..
개발일지1 학교에서 진행한 데이콘 스쿨에서 2022년 6월 29일부터 2022년 8월 8일까지 교육을 들었다. 교육을 들으며 4번의 대회에 참여했는데, 많은 배움과 도움이 되었다. 신청하길 잘했다는 생각과 소중한 경험이었다. 열심히 참여하고 계속 예측을 높이려는 노력 덕분일까 발전상을 받았다. 4번의 대회에서 점차 실력이 향상되는 모습을 볼 수 있을 것이다. 교육 종료 후 이제야 글을 쓴다. 우선 첫 번째 대회에서 느낀 것들을 적겠다. 첫 번째 대회는 구내식당 식수 예측을 하는 대회였는데 첫 대회라 그런가 어떤 식으로 예측을 높여야 하는지 잘 몰라서 낮은 등수를 받았다. 알려주신 베이스라인에서 더 예측을 높이고 싶어서 이것저것 시도해봤지만 결국 더 예측이 좋아지질 않아서 예측을 더 높이는 것은 실패했다. 그래도 강..
2022 공공데이터 기업 매칭 청년인턴 지원 후기 이번 휴학 때 꼭 데이터 관련 인턴을 해보고 싶어서 찾아보다 행정안전부와 한국지능정보사회진흥원에서 주관하는 공공데이터 기업 매칭 청년인턴을 알게 됐다. 그래서 한참 고민하다가 지원을 했다. 많은 배움을 얻고 데이터 관련 업무와 실무를 익힐 수 있는 기회가 됐으면 좋겠다. 지원 사이트의 공고문이다. https://opendata2022.co.kr/rct/announcement 2022 공공데이터 기업 매칭 청년인턴 2022 공공데이터 기업 매칭 청년인턴 opendata2022.co.kr 접수기간은 9월 14일까지이다! 근무는 11월 30일까지 하는 것 같다. 열심히 자소서 문항을 작성하고 8월 중순쯤에 신청을 했다. 그리고 다음날 바로 면접 연락이 왔다. 면접을 본 후, 합격한 다음 주 월요일부터 교육을 ..
스파르타코딩 데이터분석 개발일지2 2022.08.22 텍스트 마이닝 텍스트 마이닝에 대해 배웠다. 자연어 처리 쪽을 더욱 공부해보고 싶었는데 이번 기회에 자세히 알 수 있어서 좋았다. 워드 클라우드를 만들어주고 분류 예측까지 배웠다. 워드클라우드를 하기 전에 중복된 데이터들을 제거해주자. df.drop_duplicates(subset=['중복 제거를 진행할 열'], inplace=True) inplace=True를 넣어주면 df 데이터프레임의 원본 데이터 자체가 중복 값이 제거된 상태로 변한다. 토큰화 토큰화 방법은 다양하다. 명사, 띄어쓰기 등등 !pip install konlpy from konlpy.tag import Okt tokenizer = Okt() tokenizer.nouns(kor_text) #nouns은 명사만 뽑아내겠..