2024 6 23일 .. 빅데이터 분석기사 실기 8회를 보고 왔다..
일단 ... 사실상 난이도는 하 지만 나는 가채점 결과 50점 각이므로 삼수 예정이다..
그래서 빡쳐서 11월 9회 시험을 대비해 빅데이터 분석기사 실기를 오늘부터 하루에 하나씩 파헤칠 예정.
ㅎㅎ
일단
빅데이터 분석기사 실기 제 1유형은
데이터 전처리 및 기본 함수이다
솔직히 df.groupby('컬럼')만 외워갔더라면 풀 수있었던 너무나도 쉬웠던 문제들인데..
groupby가 자꾸 오류가 나서 통으로 버린 문제들이다. ...
일단
빅데이터 분석기사 실기 1-1
은 대륙의 평균 맥주 소비량을 구하고 ..아니 ! 이거 컬럼명을 구글에 치니까 데이터 셋이 나온..다 ?
== stackoverflow에 나오네..?
ㅋㅋㅋㅋ
(https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/drinks.csv)
뭐지 ..?
여기서 아마도
mean= df.groupby('continent')['beer_servings'].mean() 라고 했다면 대륙별 beer serving 값을 구할 수있었을텐데 ...........................
<- 이거 오류가 계속나서 컬럼명을 외웠더니 ^^ 구글에 있는 데이터셋이네 ㅋ
나는 ... 비읍시옷 ..ㅎ
암튼 ...이 쉬운문제를 틀리다니..
이렇게 해서 평균 소비량이 가장 높은 대륙을 구하고 .. 두번째로 소비랑이 높은 ?뭐 그런걸 구해서
답을 쓰는 문제였던걸로 ..... 저 코드만 알았으면 바로 풀 수있었던 아주 ez한 문제
빅데이터 분석기사 실기 1-2
또 마찬가지로 나라별 total 관광소비 금액을 구한 후...
뭐랑 뭐랑 더해서 최종값 내는 문제.. .
이것도
df.groupyby('country')['컬럼1', '컬럼 2'].sum()
을 했으면 쉽게 풀 수있었을텐데 ... ㅎㅎ(컬럼 여러개를 다 더해서 최종합을 구한다음 거기서 5번째로 높은 나라와 뭐랑 뭐를 하르는 문제..)
빅데이터 분석기사 실기 1-3
1유형 단골문제인 정규화 문제
MIX MAX Scaler 를 사용해 두가지 컬럼을 정규화함
정규화 후에 컬럼에 대한 표준편차를 구해
이 두 컬럼의 표준편차 차를 구하는 문제 ...
이것도 너무 쉬웠으나 ...
1, 2 문제를 풀다가 거의 1시간 반을 버려서 결국엔 대충 풀었는데..
0.01의 숫자차이로 문제를 틀림 ^^
하... ㅠㅠㅠ 1유형은 버리는 플랜이긴 했지만 지금 생각하면 너무 빡이친다 ㅋ
빅데이터 분석기사 실기 2유형은
모델링 회귀 모델링
RandomForestRegressor 를 활용해
지하철 승객 예측하기
수치형 데이터와 범주형 데이터가 섞여 있었고
MAE 를 통해 모델링 평가를 한다고 써있었음.
일단 이부분은 과적합만 방지하면 된다는 생각으로 풀었고, 제일 자신이 있던 부분이라
그렇게 또 어렵지 않았음.
하지만 오카방에서 갑론을박 사항은
이 데이터를 정수형으로 하느냐 아니면 그냥 나온 수치대로 컬럼을 적어 내느냐인데
사실 저번 시험에도 이 논쟁이 있었지만 나는 정수형으로 뽑지 않았는데도 감점은 없었다 (다만 ^^ 컬럼명 잘못써서 결국 57점으로 실패 ㅋ)
그래서 아마 큰 감점요인은 아닐듯한데
어쨋든 나는 계속 과적합이 나오길래 데이터 셋 크기 자체를 줄여서 했더니 대충 100언저리가 나온듯 하다.
그것더 사실 기억은 안나지만 ...
어쨋든 ..
빅데이터 분석기사 실기 3유형은
로지스틱 회귀
from statsmodels.formula.api import logit
이렇게 열심히 했는데 말이야 ...
콜센터 데이터 가지고
유의성이 가장 낮은 변수의 갯수를 써라 했음
근데 또 나는 상관계수 잘못보고 ^^ coef 낮은걸로 써버렸네 ^^; 그래서 틀렸음
유의확률은 p >|z |를 보고 0.05 이상인 것을 써야함 .. ㅎㅎ
암튼 ..
두번째는 여기서 유의한 컬럼들을 가지고 다시 모델을 만든후
상관계수의 평균을 구하는거였음 ..
1번문제를 틀리면 2번도 당연히 틀려짐 ㅎㅎ 그래서 틀림 ㅎ
세번쨰
오즈비 구하는 문제
number_customer_call 어쩌고 이것이 5 증가하면 오즈비는 얼마나 증가하느냐 에 대한 문제임
결국 이거는 coef 에 5를 곱해 내는 문제였는데
또 바보같이 ? 거기다 그냥 coef 써서냄
대체 왜 이런 실수를 한건지 아직도 모루게따..
빅데이터 분석기사 실기 3-2 유형은
선형회귀 분석
from statsmodels.formula.api import ols
첫번째는
뇌 크기가 종속변수 이고 키 몸무게 나이 ?와 같은 독립변수들과의
상관계수가 가장 낮은 것을 쓰는거였던거같다.
두번째는 결정계수 r2 쓰는건데 여기다 또 바보같이 np.sprt(r2)를 해버림 ...
아니 진짜 이 거저주는 문제를 ...왜 이렇게 ...한걸까 나는 ? 귀신들렸ㄴㅏ봐,,,
하
세번째는 .. 나이 80 키 400 몸무게 200 ? 이런 숫자를 가지고 (기억이 안남)
뇌크기를 예측하는 문제였다 ...
여기서 조금 애를 먹은게 pd. DataFrame({'A':400, "B":110 , "C": 100}) 이게 첨에 잘 안돠서 ?
help 함수 쓰느라 시간을 좀 잡아 먹어따 ,,,
하 진짜 ㅇㅣ놈의 함수를 !!!!! 다 ㅇ외위야 해!!!!
그래서 결국 이 한문제를 맞았던거같다... 하 ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ
이리하여 ... 2유형을 감점없이 만점이라는 가정하에 ..50점을 맞아버린 바보같은 나.,,
앞으로 블로그에 1일 1 파이썬 빅데이터 분석 기사 대비 코드를쓸 예정 ..ㅎㅎ
댓글