본문 바로가기
728x90
반응형

데이터분석7

2024 빅데이터 분석기사 빅분기 실기 9회 파이썬 공부 -제2유형 (작년 실기 후기 +) 빅분기 실기 9회가 4일 앞으로 다가온.. 그동안 하루에 한줄이라도 꾸준히 하려고 했지만, 계속해서 실수를 하고 있기 때문에 빅분기 실기  파이썬 2유형 공부법 총정리하기.  시험환경 문제도 다시한번 풀어보자.  일단 나의 재수생 경험으로는 회귀모델이 두번 다 나왔었고, 이때 나온 소수점을 정수형으로 바꾸거나 반올림 하면 큰 감점이 있는듯 싶다^^ (맨 처음 실기에서는 소수점 나온 대로 제출했고, 튜닝 따윈 안했는데 만점이 나왔으나.. 컬럼명 틀려서 -3점 으로 떨어졌고,, ㅎㅎㅎ 그 다음엔 정수형으로 변경해서 제출했거, 튜닝 안했는데 20점 나옴ㅋㅋ ) 그래서 아무래도 모델평가에 영향을 미치는 것 같다.  나는 그냥 다른거 안하고 앙상블 모델링으로 할 것이기 때문에 순서를 차근차근 외워두기.  1.ED.. 2024. 11. 20.
빅데이터 분석기사 실기 연습문제 - 제2유형 모델링 전처리 (1) One-hot encoding /Label encoding/ pd.get_dummies() 빅데이터 분석기사 실기 연습 오늘은 제 2유형 모델링 7회 8회 기출문제에서는 수치형 데이터를 예측하는 문제가 나왔다.  일단 생각을해보면 7회는 컬럼명을 틀려서 떨어졌고 ^^ ; 8회는 20점을 깎였다. 왜일지는 모르겠음. 일단 가장 큰 이유는 정수형을 해버려서 값이 많이 달라진게 아닐까 싶은데 . 오카방에선 이걸로 말들이 많다.  일단 나는 정수형은 안하는걸로. 정수형을 해버리는 순간 값이 많이 틀려져서 성능평가에서 많이 달라질 수있는것 같다. 왜냐 7회차때는 컬럼명 빼곤 깎인점수가 없고, 정수형 안하고 소수점 그대로 출력해서 제출했기 때문에 생각해볼 수있는 문제.  어쨌든 제 2유형은 플로우를 기억해두는게 좋다. 1. 전처리하기 Null 값 확인 ,outlier 확인 -> 이 두가지는 사실 이전에 .. 2024. 7. 11.
빅데이터 분석기사 실기 기출문제 -파이썬 연습(6) - Python Pandas - pivot() 판다스 피벗테이블 만들기 오늘도 빅데이터 분석기사 실기 파이썬 연습 나올것 같지는 않지만 기본기를 다지기 위해 ~ 판다스 피벗테이블을 만들어보자Python Pandas - pivot() 판다스 피벗테이블은 두가지로 만들수 있는데 pandas pivot pandas pivot_table 로 만들 수 있다.  첫번째는 집계함수가 필요없는 피벗테이블을 그야말로 행과 열을 변경할때.두번째는 행과열을 변경해 group by로  aggfunc을 사용해 만들어 줄 수있다.   1. 피벗을 이용해 시리얼의 타입별을 기준으로 각 시리얼들의 설탕량 구하기. 데이터셋은 https://www.kaggle.com/datasets/crawford/80-cereals?select=cereal.csv 서가져옴 ! 시리얼 데이터는 이렇게 생겼다.  이중에 o.. 2024. 7. 8.
빅데이터 분석기사 실기 기출문제 -파이썬 연습(4) - 데이터 프레임 만들기 Python Pandas.DataFrame() 빅데이터 분석기사 실기 기출문제 파이썬 연습 - 데이터 프레임 만들기 빅데이터 분석기사 실기 8회 3유형은 데이터 프레임으로 값을 넣어서 예측하는 문제가 있었음!! 아 물론 2유형도 답 제출시 무조건 dataframe 형식으로 제출을 해야하니, 반드시 알아야 할 함수다. 데이터 프레임을 만들때는 pandas 라이브러리에서 DataFrame 을 사용해서 만드는데 아주 간단한 방식이다.   1. Pd.DataFrame  원리는 가져올 데이터, 컬럼, 데이터 타입을 선언해주면 된다. 컬럼명 :[숫자, 숫자] 이렇게 외워서 생각해보기 import pandas as pd df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})df 예를 들어 빅데이터 분석기사 3유형에서는 선형회.. 2024. 6. 29.
빅데이터 분석기사 실기 기출문제 -파이썬 연습(3) - 데이터 전처리 / 결측치 제거 Python DataFrame.dropna(), DataFrame.fillna() 빅데이터 분석기사 실기 기출문제 파이썬 연습 오늘은 2유형의 꽃인 데이터 전처리를 연습해본다.  사실 2유형은 데이터 전처리가 필수지만, 여태까지 결측치가 나온적은 없다 (적어도 내가 시험봤 두번 다..ㅎ)하지만 빅데이터 분석에 필수이기도 하고 뭐. 알아둬서 나쁠건 없지!   1. 결측치 찾기 일단 dropna 를 사용하기 전, 결측치가 있는지 없는지를 판단하기를 위해 null 값을 찾고, sum()을 해준다 df.isnull().sum()  이 데이터 셋엔 결측치가 없는 것을 확인. 2. 만약 결측치가 있다면 ?  결측치 제거df.dropna() # 모든 행을 삭제 df.dropna(axis = 1) # 결측치가 포함된 열을 삭제행/ 열을 삭제해 주는 것이 하나의 방법   3. 결측치 채우기 사실 결측.. 2024. 6. 26.
빅데이터 분석기사 실기 기출문제 -파이썬 연습(2) - 정규화와 표준화 (sklearn preprocessing MinMaxScaler / StandardScaler) 오늘은 빅데이터 분석기사 실기 단골 기출문제  정규화와 표준화!  1. 정규화와 표준화의 차이 정규화 MinMaxScaler() = 컬럼들을 0 ~ 1 사이의 값으로 스케일링 하는 것으로 최소값이 0, 최대값이 1으로 정규화 하는 것 , 회귀 분석에 쓰임  표준화 StandardScaler() = 표준화 방식으로 컬럼들을 평균이 0, 분산이 1인 정규분포로 스케일링하는것 , 분류 분석에 쓰임  2. 정규화 하기 일단 빅데이터 분석기사 실기 8회에서는 두가지의 컬럼을 MinMax Scaling 하고, 그것들의 표준편차의 차를 구하는 문제가 출제되었다. (나는 ... 풀다가 시간이 없어 결국 끝내지못함....ㅎㅎ... ) 이전의 데이터 셋을 대충 이용해보자. 일단 파이썬 정규화를 할때는 두 컬럼 이상을 이용.. 2024. 6. 25.
빅데이터 분석기사 실기 - 8회 기출문제 후기 2024 6 23일 .. 빅데이터 분석기사 실기 8회를 보고 왔다.. 일단 ... 사실상 난이도는 하 지만 나는 가채점 결과 50점 각이므로 삼수 예정이다.. 그래서 빡쳐서 11월 9회 시험을 대비해 빅데이터 분석기사 실기를 오늘부터 하루에 하나씩 파헤칠 예정.ㅎㅎ 일단 빅데이터 분석기사 실기  제 1유형은 데이터 전처리 및 기본 함수이다 솔직히 df.groupby('컬럼')만 외워갔더라면 풀 수있었던 너무나도 쉬웠던 문제들인데.. groupby가 자꾸 오류가 나서 통으로 버린 문제들이다. ... 일단  빅데이터 분석기사 실기  1-1 은 대륙의 평균 맥주 소비량을 구하고 ..아니 ! 이거 컬럼명을  구글에 치니까  데이터 셋이 나온..다 ? == stackoverflow에 나오네..?ㅋㅋㅋㅋ(https.. 2024. 6. 23.
728x90
반응형