본문 바로가기
Today

빅데이터 분석기사 실기 시험 및 합격 후기

by _Jay_ 2022. 7. 9.
반응형

작년 말에 시험 본 2021년 3회 빅데이터 분석기사 실기 후기를 티스토리에 늦게나마 올리게 되었다. 원래 시험 후기는 네이버 블로그에서만 공개했었는데, 앞으로는 티스토리에서도 종종 올리도록 할 예정이다.

 

일단 간략하게 작년에 본 3회차 시험을 2회차 시험과 비교하면, 단답형의 경우 비교적 쉬웠던 2회차와 다르게 자세히 공부를 하지 않았다면 풀 수 없는 문제들이 몇몇 있었다. 작업형 1의 경우 코드를 치지 않고 편법으로 풀 수 있는 문제도 보였고, 2회차 보다 쉬운 느낌이었으며 작업형 2의 경우도 2회차보다 어렵지 않게 나온 것으로 생각된다. 다만 여전히 문제를 출제하는데 있어서 수험자들이 혼동할만한 여지가 있는 부분들이 다소 보였는데, 특히 작업형 2에서 파일 저장 시에 인덱스를 어떤 방식으로 지정해야 하는지 명확하게 명시되어 있지 않아 이후 문의가 많았던 것으로 보인다.

3회차 실기 준비는 2회차 실기 시험을 바탕으로 집필된 수험서가 출간되어서 이를 기반으로 공부하였다. 필기 시험까지는 개인적으로 머신러닝이나 빅데이터에 대한 이론적인 내용만 공부했지, 코드 레벨에서는 간단한 예제도 실습해본 적이 없었기 때문에 코드에 익숙해지는데 시간이 좀 많이 걸렸다. 수험서의 경우 당시 R 언어로 된 책 밖에 출간되지 않아서 어쩔 수 없이 R로 시작했지만, 지금은 파이썬으로 된 수험서도 나왔기 때문에 둘 중에 편한 것으로 배우면 좋을 것이다. 개인적으로는 파이썬 언어로 시작하는 것을 추천한다.

실기 연습은 대학생 때 C언어를 처음 배웠을 때 느낌으로, RStudio를 설치해서 첫 번째 예제부터 끝까지 다 따라 쳐봤다. R 언어는 학부 시절 때 배웠던 MATLAB과 굉장히 유사하다. 특히 데이터를 굉장히 편리하게 핸들링할 수 있다는 점에서 개인적으로는 처음 공부하는 사람 입장에서 파이썬보다 R이 더 쉽게 느껴지지 않았을까 싶다. 물론 나는 파이썬을 자주 사용하기 때문에 R로 배운 것들을 다시 파이썬으로 배우면 이후에는 생각이 달라지겠지만, 공부할 당시는 R에 익숙해진 상황이라서 파이썬보다 R이 쉽다고 느꼈다.

전체적인 시험에 문제 구성에 대해 간략히 이야기하자면, 3점 단답형 10개, 간단한 데이터 핸들링을 하는 10점 작업형 유형1 문제 3개, 주어진 데이터를 다양한 기법을 이용하는 40점 작업형 유형2 문제 1개가 출제된다. 단답형의 경우 아직까지는 쉽게 신뢰도, 앙상블, SVM과 같이 큰 틀에서 문제가 나오고 있지만, 시험이 어느 정도 치뤄진 후에는 세부적인 부분에서 나올 수 있을거라고 생각된다. 또한 작업형 유형1에서는 주어진 데이터의 결측값을 제거해서 중앙값이나 평균을 구하거나, 데이터에서 이상치 값을 가지는 값들을 제거하는 등 복잡하지 않은 수준으로 출제된다.

작업형 유형2에서는 각각 훈련 데이터, 훈련 데이터의 답(Label), 테스트 데이터를 주고, 데이터를 전처리하여 훈련 데이터로 학습 모델을 만들고 해당 모델에 테스트 데이터를 적용하여 예측하도록 만든다. 전처리에서는 결측값을 처리하고 데이터 스케일링 과정까지 포함되기도 하는데, 랜덤 포레스트를 제외하고는 데이터 스케일링을 진행한 후에 학습 모델에 적용시키도록 해야 한다. 나의 경우 사실 많은 기법들을 준비해가진 않았고, 시험에서 바로 적용할 수 있는 로지스틱 회귀분석, 랜덤 포레스트, SVM 정도만 안보고 코드를 작성할 수 있도록 준비했다(커뮤니티를 보니 다른 분들은 nnet 패키지를 이용해서 인공신경망까지 준비하는 분도 봤다).

시험에 주어진 학습 데이터 또한, Training Set과 Validation Set으로 분류하여 Training Set으로 모델을 만들고, Validation Set을 가지고 예측한 결과를 confusionMatrix로 정확도를 확인하여 사용한 기법들 중 가장 높은 정확도를 보이는 기법을 적용하여 답을 제출하였다. 정확도는 적용한 기법들 대부분이 60~70% 사이에서 나왔는데, 데이터 분석을 전문으로 하는 현업자들은 데이터 전처리를 확실하게 적용해서 더 높은 정확도를 나타낼 수 있을 것으로 생각된다. 아직까지는 작업형 유형2에서 분류/예측하는 문제가 출제되고 이후에는 클러스터링 같은 비지도 학습에서도 문제가 나올 수도 있겠지만, 한동안은 채점의 편의상 지도 학습에서 문제가 출제되지 않을까 싶다.

 

빅데이터 분석기사 실기 시험 환경인 구름 IDE

 

시험 환경은 구름이라는 클라우드 기반의 코딩 테스트 플랫폼에서 진행됬으며, 자격검정 홈페이지에 올라온 "응시환경 체험하기"와 거의 동일하다고 보면 된다. 나는 시험을 준비할 때 어느 정도 코드에 익숙해지기 전까지는 RStudio를 이용하여 공부했지만, 시험을 보는 환경에서는 함수 자동완성이나 에러 메시지도 어디서 틀렸는지 표시되지 않기 때문에 구름 플랫폼에서도 동일하게 코드를 입력할 수 있도록 연습하였다. 다만 가끔 서버에 트래픽이 몰리면 제대로 된 코드임에도 불구하고 에러가 발생할 때가 있는 것 같으니, 맞는데 왜 틀리지 싶으면 다시 한 번 실행해 볼 필요는 있을 것 같다.

마지막으로 간략하게 빅데이터 분석기사를 공부한 방법에 대해서 이야기하고 마치도록 하겠다. 나의 경우 빅데이터를 처음 공부했을 때는 보안을 꽤 오랜 시간동안 공부했기 때문에, 악성코드 분석을 머신러닝 기법을 이용하여 분류한다면 어떻게 적용할 수 있을지 아래와 같은 시나리오를 생각하면서 공부하였다.

"만약 악성코드인 것과 정상 프로그램의 특징들을 각각 추출해서 모델을 생성하고 학습을 시킨다고 가정하면, 적용할 특징이 너무 많은 경우 오히려 성능이 나빠지는 소위 차원의 저주라고 부르는 문제가 생길 수 있다. 그렇기 때문에 분류하는데 아무런 도움이 되지 않는 특징들은 제거해야하고(데이터 전처리), 가지고 있는 정상/악성 샘플들을 잘 섞어 검증 데이터과 훈련 데이터로 나눠서, 훈련 데이터로 학습 모델을 만들고(모델 생성) 검증 데이터로 성능을 확인한다(모델 평가). 생성한 모델의 성능이 좋지 않다면, 다시 모델에 적용할 특징을 변경해보면서(하이퍼 파라미터 조정) 원하는 성능이 나올 때까지 반복한다."

사실 통계학과나 AI를 전공하여 어느 정도 경험이 있는 분이라면, 위와 같은 방법으로 공부하는 것이 전혀 도움이 되지 않을 수도 있다고 생각한다. 하지만 빅데이터 분석 분야를 이제 막 시작하는 사람이라면, 데이터를 머신러닝 기법에 적용할 때 대강 어떤 방식으로 흘러가는지 알아야 공부 방향을 잡을 수 있다. 뒤에 나오는 다양한 머신러닝, 딥러닝 기법들에서 어떤 함수를 이용하고 파라미터는 어떻게 조정하는지 공부하는 것은 일단 전체적인 흐름을 잡고 시작해도 늦지 않는다.

특히 빅데이터 분석기사가 굉장히 방대한 영역을 다루고 있기 때문에, 처음 공부할 때는 특정 기법의 내용들을 외우려고 하는 경우가 많은데 전체적인 목차부터 시작해서 Top-Down 형식으로 접근하는게 제일 좋다. 또한 필기 후기에서 밝혔던 것처럼 빅데이터 분석기사 자격증을 딴다고 해도 단지 '빅데이터 분석에 대해 어느 정도 이해하고 있습니다'의 측면으로 봐야하고, 실기에서 나오는 어느 정도 정제된 데이터가 아닌 특징 추출부터 시작해서 쌩 로우 데이터를 가지고 실제 기법에 적용해 봐야 현업에서 요구하는 실력을 갖출 수 있다고 본다.

 

3회 빅데이터 분석기사 실기 시험 결과

 

시험 결과는 일단 예상한 대로 작업형 1유형과 2유형은 모두 만점을 받았으며, 단답형에서 점수를 꽤 깎아먹었다. 사실 작업형보다도 단답형이 더 어려웠다고 느꼈는데, 지문을 주고 답을 적는 형태가 아니라 어떤 개념에 대한 설명 중간에 괄호를 채우는 문제였기 때문인 것 같다. 그리고 조금 걱정했던 작업형 1유형에서는 중간 과정 없이 변수에 답을 저장하고 print문으로 출력만 해도 점수를 주기 때문에, 자세한 풀이를 하지 못하더라도 어느 정도 편법을 이용해서 문제를 풀 수 있을 것으로 생각된다.

또한 마지막 제 2유형에서는 데이터 결측치 처리와 스케일링 같은 전처리를 수행하여 랜덤 포레스트 같은 모델에 적당히 적용하여 결과만 잘 나온다면 점수를 주는 것으로 보인다. 이번에는 데이터 전처리 과정이 어렵지 않았기 때문에 쉬웠지만, 추후에는 예제 문제와 같이 충분한 전처리를 거쳐서 결과를 내는 문제가 출제될 수 있으니 이 부분은 잘 준비해야 할 것으로 생각된다. 그럼 여기까지 작년에 시험 본 빅데이터 분석기사 실기 후기를 마치도록 하겠다. 

반응형

댓글