유비온 프로젝트_두 번째 리뷰 포스트_

안녕하세요!
지난번 리뷰에 이어 두 번째 리뷰를 작성하겠습니다.

총 4개의 프로젝트 중 프로젝트 2(신용심사에 빅데이터 활용)를 중심으로 코스 수강 후 달라진 점과 프로젝트에 대한 소소한 팁을 적어보려고 합니다.

글을 읽기 전에 먼저 제 소개를 드리고자 합니다.

저는 대학에서 비금융 전공이었고, 금융권에서 인턴십을 경험한 후 금융권에 관심을 갖게 되었습니다.

금융권 채용 시장에 불어오는 IT 바람을 인지하고 관심을 갖고 있었지만 부족한 금융지식을 채우기 위해 공부에 더 몰두했다.

강의를 찾던 중 금융 빅데이터 강의가 독특해서 관심을 갖게 되었습니다.

강의요강을 보고 관심이 있었던 대출심사 분야에서 활용되는 빅데이터 프로세스를 배울 수 있다는 점과 좋은 평론을 보고 수강을 결정하게 되었습니다.

저처럼 비금융을 전공하지만 금융권에 관심이 많은 분들, 지식은 부족하지만 통계와 데이터에 관심이 많은 분들이 제 글을 읽고 도움이 되셨으면 좋겠습니다.

.

Q. 수강 후 가장 달라진 점은 무엇인가요?

앞서 언급한 바에 따르면 취업준비를 하면서 금융권 대출심사 분야의 빅데이터 활용에 대해 알고 있었고, 인턴 경험은 있었지만 구체적인 직무와 업무 프로세스에 대한 이해가 부족했습니다.

하지만 수강 후 가장 큰 변화는 금융권에서 각 기업이 관련 데이터를 어떻게 활용하는지, 심사 과정이 업종별로 어떤 과정을 거치는지 등 과정에 대한 이해가 높아진 점이라고 생각합니다.

예를 들어, 기업 대출 실행에 필요한 서류, 펀드 대출의 종류, 필요한 재무 데이터 등을 자세하게 배울 수 있었습니다.

이 과정에서 다양한 금융기관이 어떤 서비스를 제공하고 어떤 평가지표를 사용하는지 살펴보며 업무에 대한 이해와 함께 데이터의 중요성을 깨닫게 되었습니다.

취업을 혼자 준비했다면 금융권 취업에 대해 깊이 있게 배울 수 없었을 것이다.

강의 중 교수님께서 제공해주신 자료와 말씀이 많은 도움이 되었던 것 같습니다.

또한 직무에 대한 이해와 함께 직무에 필요한 역량을 간접적으로 배울 수 있었던 것 같습니다.

3회의 PT 발표 후 받은 피드백, 프로젝트별 다양한 팀원들과의 협업 등 프로젝트를 진행하면서 회사에서 요구하는 역량을 강화할 수 있었던 계기가 된 것 같습니다.

프로젝트마다 어떻게 하면 좋은 결과를 낼 수 있을지 고민하는 것이 앞으로 입사 후 도움이 될 것 같아요.

다음으로 데이터에 대한 이해도가 높아졌다고 생각합니다.

여기서 데이터는 통계 지식에서 기계 학습 모델에 이르는 모든 것을 포함합니다.

기계 학습 모델을 배우기 전에 배운 통계 지식을 바탕으로 부실 예측에 필요한 서류와 모델을 이해할 수 있었습니다.

대학에서 배운 통계학의 기초를 복습하고 회귀분석, 분산분석, 유의수준, 임계값을 고려한 분석방법을 자세하게 이해한 후 프로젝트 2를 실습할 수 있어서 좋았습니다.

부족했던 통계적 개념들을 다시 한 번 정리할 수 있는데, 이 부분은 학원 수업을 잘 따라오시면 쉽게 배울 수 있을 것 같습니다.

데이터의 중요성과 함께 데이터의 한계도 인식하게 되었습니다.

외부 감사를 받은 기업과 비상장 기업은 대출심사에 활용할 자료가 부족한 것으로 나타났다.

또한 개인정보보호법으로 인해 해당 시장에서 데이터를 활용하기 위해서는 법적, 제도적 측면을 보완해야 한다는 점도 있었다.

이러한 점들을 고려할 때 데이터가 아직은 업무의 전반적인 측면을 개선할 수는 없지만 보조 도구로 유용하게 사용할 수 있다는 점을 인지할 수 있었고, 앞으로 어떻게 활용할 것인지에 대해 생각해볼 수 있는 계기가 되었습니다.

따라서 양질의 데이터를 확보하기 위해서는 데이터 분석가 개개인의 재무적 역량도 매우 중요하다고 생각했습니다.

재무 데이터 애널리스트는 데이터에 대한 이해뿐만 아니라 인사이트도 갖춰야 한다는 것을 배웠습니다.

이 과정을 수강한 후 데이터 분석가에 대한 시야가 넓어졌고, 데이터에 쉽게 접근할 수 있는 금융 시장에서 데이터 역량을 쌓는 것이 경력을 쌓는 좋은 방법이 될 수 있다는 생각이 들었습니다.


Q. 제안서 발표 아이디어를 선택한 이유와 팁은 무엇이었나요?

A. Project 2에서는 ‘부실예측모형 결정’이라는 큰 테마 아래 프로젝트 주제를 자율적으로 선정합니다.

부실 조짐이 보이는 기업 차별 모델에 대해 학습한 후 자율적으로 세부 주제를 선정한다.

우리 기수도 관련 논문을 바탕으로 다양한 아이디어를 제시했다.

2주 정도 프로젝트 주제에 대해 고민하다 보니 주제 선정이 프로젝트 과정에서 매우 중요한 부분이라고 생각합니다.

개인적으로 프로젝트를 준비하기 전에 자신이 고민하거나 관심이 있는 주제를 선택하는 것이 좋을 것 같습니다.

이미 주어진 지표를 데이터로 활용하여 부실기업을 식별하는 것도 가능하지만, 저는 더 나은 모델을 찾기 위해 관심 주제에 대한 지식을 바탕으로 관련 논문을 검색하는 것이 더 효율적이라고 생각합니다.

처음에는 소상공인을 주제로 활용 가능한 자료도 찾아봤다.

그러나 관련 데이터가 부족하고 ‘데이터 마이닝’ 기술이 더 적합하다는 피드백을 받은 후 다른 주제를 고려했습니다.

프로젝트 2가 시작되기까지 시간이 많이 남아있으니 수업을 들으실 때 미리 생각해두시면 좋을 것 같습니다.

다만, 관련 아이디어가 없더라도 교수님이 제공해주신 자료를 바탕으로 현장에서 이미 고민하고 있는 문제들을 해결해보시면 좋을 것 같습니다.

제공된 데이터의 한계와 문제점이 무엇인지 파악한 후 이를 보완할 방안을 고민하는 것이 좋은 방법이라고 생각합니다.

일례로 우리 팀은 기업의 부실 여부를 판단하는 현재 지표의 문제점에 대해 깊이 우려해 왔습니다.

또한 향후 산업 변화와 경제 동향을 고려할 때 참고할 수 있는 다른 지표는 무엇인지 고민했습니다.

지금 당장은 부실기업으로 파악될 수 있지만 유망산업(신성장동력)과 미래 성장 잠재력이 있는 기업을 발굴하기 위해 어떤 지표를 활용할 수 있을지 고민했다.

유사하다고 할 수 있는 데이터 지표를 찾을 수 있었습니다.

데이터 조사를 통해 알게 된 내용인데, 그 주제에 좀 더 관심을 가졌더라면 더 다양한 데이터를 다룰 수 있었을 텐데 아쉽다.

데이터를 어떻게 활용할 수 있느냐는 데이터에 대한 이해도에 비례한다고 생각합니다.

발표할 때 객관적인 데이터로 아이디어의 근거를 설득하면 좋은 결과를 볼 수 있을 것 같다.


Q. 데이터 보안 시 유의할 점과 팁은 무엇인가요?

사실 이 부분은 수업 때마다 강조하는 부분인데 절차에 대한 이해가 부족하면 실수할 수 있는 부분이라고 생각합니다.

데이터 누락 및 왜곡은 팀원들과의 협업에 방해가 될 수 있는 부분이니 주의해 주셨으면 하는 생각이 들었습니다.

우선, 주제를 확정하기 전에 데이터의 양과 불균형을 충분히 고려하시기 바랍니다.

우리팀이 선정한 신성장동력기업 데이터는 데이터 추출 시 정확도가 매우 높았으나 관련 데이터의 양이 적어 판별모델의 우수성을 밝히기에는 부족하였다.

데이터의 불균형을 미리 고려하지 않아 문제가 발생했다.

관련 논문을 읽어도 논문의 한계로 데이터 불균형이나 데이터 양이 부족하다는 점을 언급하는 경우가 많다.

데이터 분석 프로젝트인 만큼 데이터의 양과 질이 가장 중요하다는 점 잊지 마시고 주제 선정 시 데이터 불균형 정도를 확인하시길 바랍니다.

또한 데이터가 부족하더라도 이를 보완할 수 있는 다른 지표는 무엇인지 고민해 주셨으면 합니다.

데이터를 정리할 때 염두에 두어야 할 몇 가지 사항도 있습니다.

데이터를 받은 ‘TS2000’을 사용하면서 개인적으로 아쉬운 부분이 있었습니다.

먼저 2000~2011년의 재무제표는 K-GAAP로 산정하지만 2011~2019년의 재무비율은 IFRS로 산정하기 때문에 연도를 나누어야 하므로 산정할 수 없는 한계가 있었다.

일년 내내 완료되었습니다.

둘째, ‘TS 2000’의 자료 중 연결재무제표에 누락된 값이 많았다.

문제를 개별 재무제표로 대체하거나 개별 재무제표에 누락된 값이 없으면 DART에서 직접 데이터를 가져와 채웠습니다.

사실 이 부분은 프로젝트 진행 중에 시간이 많이 걸려서 아쉬웠습니다.

셋째, 데이터를 정리할 때 합병되거나 합병되거나 상장 폐지된 회사를 별도로 고려해야 했습니다.

지수 산정은 크게 수익성, 활동성, 성장성, 생산성으로 구분되며 개별 지표를 고려해야 한다.

이 경우 수학적으로 계산할 수 있으나 회계상 의미가 불분명한 지표는 별도로 취급하여야 한다.

예를 들어 성장지표의 경우 작년에는 적자였지만 올해는 흑자였다면 성장률을 계산할 때 절대값으로 처리해 그 의미를 명확히 해야 한다.

안정성 지표(자본금 비율, 재고 vs. 순운전자본비용)의 경우 분자와 분모가 모두 음수이므로 TS2000에서 0으로 인식하는 경우가 있었습니다.

따라서 문제의 경우 별도의 계산을 통해 수정하였다.

TS 2000이 가지고 있는 데이터의 한계를 인지하고 수정이 필요한 부분에 대한 수정 작업을 진행해 주셨으면 합니다.

또한 관련 부분은 이전 기수님들의 자료를 보시고 참고하시면 시간이 단축되길 바라겠습니다!


Q. 코드 작성 시 유의할 점과 팁은 무엇인가요?

우선 코드를 작성할 때 꼭 언급하고 싶은 것이 두 가지 있습니다.

저번 글에서 팀원들이 데이터베이스 이름을 통일하거나 프로세스에 대한 공통의 이해가 있어야 효율적인 업무가 가능하다고 말씀드렸습니다.

구체적인 방법으로 ‘Github’을 사용하는 것을 추천하고 싶습니다.

제 기수에서는 수업시간에 간단하게 Github에 대해 배웠기 때문에 나중에 멘토링 과정에서 Github에 대해 더 많이 배울 수 있었습니다.

이 기사를 읽고 있다면 프로젝트를 시작하기 전에 Github 사용 방법에 대해 자세히 알아보시기 바랍니다.

프로세스별로 브랜치를 개별적으로 생성하여 사용할 수 있어 코드 혼동을 줄일 수 있고, ‘커밋 메시지’를 통해 자세히 설명해주시면 추후 코드 정리 시 시간을 절약할 수 있기 때문입니다.

둘째, 필요한 코드를 찾는 방법을 알려드리고자 합니다.

나도 똑같이 했지만, 데이터 분석에 필요한 코드를 어디서 구해야 할지 막막했다.

그때 사용한 곳은 Github와 데이터 분석 대회 사이트(Dacon)였습니다.

또한 개인 블로그나 구글링을 통해서도 필요한 코드를 찾을 수 있었는데, 가장 추천하는 곳은 Github이다.

전 세계적으로 코드를 사용하는 사람들이 코드를 정리하기 위해 사용하는 저장소이기 때문에 필요한 코드를 원어로 검색하면 양질의 코드 자료를 찾을 수 있습니다.

또한 유사한 유형의 데이터를 분석한 공모전 참가자들의 데이터도 큰 도움이 되었습니다.

같은 코드를 사용하지만 훨씬 더 간단한 방법으로 작성된 사람들의 코드를 많이 찾는 것이 좋습니다.

깃허브 사용법을 잘 알고 계시다면 훨씬 도움이 될 것 같으니 깃허브 사용법을 익혀두시기 바랍니다.


대표사진 삭제

사진 설명을 입력하세요.

Q. 수강 후 가장 달라진 점은 무엇인가요?

앞서 취업을 준비하면서 금융권의 대출심사 분야에서 빅데이터가 활용되고 있다는 사실을 알고 있었다고 말씀드린 바 있습니다.

하지만 수강 후 가장 큰 변화는 금융권에서 각 기업이 관련 데이터를 어떻게 활용하는지, 심사 과정이 업종별로 어떤 과정을 거치는지 등 과정에 대한 이해가 높아진 점이라고 생각합니다.

예를 들어, 기업 대출 실행에 필요한 서류, 펀드 대출의 종류, 필요한 재무 데이터 등을 자세하게 배울 수 있었습니다.

이 과정에서 다양한 금융기관들이 어떤 서비스를 제공하는지, 어떤 평가지표를 사용하는지를 보면서 직무에 대한 이해는 물론 데이터의 중요성을 실감할 수 있었습니다.

취업을 혼자 준비했다면 금융권 취업에 대해 깊이 있게 알 수 없었을 텐데, 강의 때 교수님이 제공해주신 자료와 말씀이 많은 도움이 되었던 것 같아요.

또한 직무에 대한 이해와 함께 직무에 필요한 역량을 간접적으로 배울 수 있었던 것 같습니다.

3회의 PT 발표 후 받은 피드백, 프로젝트별 다양한 팀원들과의 협업 등 프로젝트를 진행하면서 회사에서 요구하는 역량을 강화할 수 있었던 계기가 된 것 같습니다.

프로젝트마다 어떻게 하면 좋은 결과를 낼 수 있을지 고민하는 것이 앞으로 입사 후 도움이 될 것 같아요.

다음으로 데이터에 대한 이해도가 높아졌다고 생각합니다.

여기서 데이터는 통계 지식에서 기계 학습 모델에 이르는 모든 것을 포함합니다.

기계 학습 모델을 배우기 전에 배운 통계 지식을 바탕으로 부실 예측에 필요한 서류와 모델을 이해할 수 있었습니다.

대학에서 배운 통계학의 기초를 복습하고 회귀분석, 분산분석, 유의수준, 임계값을 고려한 분석방법을 자세하게 이해한 후 프로젝트 2를 실습할 수 있어서 좋았습니다.

부족했던 통계적 개념들을 다시 한 번 정리할 수 있는데, 이 부분은 학원 수업을 잘 따라오시면 쉽게 배울 수 있을 것 같습니다.

데이터의 중요성과 함께 데이터의 한계도 인식하게 되었습니다.

사외·비상장 기업에 대한 자료가 대출심사에 활용하기에는 부족한 것으로 나타났다.

또한 개인정보보호법으로 인해 해당 시장에서 데이터를 활용하기 위해서는 법적, 제도적 측면을 보완해야 한다는 점도 있었다.

이러한 점들을 고려할 때 데이터가 아직은 업무의 전반적인 측면을 개선할 수는 없지만 보조 도구로 유용하게 사용할 수 있다는 점을 인지할 수 있었고, 앞으로 어떻게 활용할 것인지에 대해 생각해볼 수 있는 계기가 되었습니다.

따라서 양질의 데이터를 확보하기 위해서는 데이터 분석가 개개인의 재무적 역량도 매우 중요하다고 생각했습니다.

재무 데이터 애널리스트는 데이터에 대한 이해뿐만 아니라 인사이트도 갖춰야 한다는 것을 배웠습니다.

수강 후 데이터 애널리스트에 대한 시야가 넓어졌고, 데이터에 쉽게 접근할 수 있는 금융시장에서 데이터 역량을 쌓는 것이 좋은 경력을 쌓는 방법이 될 수 있겠다는 생각이 들었습니다.