회사 업무 노트북이나 PC에 보안 솔루션을 설치하여 사용하는 분들이라면 대부분 DLP(Data Loss Prevention)라는 개인정보 탐지 솔루션이 기본적으로 설치되어 있을 확률이 높습니다. 이 DLP는 한글나 워드와 같은 문서 파일에 주민등록번호나 연락처와 같은 개인정보가 있는지 탐지하는 솔루션이죠.
최근 개인정보가 굉장히 중요해지면서 DLP를 설치하는 회사들이 많아졌는데요. 그런데 만약 워드에 개인정보가 텍스트가 아닌 주민등록증과 같은 이미지가 삽입되어 있다면 이를 어떻게 탐지할 수 있을까요? 이번 글에서는 이 부분에 대해 말씀드리도록 하겠습니다.
우선 DLP 솔루션에 대해 기본적인 내용을 모르시는 분은 위의 글을 참고하셔서 어떤 원리로 개인정보가 탐지되는지 보시면 좋을 것 같구요. 일단 간단히 말씀드리면, 한글이나 워드 같은 문서에서 텍스트를 추출해서 미리 정의해둔 주민등록번호 형태의 패턴(7자리-8자리)이 있으면 이를 개인정보가 있다고 탐지합니다.
사실 이런 패턴 형식으로 탐지하는 솔루션이 대부분이다 보니 오탐이 발생하는 경우가 많죠. 그래도 개인정보가 있는 문서를 탐지하지 못하는 것보다는 오탐이 있더라도 탐지하는 것이 기업 입장에서는 안전하기에 어느 정도 오탐을 허용하고 있습니다.
그러면 만약 개인정보가 이미지 형태로 존재하면 어떻게 해야할까요? 단적인 예로, 회사에서 급여 처리를 위해 통장 사본의 계좌번호가 있는 부분을 스캔 떠서 PDF로 변환 후 파일로 인사팀에 전송했다고 가정해보겠습니다. 아마 인사팀에서는 파일을 PDF를 열어서 급여 통장 계좌 번호를 인사 시스템에 입력하겠죠.
그 후에는 해당 파일을 삭제하거나 직원이 퇴사할 때까지 시스템에 보관하고 있을텐데요. 만약 이 PDF를 외부로 반출하려고 하면 문제가 되기 때문에 DLP에서 PDF에 개인정보가 있음을 탐지해야할 겁니다. 이때는 이미지에서 텍스트를 추출하여 해당 텍스트에 계좌번호와 같은 개인정보가 있는지 확인하겠죠.
사실 이미지에서 텍스트를 추출하는 것은 어렵지 않습니다. 지금으로부터 훨씬 이전부터 OCR(Optical Character Reader)이라는 기술을 이용하여 이미지에 있는 문자를 인식하는 프로그램도 많이 나와있기 때문입니다. 명함을 스마트폰으로 찍으면 문자만 인식해서 내용을 저장할 수 있는 앱이 그러하죠.
이러한 OCR 기술을 이용하여 이미지에서 텍스트를 추출한 뒤, 일반적인 DLP와 동일하게 추출된 텍스트에서 패턴 기반으로 개인정보가 있는지 탐지하는 방식으로 구현될 수 있습니다. 이미지에서 문자를 추출하는 것은 파이썬 라이브러리를 통해 쉽게 구현할 수 있기 때문에 프로그래밍을 조금 하실 수 있으신 분도 쉽게 만들어보실 수 있으리라 생각합니다.
최근에는 공공기관에서도 개인정보 유출 사태가 발생함에 따라, 개인정보 관리수준 진단을 좀 더 강화하여 시행하고 있는데요. 여기서는 이미지 속의 개인정보를 탐지하는 것도 중요하다고 판단하여 검색 엔진에 개인정보가 있는 이미지가 노출되지 않도록 해야한다고 명시한 항목도 있습니다.
결국에는 공공기관에 도입된 DLP와 같은 보안 솔루션에서 얼마나 시스템의 성능을 해치지 않으면서 개인정보를 잘 탐지하는지 여부가 중요해질 것으로 보이는데요. 보안 솔루션 개발사에서도 좀 더 좋은 성능의 제품들을 출시하길 바래봅니다. 그럼 이번 글은 여기서 줄이도록 하죠. 읽어주셔서 감사합니다.
'Security Essay' 카테고리의 다른 글
카카오 로그인 화면으로 위장한 피싱 사이트 주의 (0) | 2023.05.17 |
---|---|
캠핑카 플랫폼 서비스 개인 정보 유출 사태 (0) | 2023.05.08 |
해킹 공격 대응을 위한 스토리지 백업 시스템 구축 (0) | 2023.04.20 |
인수위원회 및 국립외교원 출입 기자 사칭 메일 유포 주의 (0) | 2023.04.03 |
쿠팡에서 발생한 고객 개인정보 46만건 유출 사고 (0) | 2023.03.21 |
댓글