최근 사이버 보안의 중요성이 날로 커지고 있는 가운데, 인공지능(AI) 기술이 사이버 보안 분야에 미치는 영향이 점점 더 커지고 있습니다. 이에 따라 정부가 사이버 보안 AI 데이터셋을 온라인에 개방하기로 결정했습니다. 이 중요한 발표는 지난 26일 용산 로얄파크컨벤션에서 열린 '사이버보안 AI 데이터셋 구축 성과 공유회'에서 이루어졌습니다. 이 글에서는 이번 AI 데이터셋 개방의 의미와 앞으로의 기대를 살펴보겠습니다.
과학기술정보통신부(과기정통부)와 한국인터넷진흥원(KISA)은 2021년부터 사이버 보안 AI 데이터셋을 구축하여 민간에 공유해왔습니다. 이제 이 데이터셋을 온라인에서 시범 개방한다고 발표했습니다. 시범 운영은 8월까지 계속될 예정이며, 수요 기업과 기관이 실제로 데이터셋을 활용해볼 수 있도록 지원할 계획입니다.
현재 제공되는 데이터는 약 2억 건 규모로, 지원 건수는 3만 건으로 제한됩니다. 데이터셋을 활용하려는 사용자는 C-TAS 접속 후 '사이버보안 AI 데이터셋 제공' 페이지에서 관련 정보를 확인할 수 있습니다.
단계 | 설명 | 세부사항 |
1. C-TAS 접속 | C-TAS 웹사이트에 접속합니다. | - 웹사이트 주소는 공식 발표나 관련 기관에서 확인 가능 |
2. 회원 가입 및 로그인 | 사용자 계정을 만들고 로그인합니다. | - 개인 정보와 기관 정보 입력 - 이미 계정이 있는 경우 로그인 |
3. '사이버보안 AI 데이터셋 제공' 페이지로 이동 | '사이버보안 AI 데이터셋 제공' 페이지를 찾습니다. | - 로그인 후 웹사이트 내에서 해당 페이지 클릭 |
4. 활용 계획서 제출 | 데이터셋 활용을 위한 계획서를 작성하고 제출합니다. | - 계획서 내용: 활용 목적, 예상 사용량, 기대 효과 - 제출 방법: 온라인 양식 또는 이메일 |
5. 데이터셋 요청 | 데이터셋 요청 양식을 작성하고 제출합니다. | - 요청 양식: 데이터 종류, 양, 사용 목적 명시 - 제출 후 승인 대기 |
6. 데이터셋 다운로드 | 승인 확인 후 데이터셋을 다운로드합니다. | - 다운로드 링크를 확인 - 로컬 시스템에 저장 |
7. 활용 및 피드백 | 데이터셋을 활용하고 피드백을 제공합니다. | - 데이터 보안 지침 준수 - 피드백 제공하여 데이터 품질 향상에 기여 |
주의사항
최근 사이버 공격자들이 AI 서비스를 활용해 위협을 가하고 있는 만큼, 사이버 보안 분야에서도 AI 기술을 적극적으로 활용해야 한다는 목소리가 높아지고 있습니다. AI 기술은 위협 탐지 및 분석, 맞춤형 보안 모델 생성, 보안 담당자의 부담 경감 등 다양한 분야에서 활용될 수 있습니다. 데이터셋은 이러한 AI 보안 모델을 개발하는 데 필수적인 자원으로 간주됩니다.
용도 | 설명 | 구체적인 활용법 |
위협 탐지 및 분석 | 데이터셋은 알려진 위협 및 악성 행위 패턴을 포함하고 있어 AI 모델이 새로운 위협을 탐지하고 분석하는 데 사용됩니다. | - 이상 탐지: 정상 트래픽과 비정상 트래픽의 패턴을 학습하여 이상 행동을 탐지 - 위협 인텔리전스: 최신 위협 정보를 반영하여 모델을 지속적으로 업데이트 |
악성코드 식별 | 악성코드와 정상 코드의 특성을 학습하여 악성코드를 식별하는 AI 모델을 개발합니다. | - 서명 기반 탐지: 기존 악성코드의 서명을 학습<br>- 행위 기반 탐지: 악성코드의 행위 패턴을 분석하여 새로운 악성코드를 식별 |
침입 탐지 시스템(IDS) 개발 | 네트워크 트래픽 데이터셋을 이용해 정상적인 활동과 의심스러운 활동을 구별하는 침입 탐지 모델을 개발합니다. | - 패킷 분석: 네트워크 패킷 데이터를 학습하여 비정상적인 패킷을 탐지 - 트래픽 패턴 분석: 네트워크 트래픽의 이상 패턴을 분석하여 침입을 탐지 |
사이버 공격 예측 및 방어 | 공격 패턴 데이터를 학습하여 미래의 사이버 공격을 예측하고, 이에 대한 방어 전략을 수립하는 데 사용됩니다. | - 공격 시뮬레이션: 과거 공격 데이터를 기반으로 시뮬레이션을 수행 - 방어 전략 최적화: 예측 모델을 통해 최적의 방어 전략을 수립 |
보안 이벤트 자동화 | 보안 이벤트 데이터를 분석하여 반복적인 보안 작업을 자동화합니다. | - 정오탐 분류: 보안 이벤트를 자동으로 분류하여 오탐과 정탐을 구분 - 자동 응답 시스템: 특정 이벤트에 자동으로 대응하는 시스템 개발 |
사용자 인증 및 접근 제어 | 사용자 행동 데이터를 기반으로 비정상적인 접근 시도를 탐지하고 차단합니다. | - 행동 분석: 사용자 행동 데이터를 학습하여 이상 행동을 탐지 - 다중 요인 인증 강화: 비정상적인 접근 시도에 대해 추가 인증 절차 요구 |
보안 정책 및 규칙 생성 | 데이터셋을 분석하여 효과적인 보안 정책과 규칙을 생성합니다. | - 정책 최적화: 데이터를 기반으로 보안 정책을 지속적으로 개선 - 규칙 자동 생성: 새로운 위협에 대응하기 위한 보안 규칙 자동 생성 |
과기정통부와 KISA는 사이버보안 AI 데이터셋을 지속적으로 확장해 왔습니다. 2021년에는 악성코드 및 침해사고 분야에서 약 8억 건의 데이터를 구축했고, 2022년에는 애플리케이션 보안, 능동형 보안 관제, 위협 프로파일링 분야에서 6억 건을 추가했습니다. 지난해에는 최신 침해사고, 위협 인텔리전스, 위협 헌팅 분야에서 6억 건을 구축했습니다. 총 3년간 약 20억 건의 데이터셋을 마련한 셈입니다.
이 데이터셋은 광주광역시청의 랜섬웨어 감염 예방, 여기어때의 웹로그 분석 AI 모델, 한국전력공사의 네트워크 기반 AI 모델 등 다양한 민관 영역에서 실증 성과를 거두었습니다. 이러한 성과는 AI 데이터셋의 중요성을 잘 보여줍니다.
연도 | 주요 발전 내용 | 세부 사항 |
2021 | 초기 구축 및 개방 | - 과기정통부와 KISA가 '국가 사이버 안전망 구축'의 일환으로 사이버보안 AI 데이터셋을 구축 - 악성코드 및 침해사고 2개 분야에서 약 8억 건의 데이터셋 구축 및 개방 |
2022 | 데이터셋 확대 및 다양화 | - 애플리케이션 보안, 능동형 보안관제, 위협 프로파일링 3개 분야에서 6억 건의 데이터셋 추가 구축 - 데이터셋의 활용 범위를 확장하여 다양한 보안 위협에 대응 |
2023 | 최신 위협 정보 반영 및 고도화 | - 최신 침해사고, 위협 인텔리전스, 위협 헌팅 3개 분야에서 6억 건의 데이터셋 추가 구축 - 최신 위협 정보를 반영하여 데이터셋의 실효성 및 정확성을 향상 |
2024 | 실증 사업 성과 및 민관 협력 | - 광주광역시청, 여기어때, 한국전력공사 등 민관 협력 실증 사업 진행 - AI 보안 모델을 통한 랜섬웨어 감염 예방, 웹페이지 모니터링, 공급망 공격 대응 등 성과 도출 |
2024 (8월) | 온라인 시범 개방 및 확장 계획 | - C-TAS 플랫폼을 통해 사이버보안 AI 데이터셋 시범 개방 - 사용자 피드백을 반영하여 데이터셋의 적정성 검토 및 데이터셋 제공 건수 제한 (약 2억 건, 지원 건수 3만 건) |
2024 | AI 주권 확보 및 학계 협력 추진 | - AI 주권 확보를 위해 학계와 협력 추진 - 거대언어모델(LLM)을 사이버보안 데이터셋과 연계하여 활용할 수 있는 연구 지속 - PoC 모델 개발을 통한 AI 모델 발굴 노력 |
AI 기술은 사이버보안 분야의 미래를 크게 변화시킬 가능성이 큽니다. KISA는 거대언어모델(LLM)을 사이버보안 데이터셋과 연계해 활용할 수 있는 방법을 연구하고 있으며, 올해에도 검증(PoC) 모델을 개발하여 AI 모델을 발굴할 계획입니다. 사이버보안 분야에서 대한민국이 AI 주권을 확보하기 위해 학계와 협력을 추진할 예정입니다.
사이버보안 AI 데이터셋의 온라인 개방은 사이버 보안 분야의 혁신적인 변화를 예고합니다. 이 데이터셋은 보안 기업들뿐만 아니라 대기업, 공공기관 등에서 더욱 활발히 활용될 것입니다. AI 기술이 사이버 보안의 핵심 자원으로 자리잡고 있는 지금, 이러한 데이터셋의 개방은 보안 솔루션의 발전과 사이버 위협 대응 능력 향상에 큰 기여를 할 것입니다.
앞으로도 사이버 보안 분야의 최신 동향과 AI 기술의 발전에 많은 관심을 가지고 지켜봐 주세요. 감사합니다!