Signals공공 데이터데이터 품질

데이터 품질은 전쟁이다: 22개 항목 감사와 끝나지 않는 정비 | Signals EP.12

클라이원트 CLIWANT클라이원트 CLIWANT
4분 읽기
데이터 품질은 전쟁이다: 22개 항목 감사와 끝나지 않는 정비 | Signals EP.12

시리즈: 공공데이터에서 영업 시그널을 자동으로 발굴하기까지, 11편 읽기

"한 번 만들면 끝"이라는 환상

데이터 수집 시스템을 만들 때 가장 위험한 착각이 있다. "한 번 잘 만들어놓으면 알아서 돌아가겠지."

절대 그렇지 않다.

데이터 품질은 자연적으로 부식된다. 사이트가 변하고, 새로운 예외 케이스가 나타나고, 기존 데이터가 낡아간다. 품질 관리는 일회성 작업이 아니라 지속적인 전쟁이다.

22개 항목 품질 감사

이 시스템에는 22개 섹션으로 구성된 품질 감사 체계가 있다. 전체 데이터를 주기적으로 스캔해서 문제를 찾는 시스템.

심각도별 감사 분류

  • CRITICAL: 날짜 오류, 도메인 불일치, 중복 레코드, 스코어-퍼널 불일치
  • HIGH: HTML만 있는 본문, 유효하지 않은 URL, 첨부파일 추출 실패
  • MEDIUM: 메타데이터 누락 (기관명, 부처명)
  • LOW: 포맷 일관성, 정규화 수준

이 감사를 18만 건 전체에 돌리면 현재 품질 상태의 스냅샷이 나온다. "CRITICAL 0건, HIGH 174건" 같은 식으로.

1주일의 품질 스프린트

시스템 가동 후 적지 않은 데이터가 쌓인 시점에서, 1주일짜리 품질 스프린트를 했다.

18만 건 전체를 감사하고, 발견된 문제를 하나씩 고쳤다. 14개 이상의 전용 스크립트를 만들어서.

주요 정비 스크립트

  • 첨부파일 URL 수정 스크립트
  • 쓰레기 데이터 제거 스크립트
  • HTML 전용 본문 정제 스크립트
  • 콘텐츠 해시 중복 제거 스크립트
  • 메타데이터 복구 스크립트 (기관/부처/날짜 누락)
  • 수집 검증 스크립트 (잘못된 날짜, 도메인 불일치)
  • 파일명 정규화 스크립트

이 스크립트들은 일회성이 아니다. 새로운 데이터가 들어올 때마다 다시 돌아야 한다. 그래서 주기적으로 배치로 실행되도록 구성했다.

사이트가 변하면 품질이 깨진다

품질 문제의 근본 원인은 원본 데이터가 계속 변한다는 것이다.

  • 사이트가 리뉴얼되면 기존 선택자가 안 동작한다 → 새로 들어오는 데이터의 품질이 떨어진다
  • 오래된 게시물의 URL이 낡아간다 → 기존 데이터의 참조 무결성이 깨진다
  • 새로운 형식의 첨부파일이 등장한다 → 기존 파서가 못 읽는 경우 발생

품질은 한 번 달성하면 끝나는 게 아니라, 계속 유지해야 하는 상태다. 마치 정원을 가꾸는 것처럼. 가만두면 잡초가 난다.

감사와 정비의 순환

현재 시스템은 이런 순환을 2시간 주기로 돌린다.

  1. 수집: 새로운 데이터를 가져온다
  2. 정제: HTML 정리, 메타데이터 추출, 첨부파일 텍스트 추출
  3. 분석: AI 스코어링, 임베딩 생성, 관련성 판단
  4. 유지보수: 교차 연결, 연속 과제 추적, 예산 매칭

각 단계에서 품질 검증이 들어가고, 문제가 발견되면 다음 순환에서 보정된다.

이 순환이 멈추면 품질이 즉시 하락한다. 1주일만 방치해도 수백 건의 새로운 문제가 쌓인다. 데이터 품질은 한 번의 마라톤이 아니라, 매일 뛰는 조깅이다.

품질 지표의 변화

스프린트 전후를 숫자로 보면:

항목
CRITICAL 이슈4건+0건
첨부파일 텍스트5,263건53,792건
쓰레기 첨부파일155,616건제거
기관명 누락2,255건89건
날짜 누락2,177건0건
파일명 오염39,499건정리 완료

이 숫자들은 자랑하려고 내는 게 아니다. 데이터 품질 관리가 얼마나 많은 노력을 요구하는지 보여주는 수치다. 그리고 이건 1회성 스프린트의 결과일 뿐, 지속적 유지가 필요하다.

다음 에피소드에서는 18만 건의 데이터에 점수를 매긴다는 것이 왜 어려운지 이야기한다.

SIGNALS

공고가 뜨기 전, 시그널을 먼저 잡고 싶다면

30개 공공 데이터 소스에서 영업 시그널을 자동 발굴하는 Signals. 1:1 상담을 받아보세요.

상담 신청하기 →
클라이원트 CLIWANT

클라이원트 CLIWANT

AI 입찰 분석 솔루션 – OpenAI 협업 스타트업

공공조달 입찰 기회를 놓치고 계신가요?

클라이원트와 함께 입찰 기회를 먼저 포착하고 성공 확률을 높이세요.

무료로 시작하기

클라이원트 상담

응답 대기중

불러오는 중...

클라이원트 상담

응답 대기중

불러오는 중...