2024. 9. 4. 14:25ㆍGCC/데이터 애널리틱스
데이터 정리는 필수!
정리하자!
정확하고 일관된 데이터는 모든 데이터 기반 분석의 기초가 됩니다. 그러나 많은 기업들이 매년 수조 달러를 잘못된 데이터로 인해 낭비하고 있다는 사실을 알고 계셨나요? IBM에 따르면, 미국에서는 매년 약 3조 1천억 달러가 저품질 데이터로 인해 손실된다고 합니다. 이는 데이터 품질이 비즈니스에 미치는 영향을 잘 보여주는 수치입니다.
더티 데이터와 클린 데이터
더티 데이터는 불완전하거나, 부정확하거나, 해결하려는 문제와 관련이 없는 데이터입니다. 더티 데이터가 생성되는 주된 원인은 다음과 같습니다:
- 입력 오류: 사용자가 데이터를 잘못 입력하거나, 서식을 다르게 하거나, 필드를 비워두는 경우.
- 중복 데이터: 같은 데이터를 두 번 이상 입력하는 경우.
- 시스템 결함: 데이터가 시스템 간에 일관되지 않거나, 오류가 발생하는 경우.
더티 데이터는 분석 결과의 정확성을 떨어뜨리고, 비즈니스 의사결정에 부정적인 영향을 미칠 수 있습니다.
클린 데이터는 완전하고 정확하며, 해결하려는 문제와 관련이 있는 데이터입니다. 클린 데이터를 사용하면 분석 결과의 신뢰성이 높아지고, 프로젝트가 원활하게 진행될 수 있습니다.
데이터 무결성과 클린 데이터의 중요성
클린 데이터는 데이터 무결성의 핵심입니다. 데이터 무결성은 데이터가 정확하고 일관되며 신뢰할 수 있는 상태를 의미합니다. 클린 데이터는 데이터 무결성을 보장하는 데 도움을 주며, 이를 통해 다음과 같은 장점을 얻을 수 있습니다:
- 정확한 분석 결과: 클린 데이터는 분석 결과의 신뢰성을 높여줍니다.
- 효율적인 의사결정: 정확한 데이터는 비즈니스 의사결정을 효과적으로 지원합니다.
- 문제 해결: 데이터의 신뢰성이 높을수록 문제의 근본 원인을 파악하는 데 도움이 됩니다.
클린 데이터 작업의 중요성
클린 데이터를 유지하려면 효과적인 데이터 정리 도구와 과정이 필요합니다. 다음과 같은 방법들이 유용할 수 있습니다:
- 데이터 검증: 데이터 입력 시 검증 규칙을 적용하여 오류를 사전에 방지합니다.
- 중복 제거: 중복된 데이터를 식별하고 제거하는 과정이 필요합니다.
- 데이터 정리 도구 사용: 데이터 정리를 돕는 다양한 도구를 활용하여 데이터의 일관성을 유지합니다.
클린 데이터와 더티 데이터의 차이점
- 클린 데이터: 정확하고 완전하며 문제 해결에 필요한 모든 정보를 포함합니다. 데이터 분석의 기초가 되며, 결과의 신뢰성을 보장합니다.
- 더티 데이터: 불완전하거나 부정확하며 분석 결과를 왜곡할 수 있습니다. 데이터 무결성을 해치며, 비즈니스 의사결정에 부정적인 영향을 미칠 수 있습니다.
정리 과정에서 발생하는 문제와 해결 방법
- 데이터 불일치: 여러 출처에서 수집된 데이터가 일치하지 않는 경우, 데이터 정규화와 표준화 작업이 필요합니다.
- 데이터 손실: 데이터가 손실되는 경우, 데이터 복구 및 백업 전략을 수립하여 예방할 수 있습니다.
- 시스템 호환성 문제: 다양한 시스템 간의 데이터 호환성 문제를 해결하기 위해 데이터 변환 및 통합 도구를 활용합니다.
클린 데이터의 중요성을 인식하고 효과적으로 관리하면 데이터 분석의 품질을 높일 수 있으며, 비즈니스 성과를 개선하는 데 도움이 됩니다. 데이터 정리와 관련된 기술과 도구에 대해 더 배우고 익혀야 하며, 데이터 무결성을 유지하기 위해 지속적인 노력이 필요합니다.
데이터 정리가 중요한 이유
효과적인 데이터 분석을 위해서는 클린 데이터의 중요성이 강조됩니다. 클린 데이터란, 불완전하거나 부정확한 데이터가 아닌, 정확하고 완전하며 분석에 적합한 데이터를 의미합니다. 반면에 더티 데이터는 데이터에 오류가 있거나, 중복되었거나, 필드가 비어 있는 등 다양한 문제를 가진 데이터를 의미하며, 이러한 데이터는 분석의 정확도를 크게 떨어뜨립니다.
데이터 클리닝의 중요성
데이터 클리닝은 데이터를 분석하기 전에 반드시 거쳐야 하는 과정입니다. 더티 데이터는 회사에 금전적인 손실을 초래하거나, 분석 결과의 신뢰성을 떨어뜨려 비즈니스 결정에 악영향을 미칠 수 있습니다. 따라서 데이터 클리닝은 이를 닦는 것과 같이 필수적이며, 정기적으로 수행해야 하는 작업입니다. 데이터 클리닝이 습관이 되면, 이를 자연스럽게 수행하게 되어 장기적으로 더 효율적이고 신뢰성 있는 데이터를 유지할 수 있습니다.
데이터 클리닝의 과정
- 중복 제거: 데이터에서 동일한 항목이 반복해서 나타나는 경우 중복을 제거해야 합니다. 예를 들어, 사용자 수를 파악할 때, 동일한 사용자가 여러 계정을 가지고 있는 경우 이를 감안하여 중복된 데이터를 제거해야 정확한 사용자를 파악할 수 있습니다.
- 누락된 데이터 처리: 데이터 세트에서 null 값이 있는 경우, 이를 어떻게 처리할지 결정해야 합니다. null은 데이터가 존재하지 않음을 의미하며, 이를 필터링하여 제거하거나 그대로 둔 채 분석에서 고려할 수 있습니다. 예를 들어, 설문 조사에서 null 값이 있다면, 이는 고객이 특정 질문에 응답하지 않았음을 의미하며, 이러한 정보를 분석에 반영할 수 있습니다.
데이터 애널리스트의 역할과 협업
데이터 애널리스트는 데이터 클리닝뿐만 아니라, 데이터 엔지니어와 데이터 웨어하우징 전문가와 협업하여 데이터를 관리하고 분석합니다.
- 데이터 엔지니어는 데이터를 변환하고, 안정적인 데이터 인프라를 구축하여 분석하기 쉬운 형식으로 제공합니다.
- 데이터 웨어하우징 전문가는 데이터를 안전하게 저장하고 구성하여, 필요한 시점에 적절한 데이터를 쉽게 찾을 수 있도록 돕습니다.
이들과의 협업을 통해 데이터 애널리스트는 더 나은 데이터로 작업할 수 있게 되며, 이를 통해 보다 정확한 분석을 수행할 수 있습니다.
데이터 분석을 성공적으로 수행하기 위해서는 데이터 클리닝이 필수적이며, 이를 통해 더티 데이터를 클린 데이터로 변환할 수 있습니다. 또한, 데이터 엔지니어 및 데이터 웨어하우징 전문가와의 협업을 통해 데이터의 품질을 높이고, 분석 결과의 신뢰성을 확보할 수 있습니다. 데이터 애널리스트로서 데이터 클리닝의 중요성을 이해하고, 이를 습관화하여 데이터를 정리하는 데 시간을 들인다면, 더욱 효과적인 분석을 수행할 수 있을 것입니다.
더티 데이터란?
앞에서 더티 데이터가 불완전하거나, 부정확하거나, 해결하려는 문제와 관련이 없는 데이터라고 이야기했습니다. 이 읽기 자료에서는 다음을 요약하여 설명합니다.
- 발생할 수 있는 더티 데이터의 유형
- 더티 데이터가 되는 원인
- 더티 데이터가 비즈니스에 해로운 이유
더티 데이터의 유형
중복 데이터
여러 번 나타나는 모든 데이터 레코드 | 데이터 수동 입력, 데이터 일괄 가져오기 또는 데이터 이전 | 왜곡된 측정항목 또는 분석, 부풀려지거나 부정확한 집계 또는 예측, 데이터 검색 시 혼란 |
오래된 데이터
새롭거나 더 정확한 정보로 갱신해야 하는 오래된 데이터 | 직무 전환 또는 이직, 구형 소프트웨어 및 시스템 | 부정확한 인사이트, 의사결정 및 애널리틱스 |
불완전한 데이터
중요한 필드가 누락된 데이터 | 잘못된 데이터 수집 또는 부정확한 데이터 입력 | 생산성 감소, 부정확한 인사이트, 필수 서비스를 완료하지 못함 |
부정확한 데이터
완전하지만 부정확한 데이터 | 데이터 입력 중 발생한 오류, 허위 정보, 모의 데이터 | 부정확한 인사이트 또는 불량 정보에 기초한 의사결정으로 수익 손실이 초래됨 |
불일치 데이터
같은 내용을 다른 형식으로 보여주는 데이터 | 잘못 저장된 데이터 또는 데이터 전송 중 발생한 오류 | 상충하는 데이터 포인트로 인해 혼란이 발생하거나 고객 분류 또는 세분화가 불가능해짐의료 서비스: 데이터 레코드 중 10%가 중복된 것일 수 있으며 병원 전자건강기록의 경우 최대 20%가 중복된 것으로 추정됩니다(출처). |
더티 데이터가 비즈니스에 미치는 영향
더티 데이터가 비즈니스에 미치는 영향에 관해 자세히 알아보려면 사용 중인 브라우저 검색창에 ‘더티 데이터’를 입력하여 이 주제에 관한 수많은 자료를 볼 수 있습니다. 다음은 특정 산업에 미치는 영향을 이전에 검색하여 찾은 결과입니다.
더티 데이터의 인식과 해결
더티 데이터는 데이터 분석 과정에서 오류를 일으킬 수 있는 잘못된 또는 불완전한 데이터를 의미하며, 이러한 오류를 이해하고 해결하는 것이 데이터 애널리스트에게 매우 중요합니다.
더티 데이터의 유형
- 잘못된 데이터 입력: 잘못된 정보가 입력되어 생기는 오류입니다. 예를 들어, 맞춤법 오류, 구두점 오류, 오타 등이 포함됩니다. 이러한 오류는 데이터의 신뢰성을 떨어뜨릴 수 있으며, 분석 과정에서 잘못된 결과를 초래할 수 있습니다.
- 형식 일관성 문제: 데이터 형식이 일관되지 않을 때 발생합니다. 예를 들어, 같은 데이터 세트 내에서 날짜 형식이 서로 다르거나, 화폐 단위가 혼합되어 사용될 수 있습니다. 이런 경우, 분석 과정에서 데이터를 통합하거나 비교하는 데 어려움이 생깁니다.
- 누락된 데이터 (Null 값): 필드가 비어 있는 경우로, Null 값이 발생할 수 있습니다. Null 값이 많으면 데이터의 완전성이 저하되고, 분석에 영향을 줄 수 있습니다. 특히, 중요한 정보가 누락된 경우, 분석 결과의 신뢰도가 낮아질 수 있습니다.
- 중복 항목: 동일한 데이터가 여러 번 입력되는 경우 중복 항목이 생깁니다. 이는 데이터의 무결성을 해치며, 분석 결과에 오류를 발생시킬 수 있습니다.
- 라벨 지정 오류: 잘못된 라벨이 데이터에 붙여진 경우입니다. 예를 들어, 이미지 데이터에서 '판다'를 '곰'으로 라벨링하는 경우, 이는 분석 결과에 큰 영향을 미칠 수 있습니다.
- 일관성 없는 필드 길이: 필드 길이가 일관되지 않으면 데이터 입력에 오류가 발생할 수 있습니다. 예를 들어, 출생연도를 입력하는 필드의 길이가 4자리로 지정되지 않으면, 데이터 입력 시 잘못된 형식으로 입력될 수 있습니다.
데이터 정리의 중요성
데이터 정리는 분석 업무에서 매우 중요한 부분입니다. 데이터가 정확하고 일관성 있게 정리되어야 분석 결과가 신뢰할 수 있고 유용한 인사이트를 제공할 수 있습니다.
데이터 정리 전략
다음 시간에는 이러한 더티 데이터를 어떻게 정리하고 관리할지에 대한 전략을 배우게 됩니다. 데이터 정리 작업은 데이터의 품질을 높이고, 분석 과정을 원활하게 만들어줍니다. 이를 통해 더 나은 비즈니스 결정을 내릴 수 있게 됩니다.
더티 데이터를 이해하고 이를 해결하는 방법을 배우면, 데이터 분석의 정확도와 효율성을 크게 향상시킬 수 있습니다.
데이터 정리의 시작
데이터 정리 도구와 기법
1. 데이터 백업
- 중요성: 데이터를 정리하기 전에 항상 데이터의 사본을 만들어야 합니다. 원본 데이터를 백업해 두면 실수로 데이터를 삭제하거나 잘못 수정했을 때 복구할 수 있습니다.
2. 중복 데이터 제거
- 문제: 중복된 데이터는 잘못된 결론을 초래할 수 있습니다. 예를 들어, 동일한 회원이 중복되어 입력되면, 총 금액이 잘못 계산될 수 있습니다.
- 해결 방법: 대부분의 스프레드시트 애플리케이션에는 중복 항목을 검색하고 삭제하는 도구가 포함되어 있습니다.
3. 관련 없는 데이터 제거
- 문제: 분석과 무관한 데이터가 포함되어 있으면 혼란을 초래하고 분석 결과에 부정적인 영향을 미칠 수 있습니다.
- 해결 방법: 필요한 데이터와 필요 없는 데이터를 구분한 후, 분석에 불필요한 데이터를 제거합니다.
4. 불필요한 공백과 공란 삭제
- 문제: 불필요한 공백이나 빈 셀이 있으면 데이터 정렬, 필터링, 검색 시 오류가 발생할 수 있습니다.
- 해결 방법: 수동으로 공백을 삭제하거나, 스프레드시트 도구를 사용하여 자동으로 공백을 제거합니다.
5. 텍스트 정리
- 문제: 맞춤법 오류, 대소문자 일관성 문제, 잘못된 구두점, 오타 등은 데이터의 신뢰성을 떨어뜨리고 분석 결과에 부정적인 영향을 미칩니다.
- 해결 방법: 맞춤법 검사, 자동 수정 도구, 조건부 서식 등을 사용하여 텍스트 오류를 수정합니다.
6. 서식 제거
- 문제: 여러 소스에서 데이터를 가져올 때 서식이 일관되지 않을 수 있습니다. 이러한 불일치는 데이터를 시각적으로 정리하기 어렵게 만듭니다.
- 해결 방법: 스프레드시트 애플리케이션에서 제공하는 '서식 지우기' 도구를 사용해 서식을 일관되게 정리합니다.
데이터 정리는 데이터 분석의 기초 작업으로, 분석 결과의 신뢰성을 높이고 오류를 줄이는 데 필수적인 과정입니다. 중복 데이터, 불필요한 데이터, 서식 문제 등을 체계적으로 정리하면 보다 정확한 데이터 기반 결정을 내릴 수 있습니다. 다음 단계에서는 여러 소스에서 가져온 데이터를 효과적으로 정리하는 방법을 알아보겠습니다.
여러 출처의 데이터 정리
데이터 병합의 중요성
데이터 병합은 두 개 이상의 데이터 세트를 하나로 결합하는 과정입니다. 이는 다양한 소스에서 얻은 데이터를 통합하여 보다 풍부하고 유용한 정보를 얻기 위해 필수적입니다. 다음과 같은 이유로 데이터 병합이 필요할 수 있습니다:
- 기업 합병: 두 조직이 합병하여 하나의 새로운 조직으로 통합될 때, 각 조직이 보유한 데이터를 결합해야 합니다. 예를 들어, 두 물류 협회가 합병하여 새로운 협회로 거듭나면, 양쪽의 회원 데이터와 관련 정보를 통합해야 합니다.
- 정보 통합: 여러 소스에서 수집된 데이터를 통합하여 보다 완전하고 정확한 정보를 제공할 수 있습니다. 이는 데이터 분석 및 인사이트 도출에 큰 도움이 됩니다.
- 고객 인사이트 확보: 고객의 구매 패턴을 이해하기 위해 대량의 데이터를 병합함으로써 유용한 인사이트를 얻을 수 있습니다. 예를 들어, 고객의 구매 이력과 구매 위치 데이터를 통합하여 구매 행동을 분석할 수 있습니다.
데이터 병합의 문제점
데이터 병합 과정에서 발생할 수 있는 일반적인 문제는 다음과 같습니다:
- 데이터 일관성 부족: 서로 다른 데이터 세트에서 데이터의 형식이나 구조가 다를 수 있습니다. 예를 들어, 주소 정보가 서로 다른 열에 저장되어 있거나, 회원 ID가 다른 형식으로 저장되어 있을 수 있습니다. 이러한 차이는 데이터 병합을 복잡하게 만들 수 있습니다.
- 중복 데이터: 서로 다른 데이터 세트에서 동일한 정보가 중복될 수 있습니다. 예를 들어, 동일한 회원의 정보가 두 개의 데이터 세트에 각각 저장되어 있을 수 있습니다. 중복 데이터를 제거하지 않으면 분석 결과가 왜곡될 수 있습니다.
- 데이터 불일치: 데이터 세트 간의 정보 표현 방식이 다를 수 있습니다. 예를 들어, 회원 등급이 다른 명칭으로 저장되어 있을 수 있으며, 이를 통합하는 과정에서 일관성을 유지해야 합니다.
데이터 정리를 위한 질문
데이터 애널리스트는 데이터 세트를 병합하기 전에 다음과 같은 질문을 고려해야 합니다:
- 필요한 데이터 확보 여부: 데이터 병합에 필요한 모든 데이터가 확보되었는지 확인합니다. 예를 들어, 고객의 구매 정보를 분석하기 위해 고객, 구매 품목, 구매 위치 등의 데이터가 필요한지 점검합니다.
- 데이터 세트의 유용성: 수집된 데이터 세트에 분석에 필요한 정보가 포함되어 있는지 확인합니다. 데이터의 전체적 맥락과 데이터 스키마를 이해하여 분석 가능한 데이터를 확보하는 것이 중요합니다.
- 데이터 정리 필요성: 데이터 세트가 정리가 필요한지, 아니면 사용할 준비가 되었는지 판단합니다. 데이터 세트가 정리가 필요한 경우, 다음과 같은 세부 사항을 점검합니다:
- 기준의 일관성: 여러 데이터 세트가 동일한 기준으로 정리되었는지 확인합니다.
- 반복되는 필드: 반복되는 필드가 있는지 확인하고 처리 방법을 결정합니다.
- 누락된 값: 누락된 값이 어떻게 처리될 것인지 계획합니다.
- 최종 업데이트: 데이터의 마지막 업데이트 시점을 확인하여 최신 데이터를 사용하는지 확인합니다.
도구와 기술
데이터 애널리스트는 데이터 세트를 정리하고 병합하기 위해 다양한 도구를 사용할 수 있습니다:
- 스프레드시트 도구: Excel이나 Google Sheets와 같은 스프레드시트 도구를 사용하여 데이터를 정리하고 병합할 수 있습니다. 이러한 도구는 데이터 필터링, 정렬, 병합 기능을 제공합니다.
- SQL 쿼리: SQL 쿼리를 사용하여 데이터베이스에서 데이터를 추출하고 병합하는 작업을 수행할 수 있습니다. SQL은 복잡한 데이터 병합 작업을 수행하는 데 유용한 도구입니다.
- 프로그래밍 언어: R과 같은 프로그래밍 언어는 데이터 정리에 매우 유용합니다. R은 데이터 프레임을 조작하고, 데이터 정리와 분석을 수행하는 데 강력한 기능을 제공합니다.
데이터 애널리스트가 데이터를 병합하고 정리하는 과정은 매우 중요합니다. 데이터 병합을 통해 다양한 소스에서 얻은 데이터를 통합하여 더 유용한 정보를 제공하고, 데이터의 일관성과 정확성을 보장하는 것이 필요합니다. 데이터 정리를 위해서는 적절한 도구와 기술을 선택하고, 데이터를 체계적으로 분석하여 병합 과정에서 발생할 수 있는 문제를 해결해야 합니다. 이 과정에서 스프레드시트 도구, SQL 쿼리, 프로그래밍 언어 등을 활용하여 데이터 분석에 적합한 상태로 데이터를 준비할 수 있습니다.
데이터 정리와 관련한 일반적인 실수
이 읽기 자료에서는 데이터 정리의 중요성과 일반적인 실수를 파악하는 방법을 배웁니다. 데이터를 정리하는 과정에서 아래와 같은 오류를 저지를 수 있습니다.
피해야 할 일반적인 실수
- 맞춤법 오류를 확인하지 않음: 잘못 타이핑하거나 입력하여 맞춤법 오류가 발생할 수 있습니다. 대체로 잘못된 맞춤법이나 일반적인 문법 오류는 발견하기 쉽지만, 이름이나 주소의 오류는 발견하기 어렵습니다. 예를 들어 스프레드시트 테이블로 고객 데이터 작업을 하는데 ‘John’이라는 고객 이름이 어떤 곳에는 ‘Jon’으로 잘못 입력된 경우가 있을 수 있습니다. 스프레드시트의 맞춤법 검사 기능은 이러한 오류를 잡아내지 못합니다. 애널리스트가 직접 점검하여 맞춤법 오류를 찾지 못하면 분석 결과가 잘못될 수 있습니다.
- 오류를 문서화하는 것을 잊음: 오류를 문서화하면 시간을 크게 절약할 수 있습니다. 오류의 해결 방법을 기록해두면 향후에 동일한 오류를 피하는 데 도움이 되기 때문입니다. 예를 들어 스프레드시트 수식에서 오류가 발견될 수 있습니다. 애널리스트가 스프레드시트의 한 열에서 일부 날짜 형식이 잘못 지정된 것을 알아냅니다. 이때 수정한 방법을 기록해두면 다음번에 수식이 깨졌을 때 쉽게 문제를 해결할 수 있습니다. 오류를 문서화하면 작업의 변경사항을 파악할 수 있으므로 기록해둔 수정 방법이 통하지 않을 때 역추적하는 것도 가능합니다.
- 잘못된 필드 값을 확인하지 않음: 값을 잘못된 필드에 입력하면 잘못된 필드 값 오류가 발생하게 됩니다. 그러나 값의 형식은 올바를 수 있으므로 주의하지 않으면 잡아내기 어렵습니다. 예를 들어 도시 열과 국가 열이 있는 데이터 세트를 생각해봅시다. 이 경우 데이터 유형이 동일하기 때문에 혼동하기 쉽습니다. 국가 열에서 '스페인'이 들어간 인스턴스를 모두 찾아야 하는데 '스페인'이 도시 열에 잘못 입력되어 있다면 애널리스트는 핵심 데이터 포인트를 놓치게 됩니다. 데이터가 올바르게 입력되었는지 확인하는 것은 정확하고 완전한 분석의 핵심입니다.
- 누락된 값을 간과함: 데이터 세트에 값이 누락되면 오류가 발생하고 부정확한 결론을 얻게 됩니다. 예를 들어 최근 3개월간의 총판매 건수를 구해야 하는데 일주일 치 거래가 누락되어 있다면 계산이 부정확해집니다. 데이터의 완전성과 일관성을 유지하여 최대한 정리된 상태로 데이터를 관리하는 것이 좋습니다.
- 일부 데이터만 확인함: 데이터를 정리할 때는 관련된 모든 데이터를 고려해야 합니다. 이렇게 하면 데이터의 전체 맥락을 이해할 수 있고 발생 가능한 모든 오류에 주의를 기울이는 데도 도움이 됩니다. 예를 들어 여러 출처에서 가져온 철새의 이동 패턴에 관한 데이터로 작업을 하는데 한 출처의 데이터만 정리한다면 일부 데이터가 중복된 것을 모르고 넘어갈 수도 있습니다. 이렇게 되면 나중에 분석에서 문제가 생길 수 있습니다. 중복 데이터와 같은 일반적인 오류를 피하려면 모든 데이터 필드에 똑같이 주의를 기울여야 합니다.
- 비즈니스 목표를 놓침: 데이터를 정리하다 보면 데이터 세트에 관한 새롭고 흥미로운 사실을 알게 될 수 있습니다. 하지만 그로 인해 지금 하는 작업에 집중하지 못하는 상황은 피해야 합니다. 예를 들어 날씨 데이터를 사용해 도시의 평균 강우 일수를 찾으려다가, 흥미로운 강설 패턴까지 발견할 수도 있습니다. 매우 흥미로운 데이터지만 애초에 목표로 한 업무와는 관련이 없습니다. 호기심을 품는 것은 좋지만 눈 앞의 업무에 계속 집중해야 합니다.
- 오류의 근본 원인을 해결하지 않음: 오류 자체를 수정하는 일은 중요합니다. 하지만 그 오류가 더 큰 문제의 일부라면 문제의 원인을 찾아야 합니다. 원인을 찾지 못하면 같은 오류를 계속 반복해서 수정해야 합니다. 예를 들어 모든 팀원의 업무 진행 상황을 추적하는 팀 스프레드시트가 있다고 가정합시다. 그런데 여러 명이 서로 다른 값을 입력하다 보니 표가 자꾸 깨집니다. 문제가 생길 때마다 하나씩 계속 수정할 수도 있지만, 팀원 모두가 업무 진행 상황을 알 수 있도록 표의 데이터 입력 방식을 간소화하는 방법도 있습니다. 데이터 오류의 근본 원인을 해결하면 장기적으로 많은 시간이 절약됩니다.
- 데이터 정리에 앞서 시스템을 분석하지 않음: 데이터를 정리하고 오류 발생을 막으려면 더티 데이터가 생기는 근본 원인을 알아야 합니다. 자동차 정비사라면 차를 수리하기 전에 먼저 문제의 원인부터 찾을 것입니다. 데이터도 마찬가지입니다. 먼저 오류의 발생 원인을 찾아야 합니다. 데이터 입력 실수로 인한 것인지, 맞춤법 검사를 설정하지 않아서인지, 형식을 지정하지 않아서인지, 중복 때문인지를 말입니다. 이렇게 불량 데이터의 원인을 이해하고 나면 원인을 통제하여 데이터를 정리된 상태로 유지할 수 있습니다.
- 데이터를 백업하지 않고 정리함: 데이터 정리를 시작하기 전에 예방 차원에서 항상 데이터를 백업하는 것이 좋습니다. 프로그램이 충돌하거나 변경으로 인해 데이터 세트에 문제가 생기더라도 언제든지 저장된 버전으로 돌아가 복원할 수 있기 때문입니다. 간단한 데이터 백업 절차로 작업 시간을 크게 절약하는 것은 물론, 무엇보다 골치 아픈 상황을 피할 수 있습니다.
- 마감/진행 일정에 데이터 정리 과정을 고려하지 않음: 모든 일에는 시간이 걸립니다. 데이터 정리도 마찬가지입니다. 업무를 진행하고 마감일을 확인할 때 이 점을 염두에 두어야 합니다. 데이터 정리 시간을 확보해두면 이해관계자에게 예상 완료 시간(ETA)을 더 정확하게 예측해줄 수 있으며, 언제 ETA 조정을 요청해야 하는지도 파악할 수 있습니다.
추가 리소스
Microsoft Excel 및 Google Sheets의 데이터 정리와 관련하여 가장 일반적인 실수를 피할 수 있는 ‘10가지 도움말’ 목록을 참고해주세요.
- 데이터를 정리하는 10가지 주요 방법: Microsoft Excel에서 데이터를 정리하는 방법이 잘 설명된 가이드입니다.
- 데이터 정리를 위한 10가지 Google Workspace 도움말: Google Sheets에서 데이터를 정리하는 가장 좋은 방법을 배워보세요.
스프레드 시트에서 데이터 정리
스프레드시트의 데이터 정리 기능
주요 스프레드시트 도구 및 기능
- 조건부 서식 (Conditional Formatting)
- 기능: 셀의 값이 특정 조건에 맞을 때 셀의 표시 방식(색상, 폰트 등)을 자동으로 변경합니다. 이는 특정 데이터 포인트를 강조하거나 조건에 맞지 않는 데이터를 시각적으로 표시하여 분석을 용이하게 합니다.
- 사용법:
- 서식이 적용될 셀 범위를 선택합니다.
- 'Format' 메뉴에서 'Conditional formatting'을 선택합니다.
- 서식 규칙을 설정하고, 예를 들어 빈 셀을 강조할 경우 'Format cells if' 옵션에서 'Is empty'를 선택합니다.
- 서식 스타일을 선택하여 빈 셀을 눈에 띄게 표시합니다.
- 'Done'을 클릭하여 조건부 서식을 적용합니다.
- 중복 항목 삭제 (Remove Duplicates)
- 기능: 스프레드시트에서 중복된 데이터를 자동으로 검색하고 삭제합니다. 중복 데이터가 있을 경우 이를 정리하여 데이터의 정확성을 높이는 데 유용합니다.
- 사용법:
- 중복 항목을 제거할 데이터 범위를 선택합니다.
- 'Data' 메뉴에서 'Remove duplicates'를 선택합니다.
- 'Data has header row' 옵션을 선택하여 데이터의 맨 위에 헤더가 있는 경우를 고려합니다.
- 중복 항목을 검사할 열을 선택하고 'Remove duplicates'를 클릭합니다.
- 중복된 행이 삭제됩니다.
- 날짜 서식 지정 (Date Formatting)
- 기능: 날짜 데이터의 서식을 일관되게 맞추어 혼란을 줄이고, 분석의 일관성을 유지합니다.
- 사용법:
- 날짜 서식을 수정할 열을 선택합니다.
- 'Format' 메뉴에서 'Number'를 선택한 후 'Date'를 선택합니다.
- 날짜가 표준화된 형식으로 표시됩니다.
- 텍스트 문자열과 하위 문자열 수정 (Text String and Substring Modification)
- 기능: 셀에 있는 텍스트 문자열을 수정하거나 필요한 하위 문자열을 추출합니다. 텍스트의 길이나 형식에 따라 데이터를 가공할 수 있습니다.
- 사용법:
- 하위 문자열 추출: 특정 위치에서 시작하는 부분 문자열을 추출하는 기능을 사용합니다.
- 텍스트를 열로 분할 (Split Text to Columns)
- 기능: 셀 안에 있는 텍스트 문자열을 지정된 구분자를 기준으로 나누어 여러 개의 셀로 분리합니다. 예를 들어, 이름과 성, 주소의 여러 구성 요소를 분리할 때 유용합니다.
- 사용법:
- 분할할 텍스트가 포함된 열을 선택합니다.
- 'Data' 메뉴에서 'Split text to columns'을 선택합니다.
- 자동으로 구분자가 감지되거나 직접 구분자를 설정하여 텍스트를 분리합니다.
- 텍스트가 분리되어 각각의 셀에 표시됩니다.
- 숫자로 변환하기 (Convert Text to Numbers)
- 기능: 텍스트로 저장된 숫자를 실제 숫자로 변환하여 계산 및 분석에 사용할 수 있도록 합니다.
- 사용법:
- 텍스트 형식으로 저장된 숫자가 있는 셀 범위를 선택합니다.
- 'Split text to columns'을 사용하여 텍스트가 숫자로 간주되도록 수정합니다.
실전 예시
- 조건부 서식: 빈 셀을 강조표시하여 데이터 누락을 쉽게 찾을 수 있습니다.
- 중복 항목 삭제: 데이터베이스에서 중복된 회원 정보를 제거하여 데이터의 정확성을 높입니다.
- 날짜 서식 지정: 날짜 형식이 일관되지 않은 경우, 이를 통일하여 분석의 일관성을 유지합니다.
- 텍스트를 열로 분할: 회원 수료증 목록을 쉼표를 기준으로 나누어 각 수료증을 별도의 열로 분리합니다.
- 숫자로 변환하기: 숫자처럼 보이지만 텍스트 형식으로 저장된 값을 숫자로 변환하여 수치 계산이 가능하게 합니다.
스프레드시트 도구는 데이터 정리 및 분석에서 중요한 역할을 합니다. 조건부 서식, 중복 삭제, 날짜 서식 지정, 텍스트 문자열 수정 및 분할 도구는 데이터의 품질을 유지하고 분석의 정확성을 높이는 데 필수적입니다. 이러한 도구를 효과적으로 활용하면 데이터 처리 속도를 높이고, 오류를 줄이며, 보다 효율적인 데이터 관리를 할 수 있습니다.
데이터 정리 과정 최적화
1. COUNTIF 함수
COUNTIF 함수는 지정된 조건을 만족하는 셀의 개수를 계산하는 함수입니다. 주로 특정 값의 빈도나 특정 조건에 맞는 셀을 찾는 데 유용합니다.
구문: =COUNTIF(범위, 조건)
사용 예시:
- 음수 또는 예상보다 작은 값 찾기: 협회 멤버십 회비 데이터를 다룰 때, 100달러 미만의 값이 있는지 확인합니다.
- 범위: I2
- 조건: <100
- 함수: =COUNTIF(I2:I72, "<100")
- 예상보다 큰 값 찾기: 최대 회비인 500달러를 초과하는 값을 찾습니다.
- 범위: I2
- 조건: >500
- 함수: =COUNTIF(I2:I72, ">500")
2. LEN 함수
LEN 함수는 텍스트 문자열의 길이, 즉 문자 개수를 계산합니다. 특정 길이의 데이터가 필요한 경우 유용합니다.
구문: =LEN(텍스트)
사용 예시:
- 회원 ID 길이 확인: 모든 회원 ID가 6자리인지 확인합니다.
- 범위: A2
- 함수: =LEN(A2)
- 서식 규칙: 값이 6이 아닌 셀 강조
- 조건부 서식을 사용하여 6자리 이외의 값을 강조 표시할 수 있습니다.
3. LEFT 및 RIGHT 함수
LEFT 함수는 텍스트 문자열의 왼쪽에서 지정된 개수의 문자를 반환하고, RIGHT 함수는 오른쪽에서부터 지정된 개수의 문자를 반환합니다.
LEFT 함수 구문: =LEFT(텍스트, 개수)
RIGHT 함수 구문: =RIGHT(텍스트, 개수)
사용 예시:
- LEFT 함수: 제품 코드의 숫자 부분 추출
- 범위: A2
- 함수: =LEFT(A2, 5)
- RIGHT 함수: 제품 코드의 문자 식별자 추출
- 범위: A2
- 함수: =RIGHT(A2, 4)
4. MID 함수
MID 함수는 텍스트 문자열의 중간에서 지정된 위치부터 특정 개수의 문자를 추출합니다.
구문: =MID(텍스트, 시작위치, 개수)
사용 예시:
- 주 약자 추출: 고객 코드에서 주 약자 추출
- 범위: D2
- 함수: =MID(D2, 4, 2)
5. CONCATENATE 함수
CONCATENATE 함수는 두 개 이상의 텍스트 문자열을 결합합니다. 여러 텍스트 값을 하나의 셀에 결합할 때 유용합니다.
구문: =CONCATENATE(텍스트1, 텍스트2, ...)
사용 예시:
- 제품 코드 결합: LEFT와 RIGHT 함수로 추출한 텍스트 문자열을 결합하여 전체 제품 코드 생성
- 범위: H2, I2
- 함수: =CONCATENATE(H2, I2)
6. TRIM 함수
TRIM 함수는 텍스트 문자열의 앞뒤 및 중간에 있는 불필요한 공백을 제거합니다. 데이터 정리와 검색에 유용합니다.
구문: =TRIM(텍스트)
사용 예시:
- 불필요한 공백 제거: 고객 이름에서 불필요한 공백 제거
- 범위: C2
- 함수: =TRIM(C2)
COUNTIF 함수는 특정 조건을 만족하는 셀의 개수를 계산하고, LEN 함수는 문자열의 길이를 확인하며, LEFT와 RIGHT 함수는 문자열의 특정 부분을 추출합니다. MID 함수는 문자열의 중간 부분을 추출하고, CONCATENATE 함수는 여러 문자열을 결합합니다. 마지막으로, TRIM 함수는 불필요한 공백을 제거합니다. 이러한 함수들을 적절히 활용하면 데이터를 보다 정확하고 체계적으로 관리할 수 있습니다.
워크플로 자동화
이 읽기 자료에서는 워크플로 자동화에 대해 알아보고, 워크플로 자동화를 이용하여 작업의 속도와 효율성을 높이는 방법을 배웁니다. 기본적으로 워크플로 자동화란 작업의 일부를 자동화하는 과정입니다. 예를 들어 시스템이 업데이트될 때 알림을 보내도록 이벤트 트리거를 만드는 것도 일종의 자동화입니다. 데이터 정리 과정의 일부를 자동화하는 것도 여기에 해당됩니다. 작업의 여러 부분을 자동화하면 당연히 시간이 크게 절약되고 생산성이 높아지며, 다른 중요한 업무에 집중할 수 있는 시간적 여유를 얻을 수 있습니다.
자동화가 가능한 업무
자동화라니, 정말 좋을 것 같지 않나요? 그러나 자동화의 편리함에도 불구하고 모든 업무를 자동화할 수는 없습니다. 자동화할 수 있는 업무와 그럴 수 없는 업무를 살펴봅시다.
팀원 및 이해관계자와의 소통 | 불가능 | 작업을 진행하고 완료하는 과정에서 팀과 이해관계자의 요구사항을 이해하기 위한 핵심은 소통입니다. 사람과 사람 사이의 소통을 대체할 수 있는 것은 없습니다. |
조사 결과 프레젠테이션 | 불가능 | 프레젠테이션은 데이터 애널리스트 업무에서 중요한 부분입니다. 이해관계자가 쉽게 활용하고 이해할 수 있도록 데이터를 처리하고 시각 자료를 작성하는 일은 소통을 자동화할 수 없는 것과 마찬가지로 자동화가 불가능합니다. |
데이터 준비 및 정리 | 부분적으로 가능 | 일부 데이터 준비 및 정리 작업은 특정한 과정을 설정하여 자동화할 수 있습니다. 예를 들어, 프로그래밍 스크립트를 사용하여 누락된 값을 자동으로 검색할 수 있습니다. |
데이터 탐색 | 부분적으로 가능 | 데이터를 눈으로 보는 것이 데이터를 이해하는 가장 좋은 방법인 경우도 있습니다. 다행히 데이터 시각화 과정을 자동화하는 도구가 많이 출시되어 있습니다. 이러한 도구를 사용하면 데이터 시각화 및 이해 과정을 빠르게 처리할 수 있습니다. 그러나 데이터를 탐색하는 과정은 데이터 애널리스트가 직접 해야 합니다. |
데이터 모델링 | 가능 | 데이터 모델링은 다양한 요인이 관련된 어려운 과정입니다. 다행히도 모델링의 여러 단계를 완전히 자동화할 수 있는 도구가 있습니다. |
데이터 정리 자동화에 관한 추가 정보
데이터 정리를 간소화하는 가장 중요한 방법 중 하나는 데이터가 있는 위치에서 데이터를 정리하는 것입니다. 이렇게 하면 팀 전체에 도움이 되며 같은 과정을 계속 반복할 필요가 없습니다. 예를 들어 특정 폴더에 저장된 각 스프레드시트 파일의 단어 수를 계산하는 프로그래밍 스크립트를 생성할 수 있습니다. 데이터가 저장된 위치에서 사용 가능한 도구를 사용하면 정리 단계를 반복할 필요가 없으므로 팀 전체의 시간과 에너지가 절약됩니다.
추가 리소스
데이터 애널리스트의 업무를 자동화할 수 있는 도구는 아주 많이 나와 있으며 끊임없이 개선되고 있습니다. 워크플로 자동화와 사용 가능한 여러 도구에 관해 더 알아보고 싶다면 다음 자료와 블로그를 확인해보세요.
- Towards Data Science의 Automating Scientific Data Analysis
- MIT News의 Automating Big-Data Analysis
- TechnologyAdvice의 10 of the Best Options for Workflow Automation Software
자동화는 데이터 애널리스트의 시간과 에너지를 대폭 절약해주며 따라서 애널리스트는 프로젝트의 다른 부분에 더 집중할 수 있게 됩니다. 분석 경험이 쌓일수록 과정을 단순화하고 간소화하는 방법을 더 많이 찾아내게 될 것입니다.
데이터를 바라보는 다양한 관점
데이터 정리 및 분석 도구
- 정렬 (Sorting)
- 목적: 데이터를 의미 있는 순서로 정렬하여 쉽게 파악하고 분석하는 데 도움을 줍니다.
- 사용 예: 알파벳 순서나 숫자 순서로 데이터를 정렬하면 원하는 데이터를 더 쉽게 찾을 수 있으며, 중복 항목이 가까이 배치되어 빠르게 확인할 수 있습니다.
- 필터링 (Filtering)
- 목적: 특정 정보를 찾기 위해 데이터를 정리하고 나머지 데이터를 숨깁니다.
- 사용 예: 특정 값 이상의 데이터만 찾거나, 짝수 혹은 홀수 값만을 추출하여 필요한 정보만을 신속하게 찾을 수 있습니다. 필터링을 통해 데이터의 효율성을 높일 수 있습니다.
- 피벗 테이블 (Pivot Table)
- 목적: 데이터베이스의 데이터를 요약, 재구성, 그룹화, 집계, 합산, 평균을 구하는 도구입니다.
- 사용 예: 예를 들어, 화장품 제조사의 스프레드시트에서 피벗 테이블을 사용하여 가장 수익성 높은 제품을 시각화하고 분석할 수 있습니다. 특정 수익 이상의 제품만을 추출하여 정리하는 데 유용합니다.
- VLOOKUP 함수
- 목적: 세로 방향 조회를 통해 특정 값을 검색하고 필요한 정보를 반환합니다.
- 사용 예: 여러 시트나 데이터베이스에서 필요한 정보를 검색할 때 사용됩니다. VLOOKUP 함수의 기본 구문은 =VLOOKUP(찾을 값, 데이터 범위, 반환할 값의 열 번호, 정확한 일치 여부)로 설정됩니다. 예를 들어, 특정 제품 코드를 입력하여 관련 데이터를 찾아낼 때 유용합니다.
- 플로팅 (Plotting)
- 목적: 그래프, 차트, 표 등을 통해 데이터를 시각화하여 데이터의 양상이나 특이점을 빠르게 파악하는 데 도움을 줍니다.
- 사용 예: 가격 데이터의 오류를 찾기 위해 차트를 생성하여 시각적으로 데이터의 왜곡이나 특이점을 발견할 수 있습니다. 예를 들어, 가격이 잘못 기입된 항목을 차트를 통해 쉽게 확인할 수 있습니다.
실습 예시
- 피벗 테이블 생성하기
- 스프레드시트에서 전체 데이터를 선택하고 ‘Data’ 메뉴에서 ‘Pivot table’을 선택하여 새로운 시트를 생성합니다.
- 데이터의 총수익을 기준으로 정렬하여 가장 수익성 높은 제품을 파악합니다. 예를 들어, 수익이 $10,000 이상인 제품만을 표시하도록 필터링하고, 수익성이 높은 제품의 코드와 정보를 확인합니다.
- VLOOKUP 함수 사용하기
- 제품 코드와 관련된 정보를 찾기 위해 VLOOKUP 함수를 사용하여, 다른 시트에서 제품 코드를 검색하고 해당 제품의 세부 정보를 반환합니다.
- 데이터 플로팅
- 가격 열을 선택하고 ‘Insert’ 메뉴에서 ‘Chart’를 선택하여 가격 데이터의 차트를 생성합니다. 이를 통해 가격 데이터의 오류를 시각적으로 확인하고 수정할 수 있습니다.
데이터 애널리스트는 다양한 도구와 기법을 활용하여 데이터를 효율적으로 정리하고 분석합니다. 정렬, 필터링, 피벗 테이블, VLOOKUP 함수, 플로팅을 통해 데이터를 체계적으로 관리하고 필요한 인사이트를 도출할 수 있습니다. 이러한 도구들은 데이터의 양상과 문제점을 빠르게 파악하는 데 도움을 주며, 데이터 기반 의사결정을 지원합니다. 다음 시간에는 이러한 기법을 실습을 통해 더 철저히 익히고, 데이터 정리를 위한 추가 전략을 배워보겠습니다.
더 많은 데이터 정리 기법
데이터 매핑의 중요성
- 데이터 호환성 보장:
- 호환성이란 두 개 이상의 데이터 세트가 얼마나 잘 맞물려 작동하는지를 나타냅니다. 데이터 매핑을 통해 서로 다른 시스템 간의 데이터 호환성을 보장합니다.
- 예를 들어, 한 스프레드시트에서는 "메릴랜드"를 "Maryland"로, 다른 스프레드시트에서는 "MD"로 표기할 수 있습니다. 데이터 매핑은 이러한 차이를 확인하고 조정하여 데이터를 올바르게 결합하거나 이동할 수 있게 합니다.
- 데이터 이동과 통합:
- 데이터 매핑의 첫 단계는 이동할 데이터를 파악하는 것입니다. 이는 표와 필드를 포함하여, 데이터의 목적지와 서식을 정의하는 과정입니다.
- 예를 들어, 물류 협회 합병 사례에서 회원 ID 데이터를 이동할 때, 숫자 형태로 할지, 이메일 주소로 할지를 결정합니다.
- 스키마와 키 개념 이해:
- 스키마는 데이터베이스의 구조를 설명합니다.
- 기본 키는 각 데이터 항목을 고유하게 식별하는 열을 말하며, 외래 키는 다른 테이블의 기본 키를 참조하는 필드입니다.
- 데이터 매핑은 이러한 기본 키와 외래 키를 고려하여 데이터 간의 관계를 유지합니다.
데이터 매핑 소프트웨어와 도구
- 자동화된 데이터 매핑 도구:
- 데이터 매핑 소프트웨어는 필드별 분석을 통해 데이터를 자동으로 정리하고 매칭하며 검증합니다.
- 이 도구들은 Excel, SQL, Tableau 파일 등 다양한 형식을 지원해야 하며, 데이터의 일관성을 보장하는 명명 규칙을 생성합니다.
- 수동 데이터 매핑:
- 데이터를 수동으로 매핑할 때는 올바른 서식을 정의하고, CONCATENATE 함수 등을 사용하여 데이터를 결합할 수 있습니다.
- 예를 들어, 주소 목록을 일관된 형식으로 만들기 위해 CONCATENATE 함수를 사용하여 새 열을 추가합니다.
데이터 검증 및 테스트
- 테스트 단계:
- 데이터 매핑의 테스트 단계에서는 샘플 데이터를 검사하여 데이터 정리와 서식이 적절한지 확인합니다.
- 데이터 검증, 조건부 서식, COUNTIF 함수, 정렬 및 필터링 도구를 사용하여 데이터를 검토합니다.
- 에러 방지:
- 데이터 매핑을 통해 발생할 수 있는 사소한 실수는 조직 전체에 영향을 미칠 수 있으며, 반복적인 오류를 초래할 수 있습니다.
- 데이터 매핑을 잘 활용하면 데이터의 이동과 통합 과정에서 위기 상황을 예방할 수 있습니다.
데이터 매핑은 데이터 애널리스트가 데이터의 이동과 통합을 정확하게 수행하기 위한 필수 과정입니다. 데이터가 여러 시스템을 통해 이동하는 과정에서 호환성과 일관성을 보장하고, 데이터의 품질을 유지하는 데 중요한 역할을 합니다. 데이터 매핑을 통해 데이터를 잘 정리하고, 검증하며, 분석에 적합한 형태로 변환함으로써 데이터 분석의 정확성과 신뢰성을 높일 수 있습니다.
이 과정을 통해 데이터 애널리스트는 데이터의 흐름과 진화를 명확하게 이해하고, 문제를 사전에 예방하며, 보다 신뢰할 수 있는 데이터 기반 의사결정을 내릴 수 있게 됩니다.
학습 기록: 데이터 정리 접근법 발전시키기
개요
이제 여러분도 실제 데이터로 작업을 시작했을 것입니다. 그리고 더티 데이터가 꽤 많다는 사실도 깨달았을 것입니다. 기본적으로 원시 데이터는 불완전하다고 생각하면 됩니다. 이 학습 기록에서는 데이터 정리에 대한 접근법을 발전시킵니다. 이를 위해 정리 체크리스트를 만들고, 선호하는 데이터 정리 방법을 생각해보고, 데이터 정리 신조도 정해보겠습니다. 학습 기록을 작성하고 나면 데이터 정리 과정에 체계적으로 접근하는 방법을 더 잘 이해할 수 있게 됩니다. 앞으로 데이터 정리에 걸리는 시간을 절약하고 데이터를 잘 정리된 가용 상태로 유지하는 데 도움이 되기를 바랍니다.
데이터 정리 접근법 표 채우기
주니어 데이터 애널리스트에게 데이터 정리가 어려운 이유는 많은 시간과 에너지, 관심을 들여야 하기 때문입니다. 잘못된 데이터 정리에 따른 부정적인 영향을 줄이는 가장 좋은 방법은 구체적인 데이터 정리 방식이나 행동 계획을 마련해 두는 것입니다.
자신만의 접근방식을 발전시킬 수 있도록 이 학습 기록의 안내를 참고하여 학습 기록 템플릿에 있는 데이터 정리 접근법 표를 채워보세요. 템플릿의 표는 다음과 같은 모양으로 되어 있습니다.
데이터 정리 접근법 표를 완성했다면 이제 잠깐 동안 데이터 정리 과정과 자신의 접근법을 성찰해봅니다.
학습 기록 액세스
이 강좌 항목의 학습 기록을 확인하려면 아래 링크를 클릭하고 ‘템플릿 사용’을 선택하세요.
학습 기록 템플릿 링크: 데이터 정리 접근법 발전시키기
또는
Google 계정이 없는 경우 아래 첨부된 템플릿 파일을 직접 다운로드하세요.
1단계: 체크리스트 만들기
데이터 정리 과정을 시작하기 전에 사용할 표준 체크리스트를 만들어 데이터 정리에 대한 접근법을 발전시킬 수 있습니다. 이 체크리스트를 기본적인 ‘찾아볼 것’ 목록으로 생각하세요.
좋은 체크리스트가 있다면 딴 길로 새지 않고 효율적이고 신속하게 문제 지점을 파악할 수 있습니다. 데이터 세트 자체의 규모와 범위를 파악하는 데 체크리스트를 활용할 수도 있습니다.
체크리스트에 포함할 수 있는 항목은 다음과 같습니다.
- 데이터 세트의 크기
- 카테고리 또는 라벨의 수
- 누락 데이터
- 형식이 지정되지 않은 데이터
- 여러 데이터 유형
지금까지의 경험을 활용해 체크리스트에 다른 항목을 추가해도 됩니다!
2단계: 선호하는 정리 방법 목록화
자신만의 체크리스트를 만든 후에는 데이터를 정리할 때 수행할 활동 목록을 작성할 수 있습니다. 데이터에 체크리스트와 관련된 특정 문제가 있을 때 또는 새로운 데이터 세트를 정리할 때마다 이 목록의 절차를 사용하게 됩니다.
예를 들어 데이터 세트에 누락된 데이터가 있다면 어떻게 처리하시겠어요? 그 데이터 세트가 매우 크다면 누락된 데이터를 어떻게 검사해야 할까요? 선호하는 데이터 정리 방법을 정리해두면 시간과 에너지를 절약할 수 있습니다.
3단계: 데이터 정리 신조 선택
자신만의 체크리스트와 선호하는 데이터 정리 방법이 준비되었습니다. 이제 데이터 정리 과정을 안내하고 설명하는 데이터 정리 신조를 정할 차례입니다. 신조란 데이터 정리에 대한 여러분의 철학을 짧게 한두 문장으로 요약한 것입니다. 다른 데이터 애널리스트의 데이터 정리 신조를 예로 들면 다음과 같습니다.
- “똑같은 데이터는 없으므로 똑같이 처리하면 안 된다.”
- “계획대로 되지 않는 상황을 미리 대비하고 백업 계획을 세우자.”
- “단순한 문제를 복잡하게 해결하지 말자.”
여러분이 애널리스트로서 다루게 될 데이터는 규모와 관계없이 체크리스트 또는 활동 목록에 부합하지 않을 수 있습니다. 데이터 정리는 복잡한 과정이지만 놀랍게도 대부분의 데이터 문제는 비슷합니다. 확고한 나만의 신조와 해석을 기반으로 삼으면 일반적인 데이터 정리 작업을 쉽게 이해하고 완수할 수 있습니다.
'GCC > 데이터 애널리틱스' 카테고리의 다른 글
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | 정리 결과 검증 및 보고 (2) | 2024.09.06 |
---|---|
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | SQL을 사용한 데이터 정리 (11) | 2024.09.05 |
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | 무결성의 중요성 (0) | 2024.09.03 |
[Coursera Google] GCC 데이터 애널리틱스 : 탐색을 위한 데이터 준비 | 선택사항 : 데이터 커뮤니티 참여 (7) | 2024.09.02 |
[Coursera Google] GCC 데이터 애널리틱스 : 탐색을 위한 데이터 준비 | 데이터 구성 및 보호 (4) | 2024.08.30 |