[Coursera Google] GCC 데이터 애널리틱스 : 탐색을 위한 데이터 준비 | 데이터 구성 및 보호

2024. 8. 30. 13:17GCC/데이터 애널리틱스

728x90
반응형

 

반응형

 

 

 

 

 

 

 

 

효과적인 데이터 구성

데이터 구성

 

자신 있는 데이터 준비

 

데이터 구성 권장사항

데이터를 구성할 때는 다음과 같은 권장사항을 따르는 것이 중요합니다:

  1. 명명 규칙: 명명 규칙은 파일의 이름을 일관되게 지정하는 지침입니다. 파일 이름에 파일의 콘텐츠, 생성 날짜, 버전 등을 포함하여 설명적이고 논리적인 이름을 사용하는 것이 좋습니다. 예를 들어, "2024_06_Invoice_ClientName_V1.xlsx"와 같은 이름은 파일의 내용과 맥락을 명확하게 이해할 수 있게 합니다.
  2. 폴더 분류: 데이터를 폴더로 나누어 조직화하면 관련 파일을 한 곳에 모아두어 쉽게 찾을 수 있습니다. 폴더는 프로젝트나 카테고리별로 나누고, 필요한 경우 하위 폴더를 사용하여 더 세부적으로 분류할 수 있습니다. 예를 들어, "휴가2025" 폴더 안에 "여행 일정", "사진", "비용"과 같은 하위 폴더를 만들어 분류할 수 있습니다.
  3. 오래된 파일 보관: 오래된 프로젝트 파일은 별도의 위치로 이동하거나 보관처리하여 정리하는 것이 좋습니다. 이를 통해 현재 작업 중인 파일과 혼동하지 않고 쉽게 관리할 수 있습니다.
  4. 팀 간 일관성 유지: 업무용 프로젝트의 경우, 팀원 간에 혼란을 피하기 위해 동일한 명명 규칙과 폴더 구조를 사용하는 것이 중요합니다. 이를 위해 프로젝트의 명명 규칙과 구성 방식을 설명하는 문서를 만들어 팀원들이 쉽게 참조할 수 있도록 해야 합니다.
  5. 데이터 중복 방지: 데이터를 여러 위치에 중복 저장하면 데이터 불일치와 같은 문제가 발생할 수 있습니다. 또한, 저장 공간을 낭비할 수 있습니다. 이러한 문제를 방지하기 위해 데이터의 사본을 만들기 전에 데이터베이스나 스프레드시트를 통해 효율적으로 데이터를 관리하고 중복을 최소화해야 합니다.

데이터 구성 방법

데이터를 구성하는 방식은 용도와 목적에 따라 다양할 수 있습니다. 몇 가지 사례를 통해 다양한 데이터 구성 방식을 살펴보겠습니다:

  • 카테고리별 구성: 예를 들어, 'Finances'라는 상위 폴더 아래에 'Budget', 'Invoices', 'Payroll'과 같은 카테고리별 하위 폴더를 만들 수 있습니다. 이 방식은 특정 카테고리에 해당하는 모든 파일을 한 곳에 모아놓기 때문에 관련 파일을 쉽게 찾을 수 있습니다.
  • 시간순 구성: 'Invoices' 폴더 아래에 '2014', '2015'와 같은 연도별 하위 폴더를 만들어 시간순으로 파일을 정리할 수 있습니다. 이 방법은 특정 시점의 데이터를 빠르게 찾고자 할 때 유용합니다.
  • 중요도 및 위치에 따른 구성: 회사에서는 계층 구조에 따라 직원 데이터를 구성하거나, 지리적 위치에 따라 데이터를 구성할 수도 있습니다. 이는 조직의 필요와 데이터의 성격에 따라 최적의 구성을 선택할 수 있도록 합니다.

 

데이터를 잘 구성하는 것은 데이터 관리의 효율성을 높이고 데이터를 사용하는 데 있어 큰 이점을 제공합니다. 이를 통해 데이터에 쉽게 접근하고, 데이터를 효율적으로 사용할 수 있으며, 데이터 품질을 유지하는 데도 도움이 됩니다.

또한, 처음부터 체계적으로 데이터를 구성하면 나중에 데이터를 찾거나 정리할 필요 없이 깨끗하고 정돈된 상태를 유지할 수 있습니다. 이처럼, 데이터를 구성하는 것은 그 자체로 데이터 관리의 핵심이며, 이를 잘 수행하면 업무 효율성을 크게 향상시킬 수 있습니다.

 

 


데이터 구성 지침

이 읽기 자료에는 파일 명명, 구성, 저장을 위한 권장사항이 요약되어 있습니다.

파일 명명 규칙 권장사항

다음의 파일 명명 권장사항을 살펴보세요.

  • 파일 이름을 계속해서 바꾸는 일이 없도록 프로젝트 초기에 파일 명명 규칙을 확인하고 따릅니다.
  • 팀 또는 회사의 기존 파일 명명 규칙에 따라 파일 이름을 지정합니다.
  • 의미 있는 이름이어야 합니다. 용도에 맞게 파일을 빠르게 식별하고 사용하는 데 도움이 될만한 정보와 프로젝트 이름 등을 포함하는 것이 좋습니다.
  • 파일 이름에 날짜와 버전 번호를 포함합니다. 일반적으로 날짜의 경우 YYYYMMDD, 버전(수정본)의 경우 v## 형식을 따릅니다.
  • 파일 명명 규칙의 설명(분류)과 규칙을 적용한 파일 이름을 포함해 샘플 텍스트 파일을 생성합니다.
  • 파일 이름에 공백과 특수문자를 사용하지 않습니다. 공백 대신 대시, 밑줄 또는 대문자를 사용합니다. 공백과 특수문자는 일부 애플리케이션에서 오류를 일으킬 수 있습니다.

파일을 구성된 상태로 유지하기 위한 권장사항

작업하는 파일을 구성된 상태로 유지할 수 있도록 다음 팁을 기억하세요.

  • 논리적인 계층 구조에 따라 폴더와 하위 폴더를 생성하면 관련 파일을 함께 저장할 수 있습니다.
  • 진행 중인 작업과 완료된 작업을 분리하면 현재 프로젝트 파일을 더 쉽게 찾을 수 있습니다. 오래된 파일은 별도의 폴더 또는 외부 저장소에 보관처리합니다.
  • 파일이 자동으로 백업되지 않는 경우 중요한 작업이 손실되지 않도록 자주 수동으로 백업합니다.

 

 


파일 명명에 관한 모든 내용

 

파일 명명 규칙 설정의 중요성

  1. 초기에 규칙 설정: 파일 명명 규칙은 프로젝트 초기에 설정하는 것이 좋습니다. 이렇게 하면 나중에 파일 이름을 변경하는 번거로움과 시간 낭비를 줄일 수 있습니다.
  2. 팀원과 동일한 규칙 사용: 팀 내 모든 구성원이 동일한 파일 명명 규칙을 사용하도록 해야 합니다. 이를 통해 파일을 공유하고 협업할 때 혼란을 줄이고 효율성을 높일 수 있습니다.
  3. 의미 있는 이름 사용: 파일 이름에는 프로젝트 이름, 생성 날짜, 버전 번호, 그리고 파일의 내용을 이해하는 데 도움이 되는 기타 유용한 정보를 포함해야 합니다. 이러한 정보를 포함하면 파일 이름만 보고도 파일의 내용을 쉽게 파악할 수 있습니다.

실용적인 파일 명명 규칙 팁

  • 짧고 명료한 이름 사용: 파일 이름은 너무 길지 않고 간결해야 합니다. 파일 이름은 파일의 콘텐츠를 빠르게 참조할 수 있는 단서 역할을 해야 합니다.
  • 날짜 형식 일관성 유지: 파일 이름에 날짜를 포함할 때는 국제 날짜 형식을 따르는 것이 좋습니다. '연-월-일' 형식으로 작성하면 국가마다 다른 날짜 형식으로 인한 혼란을 방지할 수 있습니다. 예를 들어, 2024년 8월 29일은 2024-08-29로 표기합니다.
  • 버전 번호 표기법: 파일 이름에 버전 번호를 포함할 때는 숫자 앞에 0을 추가하여 두 자리로 표시하는 것이 좋습니다. 예를 들어, 첫 번째 버전은 v01, 두 번째 버전은 v02로 표기합니다. 이렇게 하면 파일이 여러 버전이 될 때도 일관성을 유지할 수 있습니다.
  • 공백 대신 다른 문자 사용: 공백 대신 하이픈(-), 밑줄(_) 또는 대문자 카멜 케이스(CamelCase)를 사용하여 파일 이름을 구성하는 것이 좋습니다. 일부 소프트웨어는 공백이나 특수 문자를 제대로 인식하지 못할 수 있으며, SQL 등에서 작업할 때도 문제가 될 수 있기 때문입니다. 예를 들어, Project_Report_2024-08-29_v01처럼 사용할 수 있습니다.
  • 명명 규칙을 문서화: 프로젝트의 모든 명명 규칙을 나열한 텍스트 파일을 생성하는 것이 좋습니다. 이렇게 하면 새로운 팀원이 합류하거나 작업 중에 규칙을 참조해야 할 때 유용하게 사용할 수 있습니다. 이 텍스트 파일은 규칙을 쉽게 참조할 수 있는 중앙 위치로서의 역할을 합니다.

메타데이터와 파일 명명 규칙

파일 명명 규칙은 메타데이터의 개념과도 밀접하게 연결되어 있습니다. 메타데이터는 데이터의 구조와 내용을 설명하는 정보로, 데이터가 어디에 있는지, 어떻게 조직되어 있는지를 이해하는 데 도움이 됩니다. 마찬가지로, 일관된 파일 명명 규칙을 사용하면 데이터 파일을 쉽게 찾고 사용할 수 있으며, 팀 내에서 데이터가 어떻게 구성되어 있는지에 대한 명확한 이해를 제공할 수 있습니다.

 

효과적인 파일 명명 규칙을 설정하고 유지하는 것은 데이터 관리의 핵심 요소 중 하나입니다. 논리적이고 실용적인 파일 명명 규칙은 데이터를 효율적으로 관리하고, 분석 작업을 간소화하며, 팀 내에서 협업을 촉진하는 데 도움이 됩니다.

 

 

 


데이터 보호

스프레드시트의 보안 기능

 

스프레드시트 보안 기능 개요

스프레드시트 프로그램은 기본적으로 제공하는 보안 기능을 통해 데이터를 보호할 수 있습니다. 이 기능들은 데이터의 무단 접근을 차단하고, 실수로 인한 손상을 방지하는 데 도움이 됩니다. 주요 보안 기능으로는 시트 보호, 액세스 제어, 비밀번호 보호, 데이터 숨기기 등이 있습니다.

  1. 시트 보호 및 편집 제한:
    • Excel과 Google Sheets 모두 특정 셀 또는 전체 워크시트를 잠글 수 있습니다. 이를 통해 공동작업 시 다른 사용자가 실수로 중요한 수식을 변경하는 것을 방지할 수 있습니다.
  2. 비밀번호 보호 및 사용자 권한 설정:
    • Excel: 파일 또는 특정 시트를 암호화하여 보호할 수 있습니다. 이 경우 파일을 열거나 수정하려면 비밀번호가 필요합니다.
    • Google Sheets: '공유 설정(Sharing)'을 통해 특정 사용자가 시트를 열람하거나 수정할 수 있는 권한을 부여할 수 있습니다. 이를 통해 민감한 데이터에 대한 접근을 제한할 수 있습니다.
  3. 데이터 숨기기 및 숨김 해제:
    • 탭을 숨기거나 숨김 해제하여 표시할 데이터를 조정할 수 있습니다. 그러나 숨긴 탭은 권한이 있는 사용자가 다시 볼 수 있으므로 민감한 데이터가 유출되지 않도록 주의해야 합니다.
  4. 복사본 작업:
    • Google Sheets에서는 원본 데이터를 변경하지 않도록 복사본을 만들어 데이터 작업을 할 수 있습니다. 이는 원본 데이터를 보호하면서도 다양한 분석 작업을 가능하게 합니다.

데이터 보안의 중요성

데이터 애널리스트는 데이터를 보호하고 보안을 유지하는 것을 최우선으로 고려해야 합니다. 보안 기능을 사용함으로써 데이터의 무결성을 유지하고, 민감한 정보가 무단으로 노출되지 않도록 방지할 수 있습니다. 또한, 보안 조치를 통해 데이터의 품질과 신뢰성을 유지할 수 있습니다.

 

추가 권장사항

데이터를 보호하기 위해 스프레드시트의 보안 기능을 사용하는 것 외에도 몇 가지 추가적인 조치를 고려할 수 있습니다:

  • 정기적인 백업: 데이터를 주기적으로 백업하여 데이터 손실을 방지할 수 있습니다.
  • 접근 권한의 최소화: 데이터에 접근해야 하는 최소한의 사용자에게만 접근 권한을 부여하여 민감한 정보의 노출을 줄입니다.
  • 암호화 사용: 데이터 전송 시 암호화를 사용하여 데이터가 이동 중에도 보호되도록 합니다.
  • 업데이트와 패치 관리: 스프레드시트 프로그램과 운영 체제를 최신 상태로 유지하여 보안 취약점을 최소화합니다.

 

데이터 분석 라이프사이클로의 전환

이제 데이터를 구성하고 보호하는 방법을 이해했으니, 다음 단계로 데이터 분석 라이프사이클로 넘어가게 됩니다. 이 과정에서는 데이터를 준비하고 분석하며, 그 결과를 바탕으로 의사결정을 내리는 방법에 대해 배우게 될 것입니다.

데이터 분석 라이프사이클에 들어가기 전에, 데이터를 정리하고 보호하는 작업이 잘 완료되었는지 확인하는 것이 중요합니다. 이렇게 하면 분석 과정에서 데이터를 효과적으로 사용할 수 있습니다.

 

 

 


보안과 애널리틱스 간 균형 조정

보안과 데이터 애널리틱스 간 갈등

데이터 보안은 안전 조치를 취함으로써 무단 액세스 또는 손상으로부터 데이터를 보호하는 일입니다. 일반적으로 데이터 보안의 목적은 민감한 정보에 대한 무단 액세스나 조회를 차단하는 데 있습니다. 데이터 애널리스트는 데이터 보안과 실제 분석 요구사항 간 균형을 조정하는 방법을 찾아야 하지만 꽤 어려운 일입니다. 애널리스트는 데이터를 안전하게 보호하려고 하면서도 시기적절하게 관찰하여 의미 있는 결과를 찾을 수 있도록 가능한 한 빨리 데이터를 사용하고 싶기도 합니다. 

따라서 회사는 데이터 보안 조치와 데이터 액세스 요구사항 간 균형을 조정하는 방법을 찾아야 합니다.

다행히 회사가 이러한 균형을 조정하는 데 도움이 되는 몇 가지의 보안 조치가 있습니다. 여기서 다룰 두 가지는 암호화와 토큰화입니다. 

 

암호화는 고유한 알고리즘을 사용하여 데이터를 변경하고 알고리즘을 모르는 사용자나 애플리케이션이 데이터를 사용할 수 없도록 합니다. 암호화 알고리즘은 암호화를 푸는 데 사용되는 ‘키’로 저장됩니다. 따라서 키가 있으면 데이터를 원본 형태로 사용할 수 있습니다.  

 

토큰화는 보호하려는 데이터 요소를 ‘토큰’이라고 하는 임의로 생성된 데이터로 대체합니다. 원본 데이터는 별도의 위치에 저장되며 토큰에 매핑됩니다. 전체 원본 데이터에 액세스하려는 사용자나 애플리케이션은 토큰화된 데이터와 토큰 매핑을 사용할 권한이 있어야 합니다. 즉 토큰화된 데이터가 해킹되더라도 원본 데이터는 별도의 위치에서 안전하게 보호됩니다. 

암호화와 토큰화는 데이터 보안 옵션 중 일부에 불과합니다. AI 기술이 적용된 인증 기기 사용 등의 다양한 옵션이 있습니다. 

 

주니어 데이터 애널리스트로서 여러분이 보안 시스템을 구축하는 역할을 담당하시게 될 가능성은 작습니다. 많은 회사가 데이터 보안 전담 팀을 보유하고 있거나 이러한 시스템을 구축하기 위해 데이터 보안을 전문으로 하는 서드 파티 회사를 고용하고 있습니다. 그러나 모든 회사에는 데이터를 안전하게 보호해야 할 책임이 있다는 사실을 인지하고, 미래에 여러분이 일하게 될 회사에서 사용할 만한 몇 가지 시스템에 관해 알고 계셔야 합니다. 

 

 

 

728x90

 

728x90
반응형