전체 글(147)
-
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | 깨끗하게 정리된 데이터
데이터 정리는 필수!정리하자! 정확하고 일관된 데이터는 모든 데이터 기반 분석의 기초가 됩니다. 그러나 많은 기업들이 매년 수조 달러를 잘못된 데이터로 인해 낭비하고 있다는 사실을 알고 계셨나요? IBM에 따르면, 미국에서는 매년 약 3조 1천억 달러가 저품질 데이터로 인해 손실된다고 합니다. 이는 데이터 품질이 비즈니스에 미치는 영향을 잘 보여주는 수치입니다. 더티 데이터와 클린 데이터더티 데이터는 불완전하거나, 부정확하거나, 해결하려는 문제와 관련이 없는 데이터입니다. 더티 데이터가 생성되는 주된 원인은 다음과 같습니다:입력 오류: 사용자가 데이터를 잘못 입력하거나, 서식을 다르게 하거나, 필드를 비워두는 경우.중복 데이터: 같은 데이터를 두 번 이상 입력하는 경우.시스템 결함: 데이터가 시스템 간에..
2024.09.04 -
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | 무결성의 중요성
무결성에 초점 맞추기무결성에 초점 맞추기 개론 데이터 무결성의 중요성데이터 무결성이란 데이터의 정확성, 일관성, 완전성을 유지하는 것을 의미합니다. 이는 데이터가 변질되지 않고 원본의 상태를 유지하며, 모든 관련 데이터가 포함되어 있는 상태를 뜻합니다. 데이터 무결성은 데이터 분석의 신뢰성을 확보하는 데 필수적입니다. 데이터 무결성이 보장되지 않으면 분석 결과가 왜곡될 수 있으며, 비즈니스 결정에 잘못된 영향을 미칠 수 있습니다. 클린 데이터란?클린 데이터는 오류, 중복, 불완전성이 없는 데이터를 말합니다. 데이터 분석에서 클린 데이터는 필수적입니다. 클린 데이터가 아니면 분석 결과가 부정확하게 되고, 이에 따른 비즈니스 결정도 잘못될 가능성이 높아집니다.예를 들어, 앞서 설명한 중복 데이터의 경우처럼,..
2024.09.03 -
[Coursera Google] GCC 데이터 애널리틱스 : 탐색을 위한 데이터 준비 | 선택사항 : 데이터 커뮤니티 참여
온라인 활동 시작 및 증진온라인 활동이 중요한 이유 1. 고용 기회 창출온라인 활동, 특히 LinkedIn과 같은 플랫폼에서의 활동은 잠재적인 고용주가 여러분을 쉽게 찾을 수 있도록 도와줍니다. LinkedIn 프로필을 잘 관리하고 최신 상태로 유지하면, 채용 담당자나 인사 담당자가 여러분의 경력과 기술을 확인하고 새로운 기회를 제안할 가능성이 높아집니다. 2. 전문 네트워크 확장LinkedIn과 GitHub는 전문적인 네트워킹을 위한 강력한 플랫폼입니다. LinkedIn을 통해 동일한 업계의 전문가들과 교류하고, 업계의 최신 트렌드와 동향을 팔로우하며, 다양한 커뮤니티에 참여할 수 있습니다. GitHub에서는 코드 공유 및 협업을 통해 다른 데이터 애널리스트들과 실질적인 프로젝트 경험을 쌓고 학습할 수..
2024.09.02 -
[Coursera Google] GCC 데이터 애널리틱스 : 탐색을 위한 데이터 준비 | 데이터 구성 및 보호
효과적인 데이터 구성데이터 구성 자신 있는 데이터 준비 데이터 구성 권장사항데이터를 구성할 때는 다음과 같은 권장사항을 따르는 것이 중요합니다:명명 규칙: 명명 규칙은 파일의 이름을 일관되게 지정하는 지침입니다. 파일 이름에 파일의 콘텐츠, 생성 날짜, 버전 등을 포함하여 설명적이고 논리적인 이름을 사용하는 것이 좋습니다. 예를 들어, "2024_06_Invoice_ClientName_V1.xlsx"와 같은 이름은 파일의 내용과 맥락을 명확하게 이해할 수 있게 합니다.폴더 분류: 데이터를 폴더로 나누어 조직화하면 관련 파일을 한 곳에 모아두어 쉽게 찾을 수 있습니다. 폴더는 프로젝트나 카테고리별로 나누고, 필요한 경우 하위 폴더를 사용하여 더 세부적으로 분류할 수 있습니다. 예를 들어, "휴가2025" ..
2024.08.30 -
[Coursera Google] GCC 데이터 애널리틱스 : 탐색을 위한 데이터 준비 | 데이터베이스 : 데이터가 보관되는 공간
데이터베이스 작업 데이터베이스에 관한 모든 내용 데이터베이스란 무엇인가?데이터베이스는 컴퓨터 시스템에 저장된 구조화된 데이터의 모음입니다. 이 데이터는 검색, 업데이트, 삭제, 추가 등의 조작을 위해 구조화되어 있으며, 이를 통해 특정 요구 사항에 맞는 데이터를 효율적으로 관리하고 분석할 수 있습니다. 데이터베이스는 기업의 의사결정, 연구, 고객 관리, 운영 효율성 향상 등을 위해 사용됩니다. 메타데이터란 무엇인가?메타데이터는 '데이터에 대한 데이터'를 의미합니다. 즉, 메타데이터는 데이터의 맥락, 속성, 구조 등을 설명하는 정보를 포함합니다. 예를 들어, 한 데이터베이스에 저장된 고객 정보 데이터에는 고객의 이름, 주소, 전화번호와 같은 실제 데이터가 포함되어 있지만, 메타데이터는 이러한 데이터가 어떤..
2024.08.29 -
[Coursera Google] GCC 데이터 애널리틱스 : 탐색을 위한 데이터 준비 | 편향, 신뢰성, 개인정보보호, 윤리, 액세스
편향되지 않고 객관적인 데이터 편향: 질문에서 결론까지 편향의 개념편향은 특정 방향으로 데이터가 왜곡되는 현상입니다. 이는 여러 원인에 의해 발생할 수 있으며, 결과적으로 데이터의 정확성과 신뢰성을 해칠 수 있습니다. 예를 들어, 특정 집단이 연구에서 과소 대표되거나 제외되면 결과가 왜곡될 수 있습니다. 일상에서의 편향편향은 우리가 매일 겪는 다양한 상황에서 나타납니다. 예를 들어:공정성: 심사위원이 자신의 조카를 우승자로 선택하는 경우, 심사의 공정성이 의심될 수 있습니다.사고의 패턴: 우리의 뇌는 사고를 간소화하고 빠른 판단을 내리기 위해 편향된 사고를 할 수 있습니다.데이터에서의 편향데이터에서 편향은 여러 가지 방법으로 발생할 수 있습니다:설문조사 질문: 특정 관점으로 편향된 질문은 응답자의 답변에..
2024.08.28 -
[Coursera Google] GCC 데이터 애널리틱스 : 탐색을 위한 데이터 준비 | 데이터 유형 및 구조
데이터 탐색 데이터 수집세상 속 데이터 수집 데이터의 생성 방식온라인 활동: 매일 수백만 건의 문자 메시지, 이메일, 온라인 검색, 동영상 조회 등이 생성되며, 이 모든 것이 데이터입니다.디지털 사진: 온라인에 올라오는 모든 디지털 사진에는 픽셀 수, 색상 정보 등 다양한 데이터가 포함되어 있습니다.정보 수집: 정보를 수집할 때도 데이터가 생성됩니다. 이는 설문조사나 양식을 통해 이루어질 수 있습니다.데이터의 수집 방식설문조사와 양식: 예를 들어, 미국 인구 조사국은 국가 인구에 관한 데이터를 수집하여 다양한 공공 서비스에 자금을 지원하는 데 활용합니다. 이 데이터는 여러 비즈니스와 산업에서 사용될 수 있습니다.면접: 채용 면접에서는 양쪽 모두가 데이터를 수집합니다. 지원자는 회사에 관한 정보를 수집하고..
2024.08.19