데이터정리(5)
-
[Coursera Google] GCC 데이터 애널리틱스 : R 프로그래밍을 사용한 데이터 분석 | 문서화 및 보고서
RStudio에서 문서 및 보고서 작성문서화 및 보고서 R에서의 작업 및 시각화지금까지 R과 RStudio에서 데이터를 분석하고 시각화하는 방법에 대해 많은 내용을 다루었습니다. 이를 통해 R을 효과적으로 사용하는 방법을 익혔으며, 이제는 R Markdown을 사용하여 작업을 문서화하고 보고하는 방법에 대해 배울 차례입니다. R Markdown의 개요R Markdown은 R로 만든 동적 문서의 파일 형식으로, 코드 노트북처럼 사용할 수 있습니다. 이를 통해 코드 청크, 주석, 그리고 다양한 기능을 활용하여 분석 내용을 저장, 구성, 문서화할 수 있습니다. 데이터를 정리하고 탐색한 후, R Markdown을 사용해 보고서를 만들어 이해관계자에게 분석 결과를 요약하여 전달할 수 있습니다. 팀의 분석 언어 통..
2024.10.03 -
[Coursera Google] GCC 데이터 애널리틱스 : R 프로그래밍을 사용한 데이터 분석 | 시각화, 시각적 요소, 주석에 관해 자세히 알아보기
R의 데이터 시각화 자료 생성R의 시각화 데이터 시각화의 중요성데이터 시각화의 역할데이터를 시각화하면 데이터의 의미를 명확하게 전달하고, 중요한 정보를 강조할 수 있습니다.이해관계자들에게 데이터를 설득력 있게 제시하는 데 시각화는 매우 중요한 도구입니다.데이터 스토리텔링시각적 자료를 활용하면 데이터 스토리가 더 생생하고 쉽게 전달됩니다. 데이터 분석 결과를 효과적으로 전달하기 위한 중요한 도구입니다.ggplot2 패키지 소개ggplot2의 특징ggplot2는 R에서 가장 널리 사용되는 시각화 패키지이며, tidyverse 패키지의 일부입니다.매우 강력하면서도 사용자 친화적이며, 다양한 시각적 표현을 제공하여 데이터를 쉽게 분석하고 시각화할 수 있습니다.코드를 통한 시각화 작업다음 수업에서는 ggplot2..
2024.10.02 -
[Coursera Google] GCC 데이터 애널리틱스 : R 프로그래밍을 사용한 데이터 분석 | R을 사용한 데이터 작업
데이터와 R 살펴보기R 데이터 프레임 데이터 프레임 및 Tibble 사용에 관한 요약데이터 프레임 정의데이터 프레임은 열의 모음으로, 스프레드시트나 SQL 테이블과 유사한 구조를 가집니다.각 열은 하나의 변수를 나타내며, 행에는 해당 변수에 대한 값이 포함됩니다.데이터 프레임은 데이터를 요약하고 사용하기 쉬운 형식으로 만들기 위해 사용됩니다.열 이름은 반드시 있어야 하며, 데이터 항목의 개수는 동일해야 합니다.데이터 프레임의 주요 속성데이터 프레임에는 수치, 팩터, 문자 등 다양한 데이터 유형이 포함될 수 있습니다.날짜, 타임스탬프, 논리 벡터와 같은 데이터 유형도 지원됩니다.각 열의 데이터는 일관된 개수를 가져야 하며, 데이터가 누락되더라도 행은 유지됩니다.Tibble이란?Tibble은 간소화된 데이터..
2024.10.01 -
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | 정리 결과 검증 및 보고
데이터 수동 정리결과 검증 및 보고 이 단계는 단순히 데이터가 깔끔하게 정리됐는지를 넘어서, 데이터의 **무결성(Integrity)**을 확인하는 중요한 과정입니다. 데이터가 정리되었지만, 작은 실수나 잘못된 입력이 남아 있을 수 있기 때문입니다. 또한 검증이 완료된 후에는 보고하는 절차도 필요합니다. 검증 과정에서 발견된 내용, 진행 상황, 데이터의 상태 등을 팀원들이나 이해관계자들에게 투명하게 공유하는 것이죠.1. 데이터 검증이란?데이터 검증은 정리된 데이터가 정확하고 신뢰할 수 있는지를 확인하는 단계입니다. 분석에 사용할 데이터가 올바른지 확인하는 과정으로, 이 작업이 제대로 이루어지지 않으면 분석의 결과도 신뢰할 수 없게 됩니다. 왜 검증이 중요한가요?데이터 검증은 작은 실수 하나가 큰 문제로 이..
2024.09.06 -
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | 깨끗하게 정리된 데이터
데이터 정리는 필수!정리하자! 정확하고 일관된 데이터는 모든 데이터 기반 분석의 기초가 됩니다. 그러나 많은 기업들이 매년 수조 달러를 잘못된 데이터로 인해 낭비하고 있다는 사실을 알고 계셨나요? IBM에 따르면, 미국에서는 매년 약 3조 1천억 달러가 저품질 데이터로 인해 손실된다고 합니다. 이는 데이터 품질이 비즈니스에 미치는 영향을 잘 보여주는 수치입니다. 더티 데이터와 클린 데이터더티 데이터는 불완전하거나, 부정확하거나, 해결하려는 문제와 관련이 없는 데이터입니다. 더티 데이터가 생성되는 주된 원인은 다음과 같습니다:입력 오류: 사용자가 데이터를 잘못 입력하거나, 서식을 다르게 하거나, 필드를 비워두는 경우.중복 데이터: 같은 데이터를 두 번 이상 입력하는 경우.시스템 결함: 데이터가 시스템 간에..
2024.09.04