2024. 9. 10. 14:17ㆍGCC/데이터 애널리틱스
데이터 분석의 기초
분석 과정
1. 데이터 분석이란?
- 정의: 데이터 분석은 수집된 데이터의 의미를 파악하고, 그 안에서 패턴과 관계를 찾아 결과를 도출하는 과정입니다.
- 목표: 데이터를 통해 문제를 해결하거나 질문에 답할 수 있는 유용한 정보를 찾아내는 것이 목적입니다.
2. 데이터 분석의 4단계
분석 과정은 데이터를 정리하고, 해석하여 결과를 도출하는 일련의 단계를 포함합니다. 이 4단계를 자세히 알아보면:
- 1. 데이터 구성
- 데이터를 쉽게 이해할 수 있도록 정리하고 구조화하는 단계입니다.
- 복잡한 데이터를 체계적으로 배열하여 분석을 쉽게 합니다.
- 예시: 결혼 선물 목록에서 모든 데이터를 한눈에 보기 좋게 정리합니다.
- 2. 형식 지정 및 조정
- 데이터를 필터링하고 정렬하여 원하는 형태로 만들어 데이터를 더 잘 이해할 수 있게 합니다.
- 이 단계는 분석 과정에서 시간을 절약하는 데 큰 도움을 줍니다.
- 예시: 선물 목록을 가격 순으로 정렬하고 예산에 맞는 항목들만 표시하도록 필터링합니다.
- 3. 다른 사람의 의견 참고
- 다른 사람의 의견을 고려하는 것이 데이터를 해석할 때 매우 중요합니다.
- 다른 사람의 견해나 경험은 혼자서 발견하지 못한 통찰력을 제공해줄 수 있습니다.
- 예시: 이미 구매된 선물이 있는지 확인하고, 다른 사람의 선호도를 반영하여 더 나은 결정을 내립니다.
- 4. 관계 관찰 및 계산
- 데이터 포인트 사이의 관계를 관찰하고, 수학적 계산을 통해 데이터를 분석합니다.
- 이 과정에서 중요한 패턴을 발견하거나 데이터를 변환해 더 많은 정보를 얻습니다.
- 예시: 예산, 선물의 인기 등을 분석하여 최종 선물을 선택하는 것입니다.
3. 데이터 분석의 실제 적용 예시
- 상황: 친구 자라의 결혼 선물을 선택하는 상황.
- 데이터 분석 적용: 자라의 SNS 선물 목록에서 데이터를 구성하고, 필터링하여 예산 내에서 선택할 수 있는 선물을 찾습니다. 이미 구매된 선물을 고려하고, 다른 사람의 의견을 반영해 최종 결정을 내립니다.
- 이 예시는 실생활에서 데이터를 어떻게 조직화하고 분석하는지를 설명하며, 데이터 분석의 중요성을 쉽게 이해할 수 있도록 도와줍니다.
4. 데이터 분석 시 다른 사람의 의견을 고려해야 하는 이유
- 다른 사람의 의견이나 외부 관점은 분석에서 중요한 역할을 합니다.
- 특정 데이터를 분석할 때 개인의 경험이나 지식으로는 한계가 있을 수 있습니다. 다양한 의견을 들음으로써 더 넓은 시야로 데이터를 바라볼 수 있습니다.
- 예시: 결혼 선물 선택 시, 이미 구매된 선물이 있으면 중복되지 않게 고를 수 있습니다.
분석을 위한 데이터 구성
언제나 필수인 구성 작업
1. 데이터 구성의 중요성
- 데이터 구성은 분석의 모든 단계에서 이루어지며, 데이터의 분류와 구조화 방식이 결과에 직접적인 영향을 줍니다.
- 테이블 형식은 분석에 사용하는 데이터의 대부분을 구성하는 방식이며, 데이터를 카테고리별로 정리해 분석을 쉽게 만듭니다.
2. 테이블과 필드
- 테이블은 비슷한 종류의 데이터를 카테고리화하고 주제별로 정리합니다. 예시로는 "자동차 대리점", "제품 정보", "수리 부품" 테이블이 있습니다.
- 필드는 테이블 내의 각각의 열을 의미하며, 예를 들어, 대리점 점주(Owner)나 수리 부품 비용(Cost) 등이 필드가 될 수 있습니다.
- 이러한 테이블과 필드를 통해 데이터베이스의 구조를 파악하고, 목표 달성을 위해 어떤 데이터가 필요한지 결정할 수 있습니다.
3. 데이터 유형 변환
- 데이터베이스에서 특정 작업을 할 때, 데이터 유형이 중요합니다. 필요에 따라 데이터 유형을 변환해야 할 수도 있습니다.
- SQL에서는 CAST 명령어를 사용해 변환할 수 있습니다. 예를 들어, 'STRING' 형식의 데이터를 'FLOAT'로 변환해 숫자로 계산할 수 있습니다.
4. 스프레드시트에서의 구성
- 스프레드시트에서도 데이터가 행과 열에 따라 잘 구성되어 있는지 확인해야 합니다.
- 불필요하거나 중복된 정보가 있다면 숨기기 기능을 사용해 효율적으로 데이터를 관리할 수 있습니다.
5. 정렬과 필터링의 중요성
- 데이터를 정렬하고 필터링하는 것도 분석의 핵심입니다. 이 과정에서 데이터 유형이 중요한 역할을 합니다. 데이터가 올바른 형식이어야 필터링과 정렬을 적절하게 수행할 수 있습니다.
데이터가 적절한 형식이어야 분석의 각 단계에서 데이터를 쉽게 조정할 수 있습니다. 구성과 형식이 제대로 이루어져야 분석 과정이 매끄럽게 진행될 수 있습니다.
정렬 및 필터링으로 데이터 구성 상태 유지
지금까지 분석의 4단계를 배웠습니다.
- 데이터 구성
- 데이터 형식 지정 및 조정
- 다른 사람의 의견 듣기
- 데이터 변환
데이터 세트의 구성은 데이터 애널리스트에게 매우 중요한 작업입니다. 여러분이 사용할 대부분의 데이터 세트는 테이블로 구성됩니다. 테이블은 데이터를 조작하고 분류할 수 있는 도구이기 때문에 유용합니다. 카테고리와 분류가 뚜렷하면 빠르고 쉽게 데이터에 집중하고 데이터를 구분할 수 있습니다.
또한 데이터 애널리스트는 분석할 때 데이터를 조정하고 형식을 지정해야 합니다. 정렬 및 필터링은 작업을 위해 데이터를 조정하고 형식을 지정할 때 데이터를 구성된 상태로 유지하는 방법입니다. 예를 들어 필터를 통해서는 오류나 특이점을 파악해 분석 전에 수정하거나 표시할 수 있습니다. 특이점이란 유사하게 수집된 데이터와 매우 달라서 신뢰할 만한 값이 아닐 수 있는 데이터 포인트를 의미합니다. 데이터 필터링은 오류를 수정하거나 특이점을 파악한 후에 필터를 삭제하여 데이터를 원래 구성 상태로 되돌릴 수 있다는 이점이 있습니다.
이 읽기 자료에서는 정렬과 필터링의 차이에 관해 배웁니다. 피벗 테이블에서 특정 형태로 정렬하는 방법도 알아봅니다.
정렬과 필터링 비교
정렬은 데이터를 더 쉽게 파악, 분석, 시각화하기 위해 의미 있는 순서로 정리하는 데 사용됩니다. 사용자가 선택한 측정항목을 기준으로 데이터의 순위를 지정합니다. 데이터 정렬 기능은 스프레드시트, SQL 데이터베이스(스프레드시트에서 처리하기에는 데이터 세트가 너무 클 때), 문서의 테이블에서 사용할 수 있습니다.
예를 들어 순위를 지정하거나 시간순 목록을 생성해야 할 경우 오름차순 또는 내림차순으로 정렬하면 됩니다. 특정 그룹이 가장 좋아하는 영화를 찾아내려면 영화 제목에 따라 정렬하여 알아내면 됩니다. 정렬 기능을 사용하면 데이터를 의미 있는 순서로 정리하여 즉시 유용한 정보를 파악하고, 분류를 통해 유사한 데이터를 그룹화할 수도 있습니다. 영화의 경우 액션, 드라마, SF, 로맨스와 같은 장르로 정렬할 수 있습니다.
필터링은 지정된 기준을 충족하는 데이터만 표시하고 나머지는 숨기는 데 사용됩니다. 따라서 데이터가 너무 많을 때 정말 유용합니다. 중요한 데이터나 버그 또는 오류가 있는 데이터에 집중하여 시간을 절약할 수 있습니다. 스프레드시트 및 SQL 데이터베이스에서 데이터를 필터링하는 방법은 다양합니다. 필터링을 사용하면 큰 노력을 들이지 않고도 필요한 정보를 찾을 수 있습니다.
예를 들어 10월에 영화를 본 사람만 찾으려면 날짜에 필터링을 사용하여 영화를 본 날짜가 10월인 레코드만 표시하면 됩니다. 그런 다음 값에 해당되는 이름을 확인하여 10월에 영화를 본 사람을 알아낼 수 있습니다.
정렬과 필터링의 차이를 쉽게 기억하도록 요약하자면 정렬은 데이터의 순서를 빠르게 지정하고 필터링은 선택한 기준을 충족하는 데이터만 표시합니다. 표시할 데이터의 양을 줄여야 할 때는 필터링을 사용하세요.
데이터를 필터링한 후에 필터링된 데이터를 정렬할 수 있다는 점도 중요합니다. 10월에 영화를 본 사람을 찾았던 예를 다시 들면 영화를 본 날짜를 10월로 필터링한 후 영화를 본 사람의 이름을 알파벳순(철자순)으로 정렬할 수 있습니다.
피벗 테이블에서 정렬
피벗 테이블의 행과 열 영역에 있는 항목은 먼저 맞춤 목록을 기준으로 오름차순 정렬됩니다. 요일이 포함된 목록의 경우 피벗 테이블에 요일 이름이 월, 화, 수, 목 등으로 정렬됩니다. 철자순인 금, 목, 수, 일 등으로 정렬되지 않습니다.
항목이 맞춤 목록에 없다면 기본적으로 오름차순 정렬됩니다. 그러나 내림차순으로 정렬하는 경우 새 데이터 필드를 추가한 후에도 적용되는 필드 정렬 규칙이 설정됩니다.
정렬 및 필터링에 관해 자세히 알아보기
1. 데이터 구성의 중요성
- 데이터 구성은 단순히 외관을 정리하는 것이 아니라, 필요한 데이터를 쉽게 찾고 검색할 수 있도록 하는 필수적인 작업입니다.
- 데이터베이스를 재구성하고 탐색할 때, 가장 일반적인 방법은 정렬과 필터링입니다.
2. 정렬(Sorting)
- 정렬은 데이터를 의미 있는 순서로 정리하여 데이터를 쉽게 파악하고 분석할 수 있게 하는 과정입니다.
- 정렬은 주로 사용자가 선택한 측정 항목(예: 가격, 이름, 날짜)을 기준으로 데이터를 정리합니다.
- 예: 쇼핑 사이트에서 가격 순으로 상품을 정렬하거나, 도서관의 책을 알파벳순으로 정리하는 것.
- SQL이나 스프레드시트에서 데이터를 정렬할 수 있습니다.
3. 필터링(Filtering)
- 필터링은 특정 조건에 맞는 데이터만 표시하고, 그 외의 데이터를 숨기는 기능입니다.
- 데이터의 범위를 좁혀서 중요한 정보만 확인할 때 유용합니다.
- 예: 쇼핑 사이트에서 초록색 운동화만 찾기 위해 필터를 사용하는 것.
- SQL의 WHERE 절을 사용하여 조건에 맞는 데이터를 필터링할 수 있습니다. 예를 들어, 영화 목록에서 특정 장르(코미디)만 필터링할 수 있습니다.
4. 정렬과 필터링 예시
- 예시로는 SQL에서 코미디 영화를 필터링하는 방법이 소개되었습니다.
- SQL에서 SELECT * FROM movie_data.movies WHERE Genre = 'Comedy';를 실행해 코미디 영화만 추출하는 방식입니다.
- SQL의 WHERE 절은 스프레드시트에서의 필터링과 유사하게 작동하며, 여러 필터를 동시에 적용할 수도 있습니다.
5. 정렬과 필터링의 활용
- 데이터를 정렬하고 필터링하는 기술을 마스터하면 효율적인 데이터 관리와 정확한 분석이 가능해집니다.
- 이 두 기능을 잘 활용하면 데이터 애널리스트로서의 역량을 크게 향상시킬 수 있습니다.
스프레드 시트에서 데이터 정렬
데이터 세트 정렬
1. 정렬(Sorting)의 기본 개념
- 정렬은 데이터를 **오름차순(A→Z)**이나 **내림차순(Z→A)**으로 재배열하는 기능입니다.
- 정렬 대상은 숫자, 문자뿐만 아니라, 셀에 지정된 색상을 기준으로도 가능합니다.
2. 정렬 방식
- 시트 정렬(Sort sheet): 스프레드시트의 모든 데이터를 한 열의 기준으로 정렬하며, 각 행의 정보가 함께 정렬됩니다.
- 범위 정렬(Sort range): 선택한 특정 범위만 정렬하며, 다른 행의 정보는 변경되지 않습니다.
3. 정렬 방법
- 메뉴를 사용한 정렬
- 시트 정렬: 예를 들어, 개봉일이 있는 B열을 선택하여 정렬할 때, 전체 행의 정보가 함께 정렬되므로 영화 제목과 개봉일의 연결을 유지할 수 있습니다.
- B열을 선택하고 **'Sort sheet by column B, A→Z'**를 클릭하면 개봉일을 기준으로 영화 목록이 시간순으로 정렬됩니다.
- 범위 정렬: 특정 열의 데이터만 독립적으로 정렬할 때 사용됩니다. 예를 들어, 영화 제목을 알파벳순으로 정렬하려면 A열을 선택하고 **'Sort range by column A, A→Z'**를 선택하여 영화 제목을 정렬할 수 있습니다.
- 단, 범위 정렬은 다른 행의 데이터가 분리될 수 있으므로 주의가 필요합니다.
- 시트 정렬: 예를 들어, 개봉일이 있는 B열을 선택하여 정렬할 때, 전체 행의 정보가 함께 정렬되므로 영화 제목과 개봉일의 연결을 유지할 수 있습니다.
4. 정렬 시 주의할 점
- 시트 정렬과 범위 정렬을 구분하여 사용해야 합니다. 시트 전체를 정렬할 때는 시트 정렬을 사용해 행별 데이터를 함께 유지해야 하며, 특정 데이터만 정렬할 때는 범위 정렬을 사용하면 됩니다.
5. 정렬 활용 팁
- 정렬 기능을 사용하면 스프레드시트의 구조화가 가능하고, 이를 통해 데이터의 패턴을 발견하고 분석할 수 있습니다.
- 데이터의 순서를 바꾸거나, 필터링과 함께 사용하면 더욱 효과적인 분석이 가능합니다.
SORT 함수
1. SORT 함수의 기본 사용법
- SORT 함수는 데이터를 오름차순 또는 내림차순으로 정렬합니다.
- 기본 형식: =SORT(범위, 기준 열 번호, TRUE/FALSE)
- 범위: 정렬할 데이터의 범위 (예: A2:D6)
- 기준 열 번호: 정렬 기준이 되는 열의 번호 (문자가 아닌 숫자를 사용, 예: B열이면 2)
- TRUE/FALSE: TRUE는 오름차순, FALSE는 내림차순
예시:
- 파티 계획 스프레드시트에서 참석자 정보를 테이블 번호에 따라 오름차순 정렬하는 방법:
plaintext코드 복사=SORT(A2:D6, 2, TRUE)
- 결과: B열(테이블 번호)을 기준으로 참석자가 오름차순으로 정렬됩니다.
2. 맞춤 정렬(Multi-level Sorting)
여러 조건을 기준으로 데이터를 정렬하려면 맞춤 정렬을 사용합니다. 예를 들어, 초대장 수신 여부와 참석자 이름을 알파벳순으로 정렬할 수 있습니다.
맞춤 정렬 방법:
- 정렬할 데이터 범위를 선택합니다 (예: A1~D6).
- 'Data' 탭에서 **'Sort range'**를 선택합니다.
- 'Data has header row' 체크상자를 선택해 헤더를 제외합니다.
- 첫 번째 정렬 기준을 선택합니다 (예: Sent invitation 열을 오름차순으로).
- **'Add another sort column'**을 클릭해 두 번째 정렬 기준을 추가합니다 (예: Guest Name을 알파벳순으로 정렬).
- **'Sort'**를 클릭하면 맞춤 정렬이 완료됩니다.
3. 정렬을 통한 데이터 분석의 중요성
- 정렬 기능을 통해 데이터의 새로운 패턴과 관계를 쉽게 파악할 수 있습니다.
- 맞춤 정렬을 사용하면 여러 조건을 동시에 고려하여 데이터를 보다 정교하게 분석할 수 있습니다.
Sheets와 Excel의 정렬 및 필터링
이 읽기 자료에서는 Google Sheets와 Microsoft Excel의 정렬 및 필터링 옵션을 살펴봅니다. 두 프로그램 모두 정해진 메뉴 옵션에서 기본적인 정렬 및 필터링 옵션을 제공합니다. 하지만 고급 정렬 및 필터링 기능이 필요하다면 각 프로그램에서 SORT와 FILTER 함수를 사용할 수 있습니다.
Sheets의 정렬 및 필터링
Google Sheets의 정렬 기능은 숫자의 추세를 빠르게 파악하는 데 유용합니다. 예를 들면 판매 지역에 따른 총수익 추세 등을 파악하기 쉽습니다. 이 경우 총수익 열을 내림차순(Z→A)으로 정렬하여 맨 위에 실적이 가장 높은 지역을 배치하거나, 총수익 열을 오름차순(A→Z)으로 정렬하여 맨 위에 실적이 가장 낮은 지역을 배치할 수 있습니다. 알파벳순이지만 총수익 예시에서와 같이 이 정렬 옵션은 숫자도 정렬합니다.
정렬 및 필터링의 정해진 메뉴 옵션에 관한 자세한 내용은 다음 리소스에서 참고해보세요.
- 데이터 정렬 및 필터링하기(Google 고객센터): 데이터를 알파벳순 또는 숫자순으로 정렬하거나 필터 보기를 생성하는 방법 소개
- 열에서 데이터 범위를 선택하여 데이터 정렬: 작업 완료를 위한 단계 설명 동영상
- 여러 열의 정렬 기준으로 데이터 범위 정렬: 여러 열의 데이터를 정렬하는 기술 팁을 제공하는 동영상
기본 메뉴 옵션 외에 SORT 함수를 사용하여 고급 정렬 작업을 할 수도 있습니다. SORT 함수를 사용하여 맞춤 정렬을 생성해보세요. 하나 이상의 열 값을 기준으로 주어진 데이터 범위의 행을 정렬할 수 있습니다. 이때 정렬 기준을 열별로 설정할 수도 있습니다. 구문은 SORT 함수 페이지를 참고해주세요.
SORT 함수처럼 FILTER 함수 역시 원하는 일치 기준에 따라 필터링할 수 있으며, FILTER 함수를 사용하면 맞춤 필터가 생성됩니다.
데이터를 필터링한 후에 필터링된 데이터를 정렬할 수 있다고 앞서 배웠습니다. 하나의 셀 범위에 FILTER 함수와 SORT 함수를 함께 사용하면 프로그램에서 자동으로 데이터를 필터링한 후 이를 정렬한 결과를 반환합니다.
Excel의 정렬 및 필터링
Microsoft Excel에서도 오름차순(A-Z) 및 내림차순(Z-A)으로 정렬할 수 있습니다. Excel은 숫자 정렬 시 오름차순과 내림차순 정렬을 제공합니다.
Google Sheets의 SORT 함수와 비슷하게 Excel에도 메뉴에서 사용할 수 있는 맞춤 정렬 기능이 있습니다. 데이터 범위를 선택한 후 Sort & Filter 버튼을 클릭하여 정렬 기준을 선택하면 됩니다. ‘Options’ 아래 있는 Sort left to right를 선택하면 열 데이터가 아닌 행 데이터를 기준으로 정렬할 수도 있습니다. (열 데이터를 기준으로 정렬하는 Sort top to bottom이 기본 설정)
Excel의 정렬 및 필터링에 관한 자세한 내용은 다음 리소스를 참고해주세요.
- 범위 또는 표의 데이터 정렬(Microsoft 지원): 11가지 사용 사례의 정렬 방법 설명 및 동영상
- Excel 교육: 정렬 및 필터링(Microsoft 지원): 정렬 및 필터링 동영상 및 동영상 스크립트
- Excel: sorting data: Sort & Filter와 Data 메뉴 옵션을 사용해 정렬하는 방법에 관한 동영상
또한 Excel에는 SORT, SORTBY, FILTER 함수가 있습니다. 이러한 함수를 사용하여 메뉴 옵션을 전혀 선택하지 않고도 스프레드시트에서 데이터를 자동으로 정렬 및 필터링하는 방법을 살펴보세요.
SQL을 사용한 데이터 정렬
SQL의 정렬 쿼리
SQL에서는 ORDER BY와 WHERE 절을 사용하여 데이터를 정렬하고 필터링할 수 있습니다.
1. SQL에서 데이터 정렬하기
ORDER BY 절 사용법
- ORDER BY는 SQL 쿼리에서 데이터를 정렬하는 데 사용됩니다.
기본 형식:
sql
코드 복사
SELECT * FROM 테이블명 ORDER BY 열명 [ASC|DESC];
- ASC: 오름차순 정렬 (기본값)
- DESC: 내림차순 정렬
예시:
개봉일 기준으로 정렬하기:
sql
SELECT * FROM Movies ORDER BY Release_Date;
- 기본적으로 개봉일을 오름차순으로 정렬합니다.
- 개봉일을 내림차순으로 정렬하기:
sql
SELECT * FROM Movies ORDER BY Release_Date DESC;
- 최근 개봉일이 먼저 나오도록 정렬됩니다.
2. SQL에서 데이터 필터링하기
WHERE 절 사용법
- WHERE 절은 쿼리 결과에서 특정 조건을 만족하는 데이터만 필터링하는 데 사용됩니다.
- 기본 형식:
sql
SELECT * FROM 테이블명 WHERE 조건;
예시:
장르가 'Comedy'인 영화만 필터링하고 개봉일을 내림차순으로 정렬하기:
sql
SELECT * FROM Movies WHERE Genre = 'Comedy' ORDER BY Release_Date DESC;
3. 복합 필터링 및 정렬
AND 조건 사용법
- AND를 사용하여 여러 조건을 동시에 필터링할 수 있습니다.
장르가 'Comedy'이면서 매출이 3억 달러 이상인 영화:
sql
SELECT * FROM Movies WHERE Genre = 'Comedy' AND Revenue > 300000000 ORDER BY Release_Date DESC;
정리
- 정렬은 ORDER BY 절을 사용하여 데이터의 표시 순서를 정합니다.
- 필터링은 WHERE 절을 사용하여 특정 조건을 만족하는 데이터만 선택합니다.
- 두 절을 함께 사용하면 데이터베이스에서 매우 정교한 데이터 분석과 조작이 가능합니다.
'GCC > 데이터 애널리틱스' 카테고리의 다른 글
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 분석을 통한 해답 찾기 | 분석을 위한 데이터 집계 (0) | 2024.09.12 |
---|---|
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 분석을 통한 해답 찾기 | 데이터 형식 지정 및 조정 (1) | 2024.09.11 |
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | 선택사항: 이력서에 데이터 추가 (4) | 2024.09.09 |
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | 정리 결과 검증 및 보고 (2) | 2024.09.06 |
[Coursera Google] GCC 데이터 애널리틱스 : 데이터 정리 | SQL을 사용한 데이터 정리 (11) | 2024.09.05 |