[Coursera Google] GCC 데이터 애널리틱스 : 데이터 분석을 통한 해답 찾기 | 데이터 형식 지정 및 조정

2024. 9. 11. 11:05GCC/데이터 애널리틱스

728x90
반응형

 

반응형

 

 

 

 

 

 

 

 

 

 

데이터 변환 및 형식 지정

한 가지 유형에서 다른 유형으로 

 

1. 데이터 형식 지정의 중요성

  • 데이터를 변환하지 않으면 스프레드시트가 잘못된 방식으로 데이터를 해석할 수 있습니다. 예를 들어, 날짜 형식으로 변환하지 않으면 날짜가 알파벳순으로 정렬될 수 있습니다.
  • 일관되지 않은 단위(예: 미국 달러와 영국 파운드)가 혼재되어 있을 경우, 분석 전에 이를 통일하는 작업이 필요합니다.

2. 스프레드시트에서 데이터 형식 지정하기

숫자 형식을 변환하는 방법

  • 툴바에서 데이터 형식을 지정할 수 있습니다. 숫자, 화폐, 날짜, 백분율 등의 옵션을 선택하여 데이터의 형식을 일관되게 설정할 수 있습니다.
  • 예를 들어, 화폐 형식으로 변환하려면 해당 열을 선택한 후, 툴바에서 화폐 아이콘을 클릭하면 됩니다.

예시:

  • 영화 데이터에서 예산 열을 화폐 형식으로 변환하려면, 해당 열을 선택한 후 툴바의 화폐 옵션을 클릭하여 변환할 수 있습니다.

3. 측정 단위 변환하기

CONVERT 함수 사용법

  • 스프레드시트에서 CONVERT 함수를 사용해 온도나 길이 등의 측정 단위를 변환할 수 있습니다.
  • 예시:
excel

=CONVERT(셀, "F", "C")

 

화씨(F)를 섭씨(C)로 변환하는 방법:

 
    • 예를 들어, =CONVERT(A2, "F", "C")는 A2 셀의 화씨 온도를 섭씨로 변환합니다.

값으로 붙여넣기

  • 변환한 값을 수식이 아닌 고정된 값으로 저장하려면, 변환된 데이터를 **"Paste special"**을 사용해 값으로만 붙여넣습니다. 이렇게 하면 데이터가 고정되어 이후에 혼란을 방지할 수 있습니다.

정리

  • 데이터 형식 지정은 분석 결과에 큰 영향을 미치므로, 숫자, 날짜, 화폐 등의 형식을 올바르게 변환하는 것이 중요합니다.
  • CONVERT 함수는 온도와 같은 단위를 쉽게 변환할 수 있게 해줍니다.
  • 분석에 앞서 데이터를 변환하고 적절한 형식으로 고정하면, 정확한 분석을 수행할 수 있습니다.

 

 


스프레드시트에서 데이터 변환

이 읽기 자료에서는 데이터를 한 가지 형식에서 다른 형식으로 변환하는 방법을 배웁니다. 데이터 분석의 정확성을 보장하려면 모든 데이터를 올바른 형식으로 지정해야 합니다. 데이터를 정리하고 처리한 후에도 마찬가지입니다. 분석을 위해 데이터를 준비하는 과정 초기에 데이터를 변환하고 형식을 지정해야 합니다.

데이터 애널리스트는 많은 상황에서 스프레드시트의 데이터를 변환해야 합니다.

문자열을 날짜로 변환

  • How to convert text to date in Excel: 일련의 숫자를 날짜로 변환하는 작업은 데이터 애널리스트에게는 자주 있는 일입니다. 이 리소스에는 Excel 함수를 사용하여 텍스트와 숫자를 날짜로 변환하는 방법과 텍스트 문자열을 수식 없이 날짜로 변환하는 방법이 나와 있습니다. 
  • Google Sheets: 날짜 형식 변경: 이 리소스에는 텍스트 문자열을 날짜로 변환하는 방법과 Google Sheets에서 사용 가능한 다양한 날짜 형식을 적용하는 방법이 나와 있으므로 Google Sheets로 작업하는 경우 유용합니다. 

문자열을 숫자로 변환

  • How to convert text to number in Excel: 스프레드시트에 숫자처럼 보이는 값이 있어도 반드시 숫자라고 확신할 수는 없습니다. Excel에서 오류 없이 숫자를 추가하고 수식에서 사용하도록 보장할 수 있기 때문에 변환하는 작업은 중요합니다. 
  • How to convert text to numbers in Google Sheets: 이 리소스에는 Google Sheets에서 텍스트 문자열을 숫자로 변환하는 방법이 나와 있으므로 Google Sheets로 작업하는 경우 유용합니다. 직접 시트에 적용해볼 수 있는 여러 수식도 나와 있으므로 상황에 따라 가장 유용한 방법을 찾아볼 수 있습니다. 

열 결합

  • 둘 이상의 셀 텍스트를 하나의 셀로 결합: 두 개 이상의 셀에 있는 텍스트를 병합해야 할 때도 있습니다. Microsoft 지원 페이지에는 데이터를 잃거나 수정할 필요 없이 병합 작업을 완료하는 두 가지 방법이 나와 있습니다. 프로세스를 안내하는 단계별 동영상 튜토리얼도 제공됩니다.
  • Google Sheets에서 셀을 분할 또는 결합하는 방법: 이 가이드에는 Google Sheets를 사용하여 셀을 분할하거나 결합하는 방법이 나와 있습니다. Google Sheets를 사용하여 셀을 결합해야 하는 경우 참고하기에 유용한 리소스입니다. 실제 데이터 사용 사례도 제공됩니다. 

숫자를 백분율로 변환

  • 숫자 서식을 백분율로 지정: 숫자 서식을 백분율로 지정하는 스킬은 어떤 프로젝트에서든 유용하게 활용할 수 있습니다. 이 Microsoft 지원 페이지에는 숫자를 백분율로 표시하는 방법과 관련해 여러 기법과 팁이 나와 있습니다. 
  • TO_PERCENT: 이 Google Sheets 지원 페이지에는 TO_PERCENT 수식을 사용하여 숫자를 백분율로 변환하는 방법이 나와 있습니다. 문자열 변환에 도움이 될만한 다른 수식의 지원 페이지로 연결되는 링크도 제공됩니다. 

전문가 팁: 각기 다른 형식을 지정해야 하는 데이터 열이 많을 수도 있다는 점에 유의해주세요. 일관성이 중요하므로 전체 열을 같은 형식으로 지정하는 것이 좋습니다. 

 

추가 리소스

이외의 데이터 유형을 변환해야 하는 경우 Excel 리소스는 Microsoft 지원을, Google Sheets 리소스는 Google Docs 편집기 고객센터를 참고해주세요. 

 

데이터 변환은 같은 함수를 재사용하여 빠르고 쉽게 처리할 수 있습니다. 리소스 링크를 북마크에 추가하여 나중에 문제가 발생할 때 언제든지 참고하시기 바랍니다. 지금까지 데이터 애널리스트가 업무를 수행하는 데 필요한 데이터 변환 방법을 알아봤습니다.

 


데이터 확인

 

1. 데이터 확인의 역할

  • 데이터 확인은 입력할 수 있는 값을 제어하여 스프레드시트의 정확성을 유지하는 기능입니다.
  • 드롭다운 목록이나 체크박스를 활용하여 사용자가 선택할 수 있는 사전 정의된 옵션을 제공할 수 있습니다.

2. 드롭다운 목록 추가 방법

  • 예시: 진행 상태 추적
    • 프로젝트의 진행 상황을 'Not Yet Started', 'In Progress', 'Ready'와 같은 옵션으로 관리할 수 있습니다.
    • 'Data' 메뉴에서 **'Data validation'**을 클릭한 후 **'List of items'**를 선택하고, 원하는 항목을 입력합니다.
    • 이렇게 하면 사용자는 해당 열에서 드롭다운 목록을 통해 미리 정의된 상태를 선택할 수 있습니다.

3. 체크박스 추가 방법

  • 예시: 승인 여부 확인
    • 승인 여부를 체크박스로 관리할 수 있습니다. 예를 들어, 'Approved' 또는 'Not approved'와 같은 맞춤형 값을 제공할 수 있습니다.
    • 'Data validation' 메뉴에서 **'Checkbox'**를 선택한 후, 'Use custom cell values' 옵션을 활성화하고 맞춤값을 입력합니다.

4. 구조화된 데이터 보호

  • 데이터 확인 기능은 잘못된 값이 입력되는 것을 방지하는 옵션도 제공합니다. 유효하지 않은 입력 거부 기능을 사용하여, 실수로 수식이나 중요한 데이터를 망가뜨리지 않도록 보호할 수 있습니다.

5. 활용 사례

  • 드롭다운 목록: 여러 선택지를 제공해 작업 진행 상황을 추적할 수 있습니다.
  • 맞춤 체크박스: 작업 승인 여부와 같은 이진 선택 사항을 쉽게 확인할 수 있습니다.
  • 데이터 보호: 유효하지 않은 입력을 방지하여 수식과 데이터를 보호할 수 있습니다.

 

 


조건부 서식(Conditional formatting) 

 

1. 조건부 서식의 역할

조건부 서식은 특정 조건에 맞는 데이터를 시각적으로 강조해줍니다. 데이터의 크기에 관계없이 필요한 정보만을 쉽게 파악할 수 있는 시각적 큐(visual cue)를 제공합니다. 예를 들어, 테이블에 있는 값들이 일정 조건에 부합하면 색상으로 강조 표시하여 데이터를 쉽게 구분할 수 있습니다. 이런 시각적 표시를 통해 테이블을 한눈에 이해하기 쉽게 만드는 것이 조건부 서식의 주된 목적입니다.

 

예시: 프로젝트 상태 관리

우리가 다룬 예제에서 'Status' 열에 조건부 서식을 적용했습니다. 먼저, 팀의 프로젝트 상태를 추적하는 테이블에서 각 작업의 진행 상태를 나타내기 위해 조건부 서식을 설정할 수 있습니다. 이때, 세 가지 상태 값을 기준으로 각 셀에 색을 지정할 수 있습니다.

  • Not Yet Started: 빨간색으로 설정하여 아직 시작되지 않은 작업을 쉽게 확인.
  • In Progress: 노란색으로 설정하여 진행 중인 작업을 시각적으로 표시.
  • Ready: 초록색으로 설정하여 완료된 작업을 한눈에 알아볼 수 있게 표시.

이렇게 조건부 서식을 적용하면 각 작업의 상태가 시각적으로 명확해지고, 진행 상황을 보다 쉽게 파악할 수 있게 됩니다.

 

2. 데이터 확인 기능의 역할

데이터 확인은 셀에 입력할 데이터를 미리 지정된 값들로 제한하거나, 유효한 데이터만 입력할 수 있도록 제어하는 기능입니다. 데이터를 입력할 때 실수를 줄이고, 일관성을 유지하는 데 큰 도움을 줍니다. 데이터 확인 기능은 특히 팀과 협업할 때 유용하며, 여러 사용자가 동시에 데이터를 입력할 때 발생할 수 있는 오류를 방지해줍니다.

 

예시: 드롭다운 메뉴 사용

데이터 확인을 통해 'Status' 열에 드롭다운 메뉴를 추가함으로써, 사용자가 미리 설정된 값 중 하나만 선택할 수 있도록 제한할 수 있습니다. 이렇게 하면 잘못된 입력을 방지하고 테이블에 입력된 데이터의 일관성을 유지할 수 있습니다.

  • 'Status' 드롭다운 값: 'Not Yet Started', 'In Progress', 'Ready'
  • 데이터 확인 설정 방법:
    • 'Status' 열을 선택한 후, 상단의 'Data' 메뉴에서 'Data validation'을 선택.
    • 'Criteria'에서 'List of items'를 선택하고, 위 세 가지 옵션을 입력.
    • 'Save'를 누르면 해당 열에 드롭다운 메뉴가 생성됩니다.

 

3. 조건부 서식과 데이터 확인의 결합

이 두 가지 도구를 결합하면, 사용자가 선택한 값에 따라 자동으로 셀의 색상이 변경되므로, 보다 직관적으로 데이터를 해석할 수 있습니다. 조건부 서식이 데이터 확인을 통해 제한된 값에 맞춰 시각적 효과를 제공하기 때문에, 데이터의 무결성을 유지하면서도 시각적 접근성을 향상시킵니다.

 

실제 적용 예시

'Status' 열에 있는 상태 값들에 맞춰 조건부 서식을 적용한 후, 각 상태에 따라 셀 색상이 자동으로 변경됩니다. 예를 들어, 사용자가 드롭다운 메뉴에서 'Not Yet Started'를 선택하면 해당 셀이 빨간색으로 변합니다. 이러한 시각적 피드백은 데이터를 빠르게 이해할 수 있도록 도와줍니다.

 

4. 마감 기한 관리

또한, 'Review By This Date'와 같은 날짜 열에 조건부 서식을 적용하여 마감 기한이 임박한 작업을 시각적으로 구분할 수 있습니다. 예를 들어, 오늘 이후의 날짜에는 주황색으로 표시하여 마감 기한이 다가오는 작업을 한눈에 파악할 수 있도록 합니다.

  • 적용 방법:
    • 'Review By This Date' 열을 선택한 후, 조건부 서식을 설정.
    • 'Date is after' 조건을 설정하고, 'Today'를 기준으로 서식을 지정.
    • 마감 기한이 임박한 작업을 주황색으로 표시하여 관리가 용이하게끔 설정합니다.

 

5. 활용 팁

이렇게 데이터를 시각적으로 구분하는 도구는 프로젝트 관리, 업무 진행 상황 모니터링 등 다양한 실무 상황에서 유용하게 사용됩니다. 팀원들이 동일한 스프레드시트를 공유하고 있을 때, 데이터 확인과 조건부 서식을 함께 사용하면 데이터를 직관적으로 이해할 수 있고, 실수를 줄이며 효율적으로 작업할 수 있습니다.

 

 

이번 시간에는 조건부 서식과 데이터 확인 기능을 결합하여 스프레드시트에서 맞춤형 도구를 만드는 방법을 살펴보았습니다. 이러한 도구는 팀 작업의 효율성을 높이고 데이터를 시각적으로 구분해 분석을 쉽게 할 수 있도록 돕습니다. 

 

 

 

 


SQL에서 데이터 변환

대개 데이터 애널리스트는 분석을 완료하기 위해 데이터를 한 가지 형식에서 다른 형식으로 변환해야 합니다. 하지만 스프레드시트 대신 SQL을 사용한다면 어떻게 해야 할까요? 스프레드시트와 마찬가지로, SQL도 한 가지 유형의 데이터를 다른 유형으로 변환하는 표준 규칙을 사용합니다. 데이터 애널리스트에게 데이터 변환이 중요한 스킬인 이유가 궁금하다면 바람 빠진 타이어를 교체할 줄 아는 운전자를 떠올려보세요. 데이터를 적절한 형식으로 변환할 수 있으면 분석 작업이 훨씬 빨라집니다. 다른 사람이 대신 데이터를 변환해줄 때까지 기다릴 필요가 없기 때문입니다. 

 

이 읽기 자료에는 CAST 함수를 사용한 변환 작업이 나와 있습니다. 큰 숫자를 처리하는 COERCION이나 날짜를 처리하는 UNIX_DATE 등 더욱 특화된 함수도 있습니다. UNIX_DATE는 1970년 1월 1일부터 경과된 일수를 반환하며, 여러 시간대의 날짜를 비교하고 작업하는 데 사용합니다. CAST는 가장 자주 사용하게 될 함수입니다.  

 

일반적인 변환 작업 

다음 표에는 CAST 함수를 사용하는 일반적인 변환 작업이 요약되어 있습니다. 함수와 관련 규칙의 전체 목록은 표준 SQL 변환 규칙을 참고하세요. 

 
변환 전 데이터 유형CAST 함수로 변환할 수 있는 유형:
수치(숫자) - 정수 - 수치(숫자) - 큰 숫자 - 부동 소수점 수/정수 - 문자열
문자열 - 불리언 - 정수 - 수치(숫자) - 큰 숫자 - 부동 소수점 수/정수 - 문자열 - 바이트 - 날짜 - 날짜/시간 - 시간 - 타임스탬프
날짜 - 문자열 - 날짜 - 날짜/시간 - 타임스탬프

CAST 함수(구문 및 예시)

CAST는 ANSI(미국국립표준협회) 함수이며, BigQuery를 포함한 많은 프로그래밍 언어에서 사용됩니다. 이 섹션에서는 BigQuery 구문과 표의 첫 열에 제시된 데이터 유형을 변환하는 예를 다룹니다. CAST 함수의 구문은 다음과 같습니다.

CAST (expression AS typename)

CAST(expression AS typename)

expression은 변환할 데이터이고 typename은 반환할 데이터 유형입니다.

 

숫자를 문자열로 변환

다음 CAST 문은 MyTable이라는 테이블에 있는 변수 MyCount에서 식별된 수치를 문자열로 변환한 값을 반환합니다.

SELECT CAST (MyCount AS STRING) FROM MyTable

SELECT CAST(MyCount AS STRING) FROM MyTable

 

위 SQL 문을 해석하면 다음과 같습니다.

  • SELECT: 테이블에서 데이터를 선택한다는 의미입니다.
  • CAST: 선택하는 데이터를 다른 데이터 유형으로 변환한다는 의미입니다.
  • AS: 변환하는 데이터 유형 앞에 위치하여 데이터 유형을 식별합니다.
  • STRING: 데이터를 문자열로 변환한다는 의미입니다.
  • FROM: 어떤 테이블에서 데이터를 선택할지 나타냅니다.

문자열을 숫자로 변환

다음 CAST 문은 MyTable이라는 테이블에 있는 변수 MyVarcharCol에서 식별된 문자열을 정수로 변환한 값을 반환합니다. (정수는 모든 범자연수를 의미합니다.)

SELECT CAST(MyVarcharCol AS INT) FROM MyTable

SELECT CAST(MyVarcharCol AS INT) FROM MyTable

 

위 SQL 문을 해석하면 다음과 같습니다.

  • SELECT: 테이블에서 데이터를 선택한다는 의미입니다.
  • CAST: 선택하는 데이터를 다른 데이터 유형으로 변환한다는 의미입니다.
  • AS: 변환하는 데이터 유형 앞에 위치하여 데이터 유형을 식별합니다.
  • INT: 데이터를 정수로 변환한다는 의미입니다.
  • FROM: 어떤 테이블에서 데이터를 선택할지 나타냅니다.

 

날짜를 문자열로 변환

다음 CAST 문은 MyTable이라는 테이블에 있는 변수 MyDate에서 식별된 날짜를 문자열로 변환한 값을 반환합니다. 

위 SQL 문을 해석하면 다음과 같습니다.

  • SELECT: 테이블에서 데이터를 선택한다는 의미입니다.
  • CAST: 선택하는 데이터를 다른 데이터 유형으로 변환한다는 의미입니다.
  • AS: 변환하는 데이터 유형 앞에 위치하여 데이터 유형을 식별합니다.
  • STRING: 데이터를 문자열로 변환한다는 의미입니다.
  • FROM: 어떤 테이블에서 데이터를 선택할지 나타냅니다.

 

날짜를 날짜/시간으로 변환

날짜/시간 값의 형식은 YYYY-MM-DD hh: mm: ss이며, 날짜와 시간이 함께 있습니다. 다음 CAST 문은 날짜를 날짜/시간으로 변환한 값을 반환합니다. 

위 SQL 문을 해석하면 다음과 같습니다.

  • SELECT: 테이블에서 데이터를 선택한다는 의미입니다.
  • CAST: 선택하는 데이터를 다른 데이터 유형으로 변환한다는 의미입니다.
  • AS: 변환하는 데이터 유형 앞에 위치하여 데이터 유형을 식별합니다.
  • DATETIME: 데이터를 날짜/시간으로 변환한다는 의미입니다.
  • FROM: 어떤 테이블에서 데이터를 선택할지 나타냅니다.

 

SAFE_CAST 함수

BigQuery에서는 CAST 함수를 사용한 쿼리에 실패하면 오류가 반환됩니다. 쿼리 실패 시 오류 발생을 방지하려면 대신 SAFE_CAST 함수를 사용해야 합니다. SAFE_CAST 함수는 쿼리에 실패했을 때 오류 대신 null 값을 반환합니다. 

SAFE_CAST의 구문은 CAST와 동일합니다. 쿼리에서 함수를 직접 변경하기만 하면 됩니다. 다음 SAFE_CAST 문은 날짜를 문자열로 변환한 값을 반환합니다.

SELECT SAFE_CAST (MyDate AS STRING) FROM MyTable

SELECT SAFE_CAST(MyDate AS STRING) FROM MyTable

 

추가 정보

BigQuery 대신 다른 SQL 언어를 사용하는 데이터 변환에 관한 자세한 정보는 다음 리소스를 참고해주세요.

 

 

 


여러 데이터 세트 결합

병합 및 여러 소스 

 

1. CONCAT와 CONCATENATE의 비교

스프레드시트의 CONCATENATE 함수

  • CONCATENATE는 스프레드시트에서 두 개 이상의 텍스트 문자열을 하나로 결합하는 함수입니다.

예시:

excel

=CONCATENATE(A1, " ", B1)

 

위 함수는 A1과 B1 셀의 내용을 공백으로 구분하여 하나의 문자열로 결합합니다.

 

SQL의 CONCAT 함수

  • CONCAT는 SQL에서 여러 텍스트 문자열을 결합하여 하나의 문자열을 생성하는 함수입니다.

기본 사용법:

sql

CONCAT(string1, string2, ..., stringN)
  • 스프레드시트의 CONCATENATE와 유사하지만, SQL에서는 여러 테이블과 열의 데이터를 결합하여 보다 복잡한 쿼리를 작성할 수 있습니다.

 

2. CONCAT 함수의 중요성

데이터 결합의 필요성

  • 데이터 통합: 여러 테이블이나 열에 분산된 데이터를 하나로 결합하여 분석하기 쉽게 만듭니다.
  • 가독성 향상: 결합된 문자열은 데이터의 의미를 명확하게 전달하는 데 도움을 줍니다.
  • 새로운 정보 생성: 결합된 데이터를 기반으로 새로운 인사이트를 도출할 수 있습니다.

실제 활용 사례

  • 경로 이름 생성: 시작 지점과 종료 지점을 결합하여 이동 경로를 생성.
  • 고객 정보 통합: 고객의 이름과 성을 결합하여 전체 이름을 생성.
  • 주소 생성: 도로명과 번지수를 결합하여 전체 주소를 생성.

 

3. Citi Bike 데이터 소개

Citi Bike란?

  • Citi Bike는 뉴욕시의 공공 자전거 공유 시스템으로, 도시 전역에 자전거 대여소를 운영하며 시민들이 편리하게 자전거를 대여하고 반납할 수 있도록 합니다.

공개 데이터 정책

  • 공개 데이터(Open Data): 누구나 자유롭게 접근하고 사용할 수 있는 데이터로, 데이터 분석, 연구, 애플리케이션 개발 등에 활용할 수 있습니다.
  • Citi Bike 데이터: 대여소 정보, 대여 기록, 사용자의 유형 등 다양한 데이터를 포함하고 있어 데이터 분석 학습에 매우 유용합니다.

Citi Bike 데이터의 구성

  • 대여소 정보: 대여소 ID, 이름, 위치(위도 및 경도) 등.
  • 대여 기록: 대여소 출발지와 도착지, 대여 시간, 반납 시간, 사용자 유형(일회성/구독) 등.

4. SQL에서 CONCAT 함수 사용하기

기본 구조

sql

SELECT CONCAT(column1, ' ', column2) AS new_column FROM table_name;
 
  • CONCAT(column1, ' ', column2): column1과 column2의 값을 공백으로 구분하여 결합.
  • AS new_column: 결합된 문자열에 새로운 열 이름을 지정.

실제 예제

Citi Bike 데이터를 사용하여 사용자의 유형별로 가장 자주 이용하는 경로를 분석해보겠습니다. 여기서 '경로'는 출발 대여소와 도착 대여소의 결합된 문자열로 정의됩니다.

 
sql

SELECT usertype, 
	CONCAT(start_station_name, ' to ', end_station_name) AS route, 
	COUNT(*) AS num_trips, 
	ROUND(CAST(AVG(duration) AS INT64), 2) AS duration 
FROM 
	`citi_bike_dataset.trips` 
GROUP BY 
	usertype, route 
ORDER BY 
	num_trips DESC 
LIMIT 10;

 

 

5. 쿼리 단계별 설명

SELECT 절

  • usertype: 사용자 유형(예: 일회성, 구독)을 선택.
  • CONCAT(start_station_name, ' to ', end_station_name) AS route: 출발 대여소와 도착 대여소 이름을 ' to '로 결합하여 새로운 열 'route'를 생성.
  • COUNT(*) AS num_trips: 각 경로별로 주행 횟수를 계산하여 'num_trips' 열에 저장.
  • ROUND(CAST(AVG(duration) AS INT64), 2) AS duration: 각 경로별 평균 주행 시간을 계산, 소수점 둘째 자리까지 반올림하여 'duration' 열에 저장.

CONCAT 함수 사용

  • CONCAT(start_station_name, ' to ', end_station_name): 두 대여소 이름을 ' to '로 연결하여 한 줄로 표현된 경로 이름을 생성합니다.
  • 예시: 'Station A'와 'Station B'가 결합되어 'Station A to Station B'가 됩니다.

별칭 지정 (AS)

  • AS route: 결합된 문자열을 'route'라는 새로운 열 이름으로 지정합니다.
  • AS num_trips: COUNT(*)의 결과를 'num_trips'라는 열 이름으로 지정합니다.
  • AS duration: 계산된 평균 주행 시간을 'duration'이라는 열 이름으로 지정합니다.

COUNT 함수 사용

  • COUNT(*): 그룹화된 각 경로별로 주행 횟수를 계산합니다.
  • AS num_trips: 결과를 'num_trips'라는 열 이름으로 지정하여 직관적으로 이해할 수 있게 합니다.

ROUND 및 AVG 함수 사용

  • AVG(duration): 각 경로별 주행 시간의 평균을 계산합니다.
  • CAST(AVG(duration) AS INT64): 평균 주행 시간을 정수형으로 변환합니다. BigQuery에서는 숫자가 64비트 메모리 체계로 저장되므로 INT64로 캐스팅합니다.
  • ROUND(..., 2): 변환된 평균 주행 시간을 소수점 둘째 자리까지 반올림합니다.
  • AS duration: 최종 결과를 'duration'이라는 열 이름으로 지정합니다.

CAST 함수 사용

  • CAST(expression AS TYPE): 표현식을 지정한 데이터 타입으로 변환합니다.
  • CAST(AVG(duration) AS INT64): 평균 주행 시간을 정수형인 INT64로 변환하여 계산의 정확성을 높입니다.

FROM 절

  • FROM citi_bike_dataset.trips: 쿼리에서 사용할 데이터가 저장된 테이블을 지정합니다. 여기서는 Citi Bike의 대여 기록이 저장된 trips 테이블을 사용합니다.

GROUP BY 절

  • GROUP BY usertype, route: 사용자 유형과 결합된 경로별로 데이터를 그룹화하여 각 그룹에 대한 통계값을 계산합니다.
  • route는 CONCAT 함수로 생성된 열로, 출발 대여소와 도착 대여소의 결합된 문자열입니다.

ORDER BY 절 및 LIMIT

  • ORDER BY num_trips DESC: 주행 횟수(num_trips)를 기준으로 내림차순 정렬하여 가장 많이 이용된 경로부터 순서대로 표시합니다.
  • LIMIT 10: 상위 10개의 경로만 결과로 반환합니다.

 

6. 쿼리 결과 해석

위 쿼리를 실행하면 다음과 같은 형태의 결과가 나옵니다:

 

usertype route num_trips duration
Subscriber Station A to Station B 1500 12
Customer Station C to Station D 1200 15
... ... ... ...
  • usertype: 사용자의 유형(구독자 또는 일회성).
  • route: 출발 대여소와 도착 대여소가 결합된 경로 이름.
  • num_trips: 해당 경로의 총 주행 횟수.
  • duration: 해당 경로의 평균 주행 시간(분).

이를 통해 각 사용자 유형별로 가장 많이 이용하는 경로와 그 경로의 평균 주행 시간을 쉽게 파악할 수 있습니다.

 

7. CONCAT 함수의 장점

가독성 향상

  • 복잡한 데이터도 간단하게 결합하여 한눈에 보기 쉽게 만듭니다.
  • 예를 들어, 출발 대여소와 도착 대여소를 결합하면, 경로를 명확히 이해할 수 있습니다.

데이터 분석의 효율성 증가

  • 결합된 데이터를 기반으로 그룹화, 정렬, 집계를 쉽게 수행할 수 있습니다.
  • 특정 경로에 대한 통계치를 빠르게 계산할 수 있습니다.

유연한 데이터 조작

  • 여러 열의 데이터를 결합하여 새로운 정보를 생성할 수 있습니다.
  • 필요에 따라 다양한 방식으로 데이터를 조합하여 원하는 형태로 가공할 수 있습니다.

 

이번 시간에는 SQL의 CONCAT 함수에 대해 상세히 학습하였습니다. CONCAT 함수를 사용하여 여러 문자열을 결합하고, 이를 통해 데이터를 보다 효율적으로 분석할 수 있는 방법을 배웠습니다. 특히, Citi Bike 데이터를 예시로 들어 실제로 어떻게 적용할 수 있는지 단계별로 살펴보았습니다.

 

주요 학습 내용 요약

  • CONCAT 함수의 기본 사용법: 여러 문자열을 결합하여 새로운 문자열을 생성.
  • 실제 예제 적용: Citi Bike 데이터에서 출발 대여소와 도착 대여소를 결합하여 경로를 생성.
  • 쿼리 작성 및 해석: SELECT, CONCAT, COUNT, ROUND, CAST, GROUP BY, ORDER BY, LIMIT 절을 사용하여 유용한 통계 정보를 도출.
  • CONCAT 함수의 장점: 데이터 가독성 향상, 분석 효율성 증가, 유연한 데이터 조작.

 


스프레드시트의 문자열 

 

스프레드시트와 SQL에서의 문자열 작업: LEN, LEFT, RIGHT, FIND 함수

 

1. LEN 함수

  • 역할: LEN 함수는 문자열의 길이를 반환하는 함수입니다.
  • 사용 방법: 스프레드시트에서 셀에 입력된 문자열이 몇 글자인지 확인할 수 있습니다. 예를 들어, 날짜와 시간을 함께 표시하는 셀에 적용하면 전체 문자 수(예: "2023-09-11 10:30:00"는 19자)를 알 수 있습니다.
  • 예시:
    • =LEN(A1) : 셀 A1에 있는 문자열의 길이를 반환합니다.

2. LEFT 함수

  • 역할: LEFT 함수는 문자열의 왼쪽에서 지정한 수만큼의 문자를 추출하는 함수입니다.
  • 사용 방법: 날짜와 시간 정보를 포함한 문자열에서 날짜만 필요할 때, LEFT 함수로 필요한 문자 수만큼 왼쪽에서부터 문자를 가져옵니다.
  • 예시:
    • =LEFT(A1, 10) : 셀 A1에서 왼쪽 10자리의 문자를 가져옵니다. (예: "2023-09-11 10:30:00"에서 "2023-09-11" 반환)

3. RIGHT 함수

  • 역할: RIGHT 함수는 문자열의 오른쪽에서 지정한 수만큼의 문자를 추출하는 함수입니다.
  • 사용 방법: 시간만 필요할 때, RIGHT 함수로 문자열의 오른쪽에서 시간을 추출합니다.
  • 예시:
    • =RIGHT(A1, 8) : 셀 A1에서 오른쪽 8자리의 문자를 가져옵니다. (예: "2023-09-11 10:30:00"에서 "10:30:00" 반환)

4. FIND 함수

  • 역할: FIND 함수는 특정 문자가 문자열 내에서 어디에 있는지 위치를 반환하는 함수입니다. 대소문자를 구분하며, 공백도 문자로 인식합니다.
  • 사용 방법: 날짜와 시간 문자열에서 공백을 찾아 날짜와 시간을 분리할 때 유용합니다.
  • 예시:
    • =FIND(" ", A1) : 셀 A1에서 공백(스페이스)의 위치를 반환합니다. (예: "2023-09-11 10:30:00"에서 공백은 11번째 자리)

실전 예시

주어진 자전거 공유 데이터에서 시작 시간과 종료 시간을 분리하는 작업을 예로 들어보겠습니다.

  1. LEN 함수 사용:
    • =LEN(A1)을 사용해 주어진 날짜와 시간 문자열의 길이를 계산합니다.
    • 예시 데이터 "2023-09-11 10:30:00"은 19자리입니다.
  2. FIND 함수로 구분점 찾기:
    • =FIND(" ", A1)을 사용해 날짜와 시간 사이의 공백 위치를 찾습니다. 공백은 11번째 위치에 있습니다.
  3. LEFT 함수로 날짜 분리:
    • =LEFT(A1, FIND(" ", A1)-1)로 날짜를 추출합니다. 결과는 "2023-09-11"입니다.
  4. RIGHT 함수로 시간 분리:
    • =RIGHT(A1, LEN(A1) - FIND(" ", A1))로 시간을 추출합니다. 결과는 "10:30:00"입니다.

 

이 네 가지 함수는 외부 데이터로 작업할 때 매우 유용하며, 데이터 전처리 과정에서 중요한 역할을 합니다. 데이터를 더 잘 분리하고 분석할 수 있도록, 이번에 배운 내용을 자주 연습해 보세요. 앞으로는 이러한 함수를 활용한 더 복잡한 수식을 통해 데이터 분석을 강화해 나갈 수 있습니다.

 

 


SQL에서 문자열 조작

 

정확한 분석을 위해 데이터를 변환하고 조작하는 방법은 데이터 애널리스트가 업무에서 반드시 알아야 하는 스킬입니다. 이 읽기 자료에서는 여러 SQL 함수와 용도, 특히 문자열 결합에 관해 배웁니다. 

 

문자열은 SQL과 같은 프로그래밍 언어의 텍스트를 선언하는 데 도움이 되는 문자 조합입니다. SQL 문자열 함수는 문자와 관련된 다양한 정보를 얻는 데 사용되며, 특히 문자열을 결합하는 경우 문자를 조작하기 위해 사용됩니다. 문자열 함수 중 흔히 사용되는 함수는 CONCAT입니다. 아래 표에서 CONCAT 함수와 CONCAT의 변형 함수에 관해 자세히 알아보세요.

 

함수용도
CONCAT 문자열을 결합하여 고유 키로 사용될 수 있는 새 텍스트 문자열을 생성하는 함수 CONCAT (‘Google’, ‘.com’);
CONCAT_WS 구분자를 사용해 2개 이상의 문자열을 추가하는 함수 CONCAT_WS (‘ . ’, ‘www’, ‘google’, ‘com’) *SQL 함수를 실행하면 구분자(마침표)가 Google 앞과 뒤에 입력됩니다.
CONCAT과 + 연산자 사용 + 연산자를 사용해 2개 이상의 문자열 추가 ‘Google’ + ‘.com’

 

CONCAT 실제 사용

‘Data’ 및 ‘analysis’와 같은 문자열 두 개를 결합하려면 다음과 같이 입력합니다. 

  • SELECT CONCAT (‘Data’, ‘analysis’);

결과는 다음과 같습니다.

  • Dataanalysis

문자열에 따라 공백 문자를 추가해야 할 때가 있습니다. 이 경우 함수는 다음과 같아야 합니다.

  • SELECT CONCAT (‘Data’, ‘  ’, ‘analysis’);

그러면 결과는 다음과 같습니다.

  • Data analysis

문자열 3개를 결합할 때도 동일한 규칙이 적용됩니다. 예를 들면 다음과 같습니다.

  • SELECT CONCAT (‘Data’, ‘ ’, ‘analysis’, ‘ ’, ‘is’, ‘ ’, ‘awesome!’);

그러면 결과는 다음과 같습니다.

  • Data analysis is awesome!

 

숙달을 위한 연습 리소스

W3 Schools는 대화형 SQL 학습을 위한 훌륭한 리소스입니다. 다음 링크에는 SQL을 사용하여 데이터를 변환하는 방법을 소개하는 가이드가 나와 있습니다.

  • SQL 함수: 함수를 종합한 목록으로 연습을 시작하기에 적합한 리소스입니다. 각 함수를 클릭하면 함수의 정의, 용도, 예시를 배울 수 있으며 직접 쿼리를 만들고 실행하는 연습도 할 수 있습니다. 직접 해보세요.   
  • SQL 키워드: SQL 지식을 쌓아가는 과정에서 북마크에 추가하면 유용한 SQL 키워드 참고 자료입니다. 이 키워드 목록은 데이터베이스에서 여러 작업을 해야 할 필요성이 증가하면 사용하게 될 예약된 단어입니다.
  • 이 읽기 자료에서는 문자열 함수의 기본사항만 다루었지만, 여전히 배울 내용이 많으며 문자열을 직접 결합해볼 수도 있습니다.
  1. CONCAT 연습
  2. CONCAT WS 연습
  3. CONCAT과 + 연습

 

전문가 팁: 위 리소스에서 다루는 함수는 사용하는 데이터베이스에 따라 적용 방식이 약간 다를 수 있습니다(예: mySQL과 SQL Server). 하지만, 각 함수에 관한 일반적인 지식을 알고 있으면 함수를 필요에 맞게 제대로 조정하여 활용하는 데 도움이 됩니다.

 


분석 중 도움받기

어려움이 생겼을 때 할 일

 

데이터 분석 작업 중 다양한 어려움이 발생할 수 있는데, 이러한 문제를 효율적으로 해결하기 위해선 도움을 구하는 법을 알고 있어야 합니다.

 

1. 다른 사람에게 도움을 청하기

  • 동료나 멘토에게 질문하는 것은 매우 효과적인 방법입니다.
  • 특히, 프로젝트에 함께 참여한 팀원들은 그 문제에 대한 관련 경험이 있을 가능성이 크므로 실질적인 해결책을 제시할 수 있습니다.
  • 예를 들어, 자전거 주행 시간 데이터를 분석하다가 특정 문제(예: 자정 넘어선 주행 시간 계산)를 겪고 있을 때, 동료에게 조언을 구하면 더 효율적인 해결책을 찾을 수 있습니다.

2. 인터넷에서 답을 찾기

  • 데이터 분석 문제는 많은 사람이 비슷하게 겪는 경우가 많기 때문에, 온라인 포럼이나 질문 게시판에서 유사한 해결책을 찾을 수 있습니다.
  • 예를 들어, 자전거 주행 시간이 자정을 넘어가면 음수가 나오는 문제가 있을 때, MOD 함수를 사용한 해결책을 검색해 볼 수 있습니다. 이처럼 구체적인 질문을 통해 이미 해결된 문제를 쉽게 찾을 수 있습니다.

3. 조건부 수식 적용 예시

  • IF 함수는 데이터를 비교하거나 조건을 기반으로 처리하는 데 유용한 함수입니다.
  • 자전거 주행 시간이 자정을 넘길 때 음수가 나오는 문제를 해결하기 위해 팀원들이 제안한 해결책은 다음과 같습니다:
    • =IF(종료시간 > 시작시간, 종료시간 - 시작시간, 1 - 시작시간 + 종료시간)
    • 이 수식을 사용하면 자정을 넘긴 자전거 주행 시간도 정확하게 계산할 수 있습니다.

4. 문제 해결 방법의 확장

  • 때로는 팀원들이 해결책을 모르더라도, 온라인에서 유사한 문제의 해결책을 찾아낼 수 있습니다.
  • 예를 들어, "스프레드시트에서 시간을 계산할 때 음수를 양수로 바꾸는 방법"과 같은 검색어로 다양한 방법을 찾을 수 있습니다.

결론

  • 문제 해결은 혼자서만 할 필요가 없습니다. 다른 사람의 조언을 구하거나 온라인 리소스를 활용하는 것이 중요합니다.
  • 이런 과정을 통해 생산성을 높일 수 있고, 문제 해결 능력도 더욱 발전시킬 수 있습니다.

 

 


스프레드시트 고급 작업을 위한 도움말 및 유용한 정보

이 읽기 자료에는 스프레드시트 함수 및 기능에 관한 지식을 심화하고 경험을 늘리는 데 도움이 될만한 리소스 목록이 나와 있습니다. 이를 통해 데이터 분석을 위한 스프레드시트 작업을 더욱 효율적이면서 효과적으로 진행하는 데 도움이 되는 다양한 고급 도움말 및 유용한 정보를 확인하실 수 있습니다. 아래에서 각 리소스의 설명을 검토하고, 링크를 클릭하여 자세히 알아보고, 도움이 될만한 링크를 저장하거나 북마크에 추가하세요. 학습하는 모든 내용을 직접 실습해보면서 스프레드시트에 대한 이해를 심화하고 스프레드시트에 익숙해질 수 있습니다. 이 읽기 자료에는 다양한 리소스가 나와 있으니 여러분에게 필요한 리소스는 자세히 살펴보고, 필요하지 않은 리소스는 건너뛰셔도 좋습니다.  

 

Google Sheets

  • Google 스프레드시트용 단축키: 스프레드시트 탐색이나 수식 및 함수 액세스 등 일상적인 작업을 빠르고 쉽게 진행하는 데 도움이 되는 다양한 단축키를 빠르게 배울 수 있는 아주 유용한 리소스입니다. 이 목록에는 Google Sheets 데스크톱 버전과 모바일 버전용 단축키가 모두 소개되므로 어떤 기기에서 작업하든 활용할 수 있습니다. 
  • Google 스프레드시트 함수 목록: Google Sheets 함수와 구문을 종합한 목록입니다. 각 함수에는 자세히 알아볼 수 있는 페이지 링크가 함께 제공됩니다.
  • 23 Google Sheets Formulas You Must Know: 가장 유용한 Google Sheets 수식 20개를 요약하여 설명한 블로그 문서입니다.
  • Google Sheets 수식을 위한 18가지 팁 및 기법: Google Sheets 단축키를 사용해 수식 작업을 처리하는 팁입니다.

 

Excel

  • Excel의 바로 가기 키: 위에서는 Google Sheets 단축키와 관련된 리소스를 확인했습니다. 마찬가지로 이 리소스에는 일상적인 스프레드시트 작업을 더욱 효율적으로 처리하는 데 도움이 되는 Excel 단축키 목록이 나와 있습니다. 이 목록에는 Excel 데스크톱 버전과 모바일 버전용 단축키가 모두 나와 있으므로 어떤 플랫폼으로 작업하든 활용할 수 있습니다. 
  • 222가지 Excel 단축키: 단축키 모음집이며, 단축키 사용법의 자세한 설명을 확인할 수 있는 링크도 함께 제공됩니다. 단축키를 빠르게 참고하는 데 유용합니다. 목록이 기능별로 구성되어 있어 여러분에게 가장 유용한 섹션으로 바로 이동하실 수 있습니다. 
  • 스프레드시트 함수 목록: Excel 스프레드시트 함수를 종합한 목록이며, 자세한 설명을 확인할 수 있는 링크도 함께 제공됩니다. 업무에 적용 가능한 함수와 예시를 자주 참고할 수 있도록 저장해놓으면 유용합니다. 
  • 스프레드시트 수식 목록: 위 리소스와 마찬가지로 Excel 스프레드시트 수식을 종합한 목록이며, 자세한 설명을 확인할 수 있는 링크도 함께 제공됩니다. 분석 작업에 필요한 수식을 언제든지 참고할 수 있도록 저장해놓으세요. 
  • 데이터 분석을 위한 필수 Excel 스킬: 피벗 테이블과 조건부 서식 등 이전에 배운 몇 가지 스프레드시트 도구의 고급 기능을 소개한 블로그 게시물입니다. 데이터 분석에 특히 유용한 스킬이 나와 있습니다. 각 섹션에는 실제 분석 작업에 적용할 수 있도록 함수 사용 과정을 단계별로 설명한 방법 안내 동영상이 포함되어 있습니다. 
  • Advanced Spreadsheet Skills: 마크 존 C. 옥실로가 제작한 프레젠테이션으로 스프레드시트의 기본적인 개요로 시작하여 Excel에서 실제 데이터에 수식을 적용하는 데 도움이 되는 고급 함수와 실습을 소개합니다. 지금까지 학습한 기본 개념을 검토하고 스킬을 연습하는 데 정말 유용합니다. 

스프레드시트 고급 작업을 위한 도움말 및 유용한 정보를 소개하는 온라인 리소스는 아주 많습니다. 직접 새로운 리소스와 도구를 찾으실 수도 있으며, 이 목록은 스프레드시트에 익숙해지기 위한 시작 지점으로 활용하시기 바랍니다.

 

 


 

어려움이 발생해도 걱정이 없는 이유

 

1. 온라인 리소스를 활용하는 이유

  • 많은 사람들은 데이터 애널리스트가 외부 도움 없이 모든 문제를 해결할 것이라고 생각하지만, 사실 온라인 리소스를 활용하는 능력이 더 중요합니다.
  • 새로운 지식을 빠르게 습득하고 이를 분석 작업에 반영할 수 있는 애널리스트가 최고의 애널리스트입니다.
  • 데이터를 분석하면서 발생하는 문제를 해결하기 위해서는 다양한 온라인 리소스와 커뮤니티의 도움을 받을 수 있습니다.

2. 효과적인 검색 방법

  • 문제를 해결하기 위해서는 단순히 인터넷을 검색하는 것만으로는 부족할 수 있습니다. 정확한 검색어를 사용하는 것이 중요합니다.
  • 예를 들어, 자전거 주행 시간 데이터를 처리할 때 시간 차이 계산에서 문제가 발생했다면, 단순히 "시간 차이 계산"을 검색하기보다는 더 구체적으로 **"스프레드시트에서 경과 시간 계산 조건부 수식"**처럼 명확한 검색어를 사용하는 것이 도움이 됩니다.

3. 적절한 사고 스킬 활용

  • 문제를 해결할 때 분석적 사고구조적 사고를 활용하여 문제를 작은 부분으로 나누고, 각각의 문제를 해결하는 방식으로 접근할 수 있습니다.
  • 예를 들어, SQL 쿼리에서 문자열의 왼쪽 네 문자를 가져오는 방법을 찾는다면, 단순히 "SQL 문자"라고 검색하지 말고 **"SQL LEFT 함수 문자열"**처럼 구체적인 검색어를 사용해 문제를 해결할 수 있습니다.

4. 다양한 도구 사용 능력

  • SQL, 스프레드시트, 그리고 R과 같은 여러 데이터 분석 도구를 다룰 수 있으면 더 다양한 문제를 해결할 수 있습니다.
  • 예를 들어, 스프레드시트에서 데이터를 처리할 수 없을 정도로 크기가 커지면 SQL을 사용해 데이터를 처리하는 것이 좋습니다. 이처럼 상황에 맞는 도구를 선택할 수 있는 능력이 필요합니다.

5. 실제 예시: MOD 함수

  • 자전거 공유 데이터를 분석할 때 자정 이후로 넘어간 시간을 계산하는 문제가 있을 때 MOD 함수를 사용할 수 있습니다.
  • 이 함수는 음수 값을 양수로 변환하여 자정이 넘어가는 시간을 처리할 수 있게 해줍니다. 온라인에서 MOD 함수를 찾아 적용한 사례처럼, 적절한 함수나 수식을 데이터에 맞게 수정하는 능력도 필요합니다.

6. 결론

  • 뛰어난 데이터 애널리스트는 문제 해결을 위해 온라인 리소스를 찾고 이를 작업에 활용하는 방법을 잘 알고 있습니다.
  • 사고 스킬을 활용하고, 적절한 검색어를 사용하며, 도구에 대한 이해도를 높여야 온라인에서 찾은 정보를 효과적으로 반영할 수 있습니다.

 


사용할 도구와 사용할 시기

 

데이터 애널리스트의 문제 해결: 도움을 받는 방법

1. 문제 해결 시 도움을 받는 이유:

  • 데이터 애널리스트는 작업 중에 어려움을 겪을 수 있습니다. 이때 도움을 받는 것은 문제를 해결하는 데 필수적입니다.
  • 도움을 받을 수 있는 방법은 두 가지가 있습니다: 동료나 멘토에게 질문하기, 인터넷에서 해결책 검색하기.

2. 동료 및 멘토에게 도움 요청하기:

  • 프로젝트에 참여한 사람들에게 질문하는 것이 효과적입니다. 이들은 문제 해결을 위해 유용한 정보와 아이디어를 제공할 수 있습니다.
  • 예를 들어, 자전거 공유 데이터에서 자전거 타기 간 평균 시간을 계산할 때 날짜와 시간이 다른 경우 문제가 발생할 수 있습니다. 이런 문제를 동료에게 문의하면 조건부 수식 사용을 추천받을 수 있습니다.

3. 온라인에서 도움을 찾기:

  • 온라인 포럼, 프로그램 지원 웹사이트 등에서 문제 해결을 위한 다양한 정보를 얻을 수 있습니다.
  • 검색어를 적절히 사용하여 원하는 해결책을 찾는 것이 중요합니다. 예를 들어, '스프레드시트에서 시간 차이를 계산하는 방법' 대신 '스프레드시트에서 경과된 시간을 계산하는 조건부 수식'으로 검색하면 더 구체적인 결과를 얻을 수 있습니다.

4. 사고 스킬과 용어 활용:

  • 문제를 해결하기 위해 분석적, 수학적, 구조적 사고 스킬을 활용합니다. 문제를 논리적으로 분석하고 해결책을 모색하는 것이 중요합니다.
  • 검색할 때 정확한 용어를 사용하는 것이 중요합니다. 예를 들어, SQL에서 문자열의 왼쪽 4개 문자를 추출하고자 할 때 'SQL 왼쪽 문자열 쿼리'로 검색하면 보다 구체적인 결과를 얻을 수 있습니다.

5. 도구 선택과 활용:

  • 데이터 애널리스트는 다양한 도구를 사용할 줄 알아야 합니다. 스프레드시트, SQL, R 등 다양한 도구를 상황에 맞게 선택하고 활용할 수 있어야 합니다.
  • 예를 들어, 스프레드시트가 너무 커서 다운되는 경우 SQL로 전환하여 데이터를 쿼리하는 방법을 사용할 수 있습니다. SQL이 복잡하게 느껴질 경우 R을 사용하여 통계 분석 및 시각화를 수행할 수 있습니다.

6. 도구에 대한 이해와 활용:

  • 도구를 사용하는 방법을 이해하고 있어야 온라인에서 찾은 해결책을 제대로 적용할 수 있습니다.
  • MOD 수식 등 다양한 수식을 데이터에 맞게 수정할 수 있어야 하며, 이를 통해 문제를 해결할 수 있습니다.

 

 

 

728x90

 

728x90
반응형