본문 바로가기
카테고리 없음

데이터 분석의 첫걸음, 파이썬으로 엑셀 다루기

by jbparkbill 2025. 11. 14.
반응형

데이터 분석의 첫걸음, 파이썬으로 엑셀 다루기
데이터 분석의 첫걸음, 파이썬으로 엑셀 다루기

많은 직장인과 학생들이 데이터를 다룰 때 가장 먼저 사용하는 도구는 ‘엑셀’이다. 하지만 엑셀은 데이터가 많아질수록 관리와 반복 작업이 점점 어려워진다. 이럴 때 파이썬(Python)을 이용하면 단 몇 줄의 코드로 데이터를 자동으로 불러오고 정리할 수 있다.


핵심 요약:
파이썬의 pandasopenpyxl을 이용하면 복잡한 엑셀 데이터를 쉽게 불러오고, 필터링하고, 분석 결과를 자동으로 저장할 수 있다.

1. 엑셀을 다루기 위한 파이썬 환경 준비

먼저 파이썬이 설치되어 있어야 하며, 엑셀 데이터를 처리하기 위한 라이브러리 pandasopenpyxl을 설치한다.

pip install pandas openpyxl

pandas는 데이터 분석에 특화된 라이브러리이며, openpyxl은 엑셀 파일(. xlsx)을 읽고 쓰는 데 사용된다.

2. 엑셀 파일 불러오기

엑셀 파일을 불러오는 기본 코드는 다음과 같다.

import pandas as pd

# 엑셀 파일 불러오기
df = pd.read_excel("data.xlsx")

# 데이터 미리보기
print(df.head())

위 코드에서 head()는 엑셀의 상위 5행만 출력해 데이터의 구조를 빠르게 확인할 수 있도록 해준다. 파일이 같은 폴더에 없을 경우, 전체 경로를 지정해야 한다.

3. 데이터 필터링과 정렬

파이썬을 이용하면 엑셀의 필터 기능을 훨씬 더 자유롭게 사용할 수 있다.

# 특정 조건 필터링
filtered = df[df["매출"] > 1000000]

# 결과 출력
print(filtered)

이 코드는 매출이 100만 원 이상인 행만 추출한다. 복잡한 다중 조건도 아래처럼 간단히 작성할 수 있다.

# 조건 2개 이상 적용
filtered = df[(df["매출"] > 1000000) & (df["지역"] == "서울")]

이런 식으로 원하는 조건을 추가하면, 수천 개의 행에서도 필요한 데이터만 빠르게 뽑아낼 수 있다.

4. 엑셀 데이터 가공 및 계산

엑셀에서는 복잡한 수식이 필요한 계산도 많지만, 파이썬은 직관적인 코드 한 줄이면 된다.

# 새로운 컬럼 추가
df["부가세포함"] = df["매출"] * 1.1

# 평균 계산
print(df["매출"].mean())

이렇게 하면 기존 데이터에 새로운 계산 결과를 추가할 수 있다. 특히 여러 개의 시트(sheet)를 동시에 처리하는 경우, pandas.ExcelWriter()를 활용하면 한 번에 여러 시트를 생성할 수 있다.

5. 결과를 엑셀 파일로 저장

가공된 데이터를 다시 엑셀로 저장하는 과정도 매우 간단하다.

# 가공된 데이터 저장
df.to_excel("result.xlsx", index=False)

index=False 옵션을 추가하면 엑셀에 불필요한 인덱스 열이 포함되지 않는다. 이렇게 만들어진 결과 파일은 바로 업무에 활용할 수 있다.

6. 여러 파일을 한 번에 병합하기

여러 개의 엑셀 파일을 일일이 열어 합치는 대신, 파이썬으로 한 번에 자동 병합할 수도 있다.

import os

files = [f for f in os.listdir() if f.endswith(".xlsx")]
merged = pd.concat([pd.read_excel(f) for f in files])

merged.to_excel("merged.xlsx", index=False)

이 스크립트를 실행하면 같은 폴더 안의 모든 엑셀 파일을 하나의 파일로 합쳐준다. 일일 보고서나 월간 데이터 통합에 매우 유용하다.

7. 간단한 통계 분석 예제

엑셀에서 자주 하는 평균, 최댓값, 그룹별 집계도 파이썬에서는 손쉽게 수행할 수 있다.

# 평균, 합계, 최대값
print(df["매출"].mean())
print(df["매출"].sum())
print(df["매출"].max())

# 그룹별 평균
print(df.groupby("지역")["매출"].mean())

특히 groupby()는 엑셀의 ‘피벗 테이블’ 기능을 코드로 대체할 수 있는 강력한 도구다.

8. 실무 활용 아이디어

  • 📈 일별 매출 자동 요약 리포트 생성
  • 📊 여러 부서별 데이터를 자동 병합 및 정리
  • 📧 이메일 자동 발송용 데이터 생성
  • 📅 날짜별, 카테고리별 판매 추이 분석

이러한 자동화는 단순한 반복 업무를 줄여주고, 데이터 분석에 집중할 수 있는 환경을 만들어준다.

파이썬으로 데이터 다루기의 시작점

파이썬으로 엑셀을 다루는 것은 데이터 분석의 가장 현실적인 첫걸음이다. 단순히 엑셀을 대체하는 수준을 넘어, 데이터를 ‘이해하고 활용하는’ 능력을 키워준다.

이제 단순히 셀을 클릭하는 대신, 데이터를 자동으로 불러오고 분석하는 코드를 작성해보자. 당신의 업무 속도는 두 배, 분석의 깊이는 세 배로 달라질 것이다.

작성자: 라라 · 파이썬 데이터 자동화 시리즈

반응형