본문 바로가기
카테고리 없음

조건에 맞는 데이터만 추출하기 – 파이썬 필터링 자동화

by jbparkbill 2025. 10. 29.
반응형

조건에 맞는 데이터만 추출하기 – 파이썬 필터링 자동화
조건에 맞는 데이터만 추출하기 – 파이썬 필터링 자동화

IT·디지털 자동화 블로그 · 파이썬 엑셀 자동화

 

pandas를 이용하면 엑셀 데이터를 불러온 뒤 특정 조건에 맞는 행만 자동으로 필터링할 수 있습니다. 이 글에서는 매출액, 날짜, 키워드 등 다양한 조건을 설정해 자동으로 필요한 데이터만 추출하는 방법을 실습 형태로 안내합니다.

왜 필터링 자동화인가

엑셀에서 특정 조건으로 데이터를 걸러내는 작업은 수동으로 하면 시간이 오래 걸립니다. 파이썬 pandas를 사용하면 조건을 한 번 정의해두고 버튼 한 번으로 매일 반복되는 필터링 작업을 자동화할 수 있습니다.

환경 설정

아래 명령으로 pandas와 openpyxl을 설치합니다.

pip install pandas openpyxl

데이터 불러오기

먼저 엑셀 파일을 pandas DataFrame으로 불러옵니다.

import pandas as pd

# 엑셀 파일 읽기
df = pd.read_excel("sales_data.xlsx")

print(df.head())

숫자 조건 필터링

매출액이 100만 원 이상인 데이터만 추출합니다.

# 매출액이 1,000,000 이상인 행만 선택
filtered = df[df["매출"] >= 1000000]

print(filtered.head())

문자 조건 필터링

특정 제품군이나 지역 이름이 포함된 데이터만 추출합니다.

# '서울'이 포함된 행만 선택
seoul = df[df["지역"].str.contains("서울", na=False)]

# 제품명이 'A'로 시작하는 행만 선택
product_a = df[df["제품명"].str.startswith("A")]

print(product_a.head())

날짜 조건 필터링

2025년 이후의 거래 데이터만 필터링하는 예시입니다.

# 날짜형 변환 후 조건 필터링
df["날짜"] = pd.to_datetime(df["날짜"])
recent = df[df["날짜"] >= "2025-01-01"]

print(recent.head())

복합 조건 결합

여러 조건을 동시에 만족하는 행만 추출할 수도 있습니다.

# 매출 100만 이상이면서 지역이 서울인 경우
result = df[(df["매출"] >= 1000000) & (df["지역"] == "서울")]

print(result.head())

결과 저장

필터링된 데이터를 새 엑셀 파일로 저장합니다.

result.to_excel("필터링_결과.xlsx", index=False)
print("필터링 결과 저장 완료!")

다음 글 예고: 자동 보고서 생성으로 이어가기

다음 편에서는 필터링된 데이터를 기반으로 자동 보고서(PDF) 파일을 생성하고, 이메일로 전송하는 워크플로를 구성합니다.

다음 글 보러 가기

관련 읽을거리: 셀 값 수정과 입력 자동화 · 엑셀 시트 자동 생성하기

참고: Python 공식 문서, pandas 사용자 가이드, openpyxl 매뉴얼. 본 예제는 사내 매출 분석, 고객 필터링, 인사 데이터 분류 등 실무 자동화에 즉시 활용 가능합니다.

반응형