CHHB stroy

🐼 Pandas 라이브러리 자주 쓰는 함수 총정리 본문

Python

🐼 Pandas 라이브러리 자주 쓰는 함수 총정리

CHHB 2025. 8. 3. 20:24

파이썬 데이터 분석의 필수 라이브러리, Pandas!
현업에서 가장 많이 쓰는 함수만 모아, 예시와 함께 쉽게 정리했습니다.


📦 1. 설치 및 임포트

pip install pandas
import pandas as pd

📋 2. 데이터프레임(DataFrame) 만들기

data = {
    '이름': ['김철수', '이영희', '박민수'],
    '나이': [25, 30, 22],
    '성별': ['남', '여', '남']
}
df = pd.DataFrame(data)
print(df)
이름 나이 성별
김철수 25
이영희 30
박민수 22

📑 3. CSV 파일 읽기 & 저장하기

읽기

df = pd.read_csv('파일명.csv', encoding='utf-8')
print(df.head())

저장

df.to_csv('저장할파일명.csv', encoding='utf-8-sig', index=False)

👀 4. 데이터 미리보기 (head, tail)

df.head(3)  # 상위 3개 행 출력
df.tail(3)  # 하위 3개 행 출력

🔎 5. 데이터 구조 및 요약

df.shape      # (행, 열) 개수 튜플 반환
df.info()     # 전체 데이터 타입 및 결측치 정보 등 요약
df.dtypes     # 각 컬럼별 데이터 타입
df.columns    # 컬럼명 목록

📊 6. 기본 통계 요약 (describe)

df.describe()

🎯 7. 데이터 선택 및 필터링 (loc, iloc)

레이블 기준 선택 (loc)

df.loc[0, '이름']           # 0번째 행의 '이름'
df.loc[df['나이'] > 24]     # 나이가 24 초과인 행

인덱스 기준 선택 (iloc)

df.iloc[0, 1]     # 0번째 행, 1번째 열 (25)
df.iloc[0:2, 0:2] # 0~1행, 0~1열

➕ 8. 컬럼 추가 & 삭제

추가

df['직업'] = ['학생', '엔지니어', '의사']

삭제

df.drop('성별', axis=1, inplace=True)

🔁 9. 중복값 & 결측치 처리

중복 제거

df.drop_duplicates(inplace=True)
# 특정 컬럼 기준
df.drop_duplicates(subset=['이름'], inplace=True)

결측치 확인 및 채우기

df.isna().sum()  # 컬럼별 결측치 개수
df.fillna({'나이': df['나이'].mean()}, inplace=True)

🏷️ 10. 정렬 (sort_values)

df.sort_values(by='나이', ascending=True, inplace=True)

🧮 11. 그룹별 연산 (groupby)

data = {
    '팀': ['A', 'B', 'A', 'B'],
    '점수': [100, 80, 90, 85]
}
df = pd.DataFrame(data)
print(df.groupby('팀').mean())
점수
A 95.0
B 82.5

🔗 12. 데이터 병합 (merge)

df1 = pd.DataFrame({'id': [1,2,3], '이름': ['김철수','이영희','박민수']})
df2 = pd.DataFrame({'id': [1,2,3], '직업': ['학생','엔지니어','의사']})

df_merge = pd.merge(df1, df2, on='id')
print(df_merge)
id 이름 직업
1 김철수 학생
2 이영희 엔지니어
3 박민수 의사

⚙️ 13. 자주 쓰는 옵션 요약

옵션 설명
inplace=True 원본 객체 변경
axis=1 열 단위 작업
axis=0 행 단위 작업
ascending=False 내림차순 정렬
index=False 인덱스 없이 저장