[Numpy] where, argmax, unique, argsort

728x90

데이터를 조건에 맞게 찾고, 정렬하고, 고유값을 뽑아내는 핵심 함수들입니다.

데이터 분석에서 "찾기"는 기본 중의 기본이다.

이 네가지 함수는 조건, 추출, 분류, 정렬, 그룹핑의 기반이 되는 매우 자주 쓰이는 함수들이다.

● 조건이 True인 인덱스 반환

import numpy as np

a = np.array([10, 20, 30, 25, 15])
np.where(a > 20)

# (array([2, 3], dtype=int64),)

─ 조건을 만족하는 인덱스를 튜플로 반환을 합니다.

● 조건에 따라 값 선택 (삼항 연산처럼 사용)

np.where(a > 20, 'PASS', 'FAIL')

# ['FAIL', 'FAIL', 'PASS', 'PASS', 'FAIL']

─ np.where(cond, A, B) → 조건이 True면 A, False면 B

Pandas의 .apply(lambda x: 'A' if ... else 'B') 보다 훨씬 빠릅니다.

a = np.array([5, 3, 9, 1])
np.argmax(a)  

# 2

─ 가장 큰 값인 9의 위치는 index 2

● 2차원 배열에서 axis 지정

b = np.array([[1, 2, 3], [7, 4, 0]])
np.argmax(b, axis=0)  # → 각 열의 최대값 위치 → [1 1 0]
np.argmax(b, axis=1)  # → 각 행의 최대값 위치 → [2 0]

─ axis=0은 "세로 방향", axis=1은 "가로 방향"

data = np.array([3, 1, 2, 3, 2, 1, 4])
np.unique(data)  

# [1 2 3 4]

─ 중복 제거 + 정렬 결과 반환

● 고유값 + 개수 반환

vals, counts = np.unique(data, return_counts=True)

─ 범주형 데이터의 분포 확인할 때 자주 사용

a = np.array([50, 10, 30])
np.argsort(a)  

# [1 2 0]

내림차순 정렬은

a[np.argsort(-a)]

argsort()는 데이터를 변경하지 않고, 정렬 순서 정보만 제공

만일 실제 데이터에서 점수 기준 상위 N명 추출을 해야한다면

scores = np.array([85, 90, 70, 95, 80])
top3_idx = np.argsort(scores)[-3:][::-1]
top3 = scores[top3_idx]

# [95, 90, 85]

argsort()로 정렬 순서 → 인덱스로 데이터 재구성

위에 같은 함수들을 사용할 때 주의할 점이 있습니다.

위 네가지의 함수는 Numpy에서 탐색, 분류, 정렬, 전처리의 핵심입니다.

특히 where( )와 argsort( )는 벡터화 처리를 기반으로 하여

성능이 중요한 대용량 처리에서 반드시 알아야 할 필수 함수입니다.

728x90

[Numpy] np.dot (Dot Product) (0)	2025.05.26
[Numpy] NaN과 inf 다루는 방법 (0)	2025.05.20
[Numpy] 슬라이싱, 마스킹, 조건 추출 (0)	2025.05.02
[Numpy] 브로드캐스팅(broadcasting)과 벡터화(vectorization) 연산 (0)	2025.05.02
[Numpy] ndarray 구조 - 배열의 모양, 차원 ,타입 (0)	2025.05.02

티스토리툴바