Data Science
[데이터탐색] 히트맵 중복 영역 제거 코드 heatmap vs 클러스터맵 clustermap
태지쌤
2023. 6. 9. 20:00
반응형
히트맵과 클러스터맵은
모두 데이터의 관계를
시각화하는 데 사용되는
시각화 방법입니다.
히트맵은 데이터의 값을
2차원 격자에 매핑하여
데이터의 분포를 보여줍니다.
sns.heatmap(df.corr(), cmap='viridis')

클러스터맵은 히트맵의 데이터를
클러스터링하여
데이터의 군집을 보여줍니다.
sns.clustermap(df.corr(), annot = True, cmap = 'RdYlBu_r', vmin = -1, vmax = 1, )

히트맵과 클러스터맵의 차이점은
히트맵은 데이터의 분포만을 보여줍니다.
반면, 클러스터맵은 데이터의 분포와
군집을 모두 보여줍니다.
따라서 클러스터맵은 히트맵보다
데이터의 관계를 이해하는 데
더 도움이 될 수 있습니다.
예를 들어, 고객의 구매 내역을
히트맵으로 시각화하면
고객의 구매 패턴을 알 수 있습니다.
그러나 클러스터맵으로 시각화하면
고객을 군집으로 나눌 수 있습니다.
각 군집의 특성을 분석하면
고객의 구매 패턴을
더 잘 이해할 수 있습니다.
다음은 중복을 제거한
히트맵 시각화 파이썬 코드
# 중복 제거 히트맵 시각화
# 매트릭스의 우측 상단을 모두 True인 1로, 하단을 False인 0으로 변환.
np.triu(np.ones_like(df.corr()))
# True/False mask 배열로 변환.
mask = np.triu(np.ones_like(df.corr(), dtype=np.bool))
# 히트맵 그래프 생성
fig, ax = plt.subplots(figsize=(15, 10))
sns.heatmap(df.corr(),
mask=mask,
vmin=-1,
vmax = 1,
annot=True,
cmap="RdYlBu_r",
cbar = True)
ax.set_title('Wine Quality Correlation', pad = 15)

중복 영역이 제거된 히트맵 시각화
반응형