df dropna와 NaN replace[groupby시 유의점]

2023. 7. 4. 18:06

이슈 : sql을 dataframe으로 변형하는 과정에서 groupby를 할 때 groupby key값에 NaN이 존재하는 경우 해당 row들이 삭제되어 정합성이 맞지 않음

원인 : groupby시 기본 dropna=True로 설정돼 있음

조치 :

1. groupby 옵션에서 dropna=False로 변경

2. insert시 NaN이 있으면 문제가 있기 때문에

df.replace({np.nan: None}, inplace=True)

로 NaN을 None으로 replace해줌

들여야 할 습관 : groupby해서 NaN인 경우를 살려야 되는지 꼭 체크하고 dropna를 바꿔주자

[ETL] DB 과부하를 줄이기 위한 클러스터링 [TEMP] (0)	2025.02.28
[생각정리] load balancer가 있는 상황에서 output 처리 (0)	2023.09.13
데이터 병합 시 유의해야 할 data type 문제 (0)	2023.07.03
Druid에 insert와 delete 하는 방식 (0)	2023.02.15
Druid 사용 및 Airflow 자동화 구조 (2)	2023.02.03

개발 갈무리