이슈 : sql을 dataframe으로 변형하는 과정에서 groupby를 할 때 groupby key값에 NaN이 존재하는 경우 해당 row들이 삭제되어 정합성이 맞지 않음
원인 : groupby시 기본 dropna=True로 설정돼 있음
조치 :
1. groupby 옵션에서 dropna=False로 변경
2. insert시 NaN이 있으면 문제가 있기 때문에
df.replace({np.nan: None}, inplace=True)
로 NaN을 None으로 replace해줌
들여야 할 습관 : groupby해서 NaN인 경우를 살려야 되는지 꼭 체크하고 dropna를 바꿔주자
'ETL 관련' 카테고리의 다른 글
[생각정리] load balancer가 있는 상황에서 output 처리 (0) | 2023.09.13 |
---|---|
데이터 병합 시 유의해야 할 data type 문제 (0) | 2023.07.03 |
Druid에 insert와 delete 하는 방식 (0) | 2023.02.15 |
Druid 사용 및 Airflow 자동화 구조 (2) | 2023.02.03 |
[Data] Druid와 Superset (0) | 2023.01.09 |