본문 바로가기

데이터분석

(12)
matplotlib 한글폰트 설정하기 python 으로 데이터 시각화할때 많이들 쓰시는 matplotlib 에서 한글이 깨지는데요. 이에 대해 설정을 해줘야 할 필요가 있습니다. 오늘은 이에 대해 다뤄 보겠습니다. 이 설정은 유튜브 'todaycode오늘코드' 를 참고 했구요. 맨 아래 링크를 첨부 했습니다 :) 필요한 라이브러리를 부르고 임의의 숫자들로 데이터를 구성해보겠습니다 :) 이 상태에서 시각화를 한 번 해볼게요. 한글이 깨지네요... 근데 그전에 저 그래프 창 보려고 하는데 뭔놈의 경고창 같은게 굉장히 많이 뜨네요. 제가 알기로는 라이브러리나 파이썬 버전 문제같은 거에 대한 경고? 같습니다. 위 캡쳐에는 별로 없지만, 사실 제 주피터에서는 마우스 스크롤 바퀴를 3바퀴정도 돌려야 위 그래프가 보였습니다. 저러한 거 안 보이게 해주는..
python 데이터 시각화 Matplotlib 기본1 라벨,범례,틱,스타일,타이틀 들어가기에 앞서서... python으로 데이터 시각화를 할때는 matplotlib 과 seaborn 을 많이 사용합니다. 2가지 패키지를 모두 다 알아야하며 많은 예제와 연습이 필요합니다. 이것만을 별도로 다룬 책은 (제가 보기에는 국내에) 없습니다 ㅠㅠ 보통 파이썬 책에서는 한 두 챕터 정도로만 설명하고 있으며 옵션에 대해서는 공식 문서를 참고하라는 식으로 나오는 정도입니다. 공식 문서와 몇 가지 잘 정리된 블로글 참고해서 재가공해보겠습니다. 좀 더 궁금한 것이 있다면 댓글로 달아주시면 찾아보도록 하겠습니다 :) matplotlib 패키지를 우선적으로 알아야한다는 생각이 들어서 matplotlib 사용법에 먼저 다뤄보려고 합니다. 저는 먼저 어떤 형태의 그래프를 그릴지에 대해서는 중요하지만 그래프를 그..
pandas 개념2 불린 추출과 중복값 처리(drop_duplicated) 이번 시간에는 불린 추출과 중복값 처리를 다뤄 보겠습니다. pandas cheet sheet1 의 Subset Observations(Rows)를 중심으로 다루어보겠습니다. 먼저 불린 추출의 경우 dataframe이름[ dataframe이름['칼럼 이름 '] 조건 연산 ] 의 형태로 인덱싱을 하면 되는데요. 예를 들겠습니다. 위처럼 데이터프레임을 하나 만들어 주겠습니다. 대괄호 안에 데이터프레임 이름과 칼럼명 그리고 조건 연산자를 넣어주면 (크거나 같거나 등등) 그에 조건이 true 인 로우만 보여주는 것을 볼 수 있습니다. 좀 더 보겠습니다. 'Do it 데이터분석을 위한 판다스 입문' 책에서 가져온 데이터입니다. 불린 추출을 위처럼 해주면 됩니다. 위에서는 나이가 평균 이상인 과학자들만 보여달라는 불..
pandas 개념1 기본(head,tail,sample,shape,info) + loc, iloc, 행번호, 인덱스 이해하기 (들어가기에 앞서서...) pandas는 데이터분석 하는 분들이라면 많이들 쓰는 패키지입니다. 위에 있는 판다스 치트 시트 2장만 온전히 이해한다면 기본적인 데이터 분석은 할 수 있습니다. 하지만, 위에 있는 pandas cheet sheet 를 온전히 이해하려면 알아야 될 게 몇 가지 있기에 그 부분들을 따로 정리하려고 합니다. 개인적으로 pandas cheet sheet 은 나중에 정리할 때 쓰는 것이 좋다고 생각합니다. 일단 제 나름대로 pandas 쓰면서 알아야하는 것들을 최우선으로 포스팅들을 이어나가보도록 하겠습니다. --시작-- 1. 기본 판다스에서는 데이터를 시리즈(Series)와 데이터프레임(DataFrame)이라는 자료형을 사용합니다. 데이터프레임은 엑셀에서 보는 시트(sheet)랑 동일..