본문 바로가기

도서,강의 리뷰

실무 예제로 배우는 데이터 공학 (제이펍) 서평

"제이펍에서 책을 제공받아 작성된 서평입니다."

 

 

 

 

이번 시간에는 데이터 엔지니어링에 대한 책에 대한 리뷰를 진행하겠습니다.

데이터 엔지니어링에 쓰이는 툴에 대한 책들은 간간히 있지만 이렇게 종합적으로 다룬 책은 국내에 많지 않기에 굉장히 반가웠습니다.

 

 

 

 

 

 

저자가 말하는 책의 독자는 위와 같습니다. 파이썬을 업무에서 활용하거나 공부를 하고 있고 '데이터'를 이용한 직무를 희망한다면 이 책이 큰 도움이 될 것으로 보입니다. 

 

 

 

 

책에 대한 챕터들의 간략한 소개입니다.  

 

이제, 1장을 조금 보겠습니다.

 

 

 

1장에서는 데이터 파이프라인에 대한 흐름을 설명하면서 어떤 도구들이 사용되는지 알려줍니다. 설명과 도식화가 잘되어있어서, 

이쪽 파트가 궁금했던 저에게는 흐름을 잡는데 굉장히 유용했습니다. 항상 팀에서 카산드라, 엘라스틱 서치, 에어플로우 등등 단어들이 들렸지만 정작 제가 아직은 업무상 접할 기회가 없었기 때문입니다. 

 

 

 

 

 

2장에서는 설치만을 다룹니다. 데이터공학에서 사용하는 툴들은 다양하기에 이렇게 하나의 챕터에서 설치만을 다룰 수 있었는데 이 장이 도움이 되는 게 실제 업무에서 필요해따라 설치하는 일이 발생할 수 있기에 이를 직접 내 컴퓨터에 설치하는 것은 좋았습니다. 설치는 크게 어렵지 않습니다. 책 보고 커맨드를 따라서 실행하면 잘됩니다! (에러가 발생한다면 구글링을 하셔야겠지만...ㅠ)

 

 

 

 

 

3장부터 본격적인 데이터 파이프라인에 대한 실습을 합니다. faker 라는 라이브러리를 이용해 임의의 데이터를 만들어서 nifi 와 에어플로우 등을 통해 데이터를 핸들링하는 실습이 진행됩니다. 이러한 툴을 사용하면서 데이터를 다루니 진짜 데이터 엔지니어가 되는 기분을 느낄 수 있었습니다 ㅎㅎ 다만 책이 작년이 나온 것을 올해 번역한 것이기에 구동이 조금 안되는 경우들이 있습니다 ㅠㅠ

이런건 외서를 번역하는 it 서적의 특성상 어쩔 수 없는 부분입니다. 끈기를 가지고 해결해야 하는데 path나 환경 설정으로 에러를 해결한 경험이 없다면 실습이 굉장히 어려울 수 있습니다. 이러한 과정을 몇 번 겪어보고 익숙하다면, 구글링으로 해결하면 됩니다.

 

 

 

4장에서는 엘라스틱 서치를 다루는데 꽤 유용한 실습이었습니다. 

 

 

전반적으로 이 책은 데이터 엔지니어링에서 사용되는 다양한 툴을 설치해서 실습을 통해 일련의 흐름을 몸소 익힐 수 있는 책입니다. 국내에 엘라스틱서치, 카산드라 만을 설명하는 번역서들이 간간히 나오고 있지만 이렇게 '데이터공학'을 설명하기 위해 다양한 툴을 이용해 이론과 실습을 알려주는 책은 처음 보는 것 같습니다. 특히나, 신간이기에 툴의 버전이 그렇게 예전이 아닙니다. 그래서 지금 데이터를 공부하는 사람이나 저같은 주니어 개발자들은 이 책을 꼭 보면 좋을 것 같습니다! (저는 회사에 요청해서 하나 구비해서 사무실에 두려고 합니다 ㅎㅎ) 

 

실습이 깔끔하게 안되는 꽤 경우들이 있으니...! 구글링을 통해 실습에서 에러나는 걸 해결해야 한다는 점 꼭 유념해주세요...!

 

이상 '실무 예제로 배우는 데이터 공학' 리뷰를 마치겠습니다!