분류 전체보기 (171) 썸네일형 리스트형 install julia in ubuntu 18.04 (20200524) hi, today i'm going to install julia in ubuntu 18.04. it's very easy. so, you don't have to worry about it. let's get it started. first of all, go to the following the site. julialang.org/downloads/ The Julia Language Official website for the Julia programming language julialang.org and then, you can see the this scene. (below capture) I think you'll wonder what's best version based on today.(20.. numpy reshape(-1,1) numpy에서 reshape 를 할 때 -1을 인자로 넣는 것을 자주 보게 됩니다. 이를 정리해보겠습니다. 우선 reshape 은 numpy array 의 배열을(=행과열) 재구성하는 겁니다. 아래와 같은 행렬이 있다고 한다면, 이를 reshape 하겠습니다. 행 부분에 -1 을 넣었을 때의 reshape 형태입니다. -1을 통해서 좀 더 간편하게 reshape 이 됩니다. 위에서처럼 열 부분이 3열이기만 하면 된다면 (=물론 속성 전체 갯수에 맞춰서 행x열로 인수분해가 되야합니다) 그냥 -1을 넣어주면 됩니다. 열 부분에 -1을 넣어보겠습니다. 행 부분처럼 똑같습니다. 자, 그러면 reshape 을 해줄 때 m*n 부분이 원소의 전체 갯수와 맞아야만 reshape 이 되는데요. 이를 지켜주지 않는다면 .. <파이썬으로 배우는 딥러닝 교과서> 리뷰 한빛미디어 서평단으로 인해 좋은 책을 리뷰할 기회들이 매달 생기고 있다. 이번달에 리뷰하게 된 책은 '파이썬으로 배우는 딥러닝 교과서'이다. 이 책이 어떤 사람에게 적합하고 장단점은 무엇인지 지금부터 써보겠습니다. 저자는 일본인이며 일본에서 인공지능과 관련된 교육을 하는 업체를 운영 중인것으로 소개되어 있다. 확실히 일본인 저자들은 책을 이해하기 쉽게 잘쓴다는 것을 이책에서도 느낄 수 있었다. 장점1. 퀴즈 중간중간 나오는 퀴즈는 내가 제대로 머릿속으로 정리했는지를 알 수 있게 해주는 역할을 해준다. 간단한 퀴즈를 통해서 개념을 명확하게 그릴 수 있는 것이 좋은 점이라고 생각한다. 군데군데 이러한 퀴즈가 계속 나온다. 장점2. 도표와 그림 애매한 개념들을 저자의 관점에서 명확히 도표와 그림으로 이해하기 .. pandas map 함수와 정규표현식을 이용한 텍스트 전처리 pandas 의 map 함수를 이용하여 텍스트 전처리를 해보겠습니다. 보통 텍스트 데이터를 가져와서 정제할 때, 정규표현식을 이용해서 정제를 하는데요. 도메인 방향에 맞춰서 정제를 해야겠지만, 이번에는 자음,모음,html 태그, 특수기호를 제거해보겠습니다. 그럼 데이터를 가져와서 바로 해보겠습니다. 예전에 크롤링한 제품 리뷰 데이터를 그대로 쓰겠습니다. 중간에 dropna 하고 해서 12584 개의 리뷰가 있습니다. 10개 정도만 보겠습니다. ㅠㅠ 라든지 !! ~~ 같은 특수기호들이 눈에 보입니다. map 함수에 적용할 클리어링 함수는 아래와 같습니다. # cleasing 함수 def cleasing(text): repl ='' pattern = '([ㄱ-ㅎㅏ-ㅣ]+)' # 자음, 모음 제거 text =.. pandas dataframe csv file to txt (feat.corpus 만들기) 간단한 팁을 정리해보려고 합니다. 텍스트 데이터를 정제하다 보면 corpus 를 만들어야 하는데요. 이 때, 보통 txt 포맷으로 만드는 걸로 알고 있습니다. 크롤링을 할 때, txt 나 csv 파일 둘 다 해놓아도 어떤 api 에서는 csv 파일을 pandas로 읽어서 작업하는 게 편할 때가 있고, 어떤 api 에서는 txt 파일로 input 해줘야 하는 경우들이 종종 있습니다. 그래서 이번 시간에는 pandas 의 dataframe 중에 특정 Series 컬럼을 txt 로 바꾸는 걸 정리해보려 합니다. 대단한 건 아니지만 이게 간간히 필요할 때가 있습니다. { 저의 경우에는 말이죠 :) } 저의 경우에는 sentencepiece 로 vocab 을 생성하거나 scikit-learn 에 특정 벡터를 만들.. 사이킷런 TFIDF 와 코사인유사도 로 문서 유사도 구하기 이번 시간에는 위키 데이터를 이용해서 문서 유사도를 구해보겠습니다. scikit-learn 의 TFIDF API 를 써서 구해보겠습니다. train 시키는 건 간단한데 이걸 저장하고 로드하는법도 알면 편합니다 :) 위키에서 문서를 크롤링 한뒤, 정규표현식을 써서 한글,숫자,영어 이외에는 제거했습니다. 일본어나 한자 같은게 들어가 있는 경우도 있는데 중요한 feature 라고 보기 힘들다고 생각했기 때문입니다. 그리고 mecab 을 활용해서 토큰나이저를 따로 만들었습니다. mecab 사전을 보면 나와있는 태그들을 보고 명사,동사,형용사 등의 말만 추출하도록 만들었고, 한 음절로 되는 텍스트들은 정보가치가 떨어질 것으로 판단했습니다. 그리고 별도로 불용어 100개 사전을 참고했습니다. (출처는 맨 아래 있으.. 파이썬 이터레이터(iterator)와 이터러블(iterable) 차이점 많이들 헷갈려하는 개념들을 정리해보았습니다. 제 이해를 쉽게 하기 위한 정리이기에 틀린 부분이 있을 수 있습니다. 정정해줄 부분이 있다면 댓글로 가르침을 주시면 감사하겠습니다 :) 1) 이터레이션(iteration) 어떤 객체의 원소에 하나씩 차례로 접근하는 것. 명시적으로든 암묵적으로든 반복문을 사용해 객체의 여러 원소에 하나하나 접근하면 그것은 이터레이션(iteration)이다. Iteration is a general term for taking each item of something, one after another. Any time you use a loop, explicit or implicit, to go over a group of items, that is iteration. 일단 '이.. 크롤링 입문(2) selenium - 시간창 대기 ,팝업창 닫기 2020 04 19 1) 시간창 대기 3가지 보통 시간창 대기는 time.sleep , implicity_wait , Explicit Waits 3가지를 씁니다. time.sleep 은 그냥 지정한 시간만큼 기다린 뒤에 작업을 진행. 파이썬 내장 모듈이죠. implicitly_wait 는 지정한 시간만큼 기다려주고 그 이후는 기다리지 않습니다. Explicit Waits 는 특정 상태가 될때까지 기다리고, 상태가 되면 바로 실행한다는 의미입니다. from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.w.. 이전 1 ··· 11 12 13 14 15 16 17 ··· 22 다음