전체 글 (171) 썸네일형 리스트형 pandas dataframe csv file to txt (feat.corpus 만들기) 간단한 팁을 정리해보려고 합니다. 텍스트 데이터를 정제하다 보면 corpus 를 만들어야 하는데요. 이 때, 보통 txt 포맷으로 만드는 걸로 알고 있습니다. 크롤링을 할 때, txt 나 csv 파일 둘 다 해놓아도 어떤 api 에서는 csv 파일을 pandas로 읽어서 작업하는 게 편할 때가 있고, 어떤 api 에서는 txt 파일로 input 해줘야 하는 경우들이 종종 있습니다. 그래서 이번 시간에는 pandas 의 dataframe 중에 특정 Series 컬럼을 txt 로 바꾸는 걸 정리해보려 합니다. 대단한 건 아니지만 이게 간간히 필요할 때가 있습니다. { 저의 경우에는 말이죠 :) } 저의 경우에는 sentencepiece 로 vocab 을 생성하거나 scikit-learn 에 특정 벡터를 만들.. 사이킷런 TFIDF 와 코사인유사도 로 문서 유사도 구하기 이번 시간에는 위키 데이터를 이용해서 문서 유사도를 구해보겠습니다. scikit-learn 의 TFIDF API 를 써서 구해보겠습니다. train 시키는 건 간단한데 이걸 저장하고 로드하는법도 알면 편합니다 :) 위키에서 문서를 크롤링 한뒤, 정규표현식을 써서 한글,숫자,영어 이외에는 제거했습니다. 일본어나 한자 같은게 들어가 있는 경우도 있는데 중요한 feature 라고 보기 힘들다고 생각했기 때문입니다. 그리고 mecab 을 활용해서 토큰나이저를 따로 만들었습니다. mecab 사전을 보면 나와있는 태그들을 보고 명사,동사,형용사 등의 말만 추출하도록 만들었고, 한 음절로 되는 텍스트들은 정보가치가 떨어질 것으로 판단했습니다. 그리고 별도로 불용어 100개 사전을 참고했습니다. (출처는 맨 아래 있으.. 파이썬 이터레이터(iterator)와 이터러블(iterable) 차이점 많이들 헷갈려하는 개념들을 정리해보았습니다. 제 이해를 쉽게 하기 위한 정리이기에 틀린 부분이 있을 수 있습니다. 정정해줄 부분이 있다면 댓글로 가르침을 주시면 감사하겠습니다 :) 1) 이터레이션(iteration) 어떤 객체의 원소에 하나씩 차례로 접근하는 것. 명시적으로든 암묵적으로든 반복문을 사용해 객체의 여러 원소에 하나하나 접근하면 그것은 이터레이션(iteration)이다. Iteration is a general term for taking each item of something, one after another. Any time you use a loop, explicit or implicit, to go over a group of items, that is iteration. 일단 '이.. 크롤링 입문(2) selenium - 시간창 대기 ,팝업창 닫기 2020 04 19 1) 시간창 대기 3가지 보통 시간창 대기는 time.sleep , implicity_wait , Explicit Waits 3가지를 씁니다. time.sleep 은 그냥 지정한 시간만큼 기다린 뒤에 작업을 진행. 파이썬 내장 모듈이죠. implicitly_wait 는 지정한 시간만큼 기다려주고 그 이후는 기다리지 않습니다. Explicit Waits 는 특정 상태가 될때까지 기다리고, 상태가 되면 바로 실행한다는 의미입니다. from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.w.. 웹 크롤링 입문 (1) (selenium) 202004 크롤링을 다시 공부해보고 싶어서 스터디한 내용을 정리해보도록 하겠습니다. 2020년 4월 19일 실습한 내용입니다. 1) selenium , chromedriver 설치 크롤링에 맞게 세팅을 하겠습니다. 우선 저의 경우는 python3.6 의 가상환경을 활성화한뒤 selenium 을 설치하겠습니다. # 패키지 설치하기 $ conda install selenium # 패키지 설치 확인 $ conda list 이제 크롬 드라이버를 다운 받습니다. 크롬 버전을 확인하겠습니다. 크롬을 열고 우측 상단의 세로로 점이 3개 찍혀있는 아이콘을 누르고 help 누르고 about chrome 누르면 바로 나옵니다 :) 저의 경우는 위와 같습니다. chrome driver 를 구글에 검색하셔서 본인 컴퓨터 버전에 맞는 드.. install visual studio 2017, opencv, python in window10 (2020 0418) 이번에는 visual studio 2017 과 opencv 를 설치해보겠습니다. 제가 지난 번에 설치했던 vs code 랑은 다른 에디터 입니다. visual studio는 보통 c 나 c++, c# 언어에서 많이 쓰는 에디터입니다. 물론 파이썬도 쓸 수 있는 에디터입니다. 이번 포스팅에서 모든 에디터와 패키지 설치 날짜는 2020년 4월 18일 14시 기준입니다. 1) install visual studio 2017 in window 10 https://my.visualstudio.com/Downloads?q=visual%20studio%202017 Azure DevOps Services | 로그인 현재 사용자 환경에서 Microsoft Internet Explorer의 보안 강화 구성이 사용하도록 설.. install python,vscode in window10 (2020 0418) 이번 시간에는 window 10 에 파이썬과 vscode 를 설치해보겠습니다. 설치하는 시간은 2020년 4월 18일 13시 기준으로 설치 진행하였습니다. 아나콘다는 설치하지 않을 겁니다. 1) 파이썬 설치 우선 파이썬 공식 사이트의 다운로드 부분을 들어갑니다. https://www.python.org/downloads/ Download Python The official home of the Python Programming Language www.python.org 들어가면 (20200418 1300 기준 접속시) 아래처럼 나옵니다. 사실 vscode 를 설치해주려는 이유는 가상환경 생성 작업을 편하게 해서 작업하기 위해서입니다. 그러니 3.7이든 3.6이든 기본 버전은 상관없다고 생각합니다. 일단 .. 파이썬 함수 코드 스타일 PEP20 - 1 구글링하면서 보게 되는 파이썬으로 된 오픈소스들을 보면서 왜 항상 이러한 구문들이 들어가 있을까? 라고 생각되는 코드들이 있습니다. 최근 보고 있는 책('파이썬을 여행하는 히치하이커를 위한 안내서')에서 이에 대한 실마리를 알 수 있었고, 이번 포스팅부터는 그에 대해 조금씩 정리해보고자 합니다. 우선, 대부분의 파이썬 코드들은 PEP20 을 따르는 것으로 보인다. 최근 나도 직접 함수나 클래스를 짜게 될 상황에 닥쳐 있는데, 이러한 가이드들이 도움이 된다. 1) Errors should never pass silently. (오류 앞에서 절대 침묵하지 말지어다. ) 아래 코드는 절대 실행하지 말자. while True: try: print("nyah",end =" ") except: pass except.. conda 가상환경 명령어 모음(생성,제거,확인,활성화,패키지 설치) 요즘 vscdoe 로 이런저런 작업을 자주 하고 있습니다. 그리하여 따로 기록해두긴 했지만 가상환경 관련 명령어들을 정리해보겠습니다. # 현재 가상환경 목록 확인 $ conda info --envs # 가상환경 삭제 $ conda remove -n 가상환경이름 --all 저의 경우에는 2개의 가상환경이 있는데...예전에 이러저러한 실습한다고 한건데 기억이 잘 안나서 그냥 깔끔하게 지우기로 했습니다. 모두 지우고 나니 더이상 가상환경이 안 보이는 걸 확인 할 수 있습니다. vscode 로 와서도 확인해보겠습니다. vscode terminal 에서도 안 보이네요! # 가상환경 생성 - 'py36' 부분은 가상환경 이름이니깐 원하는 이름으로 해주시면 됩니다. - python 버전은 아래처럼 숫자 변경해주셔서 .. 인프런 '프리랜서와 유튜버를 위한 [기초 세금 가이드]' 리뷰 인프런의 '프리랜서와 유튜버를 위한 [기초 세금 가이드]' 강의 리뷰를 해보겠습니다. 이제 막 사회생활을 시작한 저는 편안하게 1시간동안 강의를 들었습니다. (전체 길이가 1시간입니다) 강의는 '프리랜서'에 대해 초점이 맞춰져있지만 전반적인 개념들은 기초적인 거라서 굳이 프리랜서가 아닌 저와 같은 사회초년생들도 알아야되는 내용들이 많았습니다. 위와 같이 눈에 편하게 들어오는 그림들로 설명을 해줘서 듣기가 정말 편했습니다. 긴가민가하게 알던 내용들은 확실히 정리할 수 있었습니다. 물론 강의 시간이 짧아서 좀 더 자세히 많은 걸 알고 싶지만 해당 강의는 기초 강의라서 거기까지는 힘들었습니다. 중간중간 보여주는 표는 나중에 여러모로 도움이 될 것 같습니다 :) -필기 내용 일부- 담세력: 세금을 부과할 수 있.. pymongo 입문하기 python, mongodb 이 포스팅은 인프런의 'NoSQL/DB(몽고DB) 기초와 파이썬 활용' 강의를 들으면서 정리한 내용입니다 :) 지난 시간까지 mongodb 만을 이용해서 CRUD 를 실습해보았습니다. 이번에는 주피터 노트북 안에서 mongodb를 import 하여 CRUD 를 해보겠습니다. 우선 pip install 을 이용해서 pymongo 를 설치 후 import 합니다. 그리고 본인의 mongodb 에서 접속하면 됩니다. 접속할 때, 주소는 따로 넣지 않는다면 mongodb 의 기본 포트인 27017 을 기준으로 localhost 에 접속합니다. 별도의 connection 을 생성해주었다면 위 [3] 셀처럼 입력해주시면 됩니다. (위 주소는 예시입니다.) 일단 이번 시간에는 기본 로컬 mongodb 로 접속하겠습니.. MongoDB 입문 3단계 document 수정(update) , 삭제(delete) 이 포스팅은 인프런의 'NoSQL/DB(몽고DB) 기초와 파이썬 활용' 강의를 들으면서 정리한 내용입니다 :) 이번에는 document 내용을 조건에 따라서 수정해보겠습니다. 기본 명령어의 구조는 아래와 같습니다. 현재의 컬렉션 상태입니다. - db.people.updateMany( { age: { $gt: 25 } }, { $set: { status: "C" } } ) -> SQL 변환하면, - UPDATE people SET status = "C" WHERE age > 25 ** 한 Document만 수정하려면 updateOne을 사용함 - db.people.updateOne( { age: { $gt: 25 } }, { $set: { status: "C" } } ) - db.people.updateM.. 이전 1 ··· 7 8 9 10 11 12 13 ··· 15 다음