목록전체 글 (41)
견리더의 알(R)파(Python)고
하나하나 패키지를 임포트하는 것이 얼마나 귀찮은지.... 난 그냥 모든 패키지들을 다 합쳐서 한번에 임포트 하는 편이다. 앞으로의 프로젝트에서 코드를 실행하기 전에 밑에 패키지들을 다 임포트하고 실행하면 패키지 미설치로 오류가 뜨진 않을 것이다. import urllib.request as req from bs4 import BeautifulSoup import pandas as pd import numpy as np from urllib.request import urlopen #url의 html 을 가져 오기 위한 패키지 from bs4 import BeautifulSoup #크롤링 필수 패키지 설치하려면 cmd창에서 pip install bs4 import os import re from selen..

파이썬으로 csv파일을 불러올때 칼럼이름, 인덱스 이름을 정해야 하는경우가 있는데 데이터가 좀 더러울때 더 필요한 경우가 많다. 이건 내가 참고용으로 쓸 것이니 간단하게 적는다 인덱스이름 그냥 번호순으로 나열하기 index_col = False 그 전에 파이썬에서 to_csv같은걸로 저장했을때, unnamed: 0 인가 뜨는 것이 거슬리다면 index_col = 0 을 해주면 unnamed: 0 이 될 행이 인덱스로 들어간다. 칼럼이름 정하기 header = 0 (첫행 칼럼이름으로) header = None (그냥 숫자로) 그냥 숫자로 하는게 디폴트값이 아니라서 당황했고, 이렇게 쉬운것을 구글에 물어보는것도 시간낭비이다. 외우지 못하면 적어놓자 ※ 인코딩(encoding) 오류 해결 데이터를 불러왔느나,..

공모전 여유가 남아 잠깐 구글링중.. 발견 너무 쓸만한 사진이길래 공유해 보아요 이 중 반 이상은 해본것 같기도 하고... 뭐 어쨋든 분석시에 참고하시길 바랍니다~

오늘도 어김없이 형태소 분석을 돌리고 있었다. 항상 같은 데이터를 돌리곤 하는데, 갑자기 중간에 에러가 났다. 무엇이 이 for문을 멈추게 하였는가.. 누구인가... 에러가 난 곳의 데이터를 보았다. 해당하는 곳에 바로 nan값이.... 부들부들 바로 지워보자 data = data.dropna(axis = 0) 한줄이면 충분하다. axis = 1을 하면 해당 열이 아닌 칼럼이 지워 진다고 한다. 그럼 20000

파이썬을 여지 없이 돌리는 도중 어떤식으로 코드를 돌리는것이 빠를까 생각이 났다. 시간을 재보자. IMPORT TIME #TIME 패키지 임포트 start = time.time() #시작시간 정하기 #################작업코드 작성################### aa = [] for i in data['text']: if '코로나' in i: aa.append(i) #예시 작업코드 끝 ################################################# print('작업시간 : ',time.time() - start) #코드 작업시간 print start ~ 부터 마지막까지 한번에 돌려준다. 그렇다면~ 작업시간이 0.068초 걸렸습니다아 같은 작업을 다른 형식으로 해볼까..

데이터 셋을 만들고, 그 데이터 셋을 이용하다가 이런 에러가 떠버렸다... 아마 판다스에서 뜬 에러 같은데, 에러 코드 30 인줄알고 인터넷 검색을 해보았지만 그런게 아니였다. 30번째 무언가가 비어 있다는 의미였다. 내가 크롤링으로 url을 가져 오고, 중복제거 및 오류 행을 제거 한 행이였다. 밑의 사진을 보자 왼쪽 인덱스를 보면 여러행이 빠져 있는것을 볼 수 있다. 각 행을 참고하는 명령어를 실행할 때 이런식으로 인덱스가 빠져 있으면 keyerror를 일으키는 것 같다. 해결을 위해 인덱스를 다시 조정 해보자 index1 = [i for i in range(len(data))] data.index = index1 인덱스를 0부터 데이터의 길이까지 맞추어 다시 지정해 주었다. 빠짐없이 다시 인덱스가 ..

요즘 단어 임베딩, 단어 벡터화에 혼신의 힘을 쏟고 있다. 단어의 연관성을 찾는 여러가지 방법 중 glove라는 방법을 찾았고 사용하려고 파이참 터미널 창에 pip install glove_python 을 입력했다. C:\Users\USER\PycharmProjects\anaconda>pip install glove_python Collecting glove_python Downloading glove_python-0.1.0.tar.gz (263 kB) |████████████████████████████████| 263 kB 344 kB/s Requirement already satisfied: numpy in c:\users\user\anaconda3\lib\site-packages (from glo..

오랜만에 파이써으로 셀레니움을 써보려하니 오류가 난다.. 이는 셀레니움 크롬 드라이버와 내가 쓰현재 쓰는 크롬의 버젼이 맞지 않기 때문이다. 크롬 버전확인은 크롬을 켠뒤 오른쪽 위 점 세개를 누른다 -> 설정을 클릭 -> 왼쪽 메뉴에 chrome정보 클릭 -> 크롬 버젼 확인 85버전인데 나의 크롬크라이버는 83버젼이다 크롬 드라이버를 업드레이드 해주자 여기 를 클릭하여 위에 나와 맞는 버젼 클릭 나는 윈도우를 쓰니 win32클릭 다운 후 압축 해제 후 기존쓰던 크롬 드라이버를 교체해주면~! 성공!

집에서 노트북으로 파이썬을 하려고한다. 항상 파이썬을 깔고...지우고... 너무 귀찮다 하지만 구글 코랩만 있다면 설치없이 바로 사용 가능하다!! 구글 코랩은 주피터 노트북을 조금 변형한 것으로 파이썬 코드를 실행하거나 텍스트를 작성할 수도 있고 그래프도 그릴 수 있습니다. https://colab.google.com/ 상단 주소로 들어갑니다. 이런식의 창이 뜨는데, 왼쪽위에 시작하기를 눌러줍니다. 왼쪽 밑에 새 섹션을 눌러 줍니다~ 그럼 그대로 코드를 써서 실행하면 끝~ 그리고 왼쪽 시작하기, 데이터과학... 이런것들을 지우려면 오른쪽 휴지통을 누르면 다 없어집니다! 지우기전! 한번씩 다 읽어보면 도움이 될거 같아요~!!