견리더의 알(R)파(Python)고

프로젝트의 쓸 패키지들 본문

프로젝트

프로젝트의 쓸 패키지들

견리더 2020. 11. 5. 14:40

하나하나 패키지를 임포트하는 것이 얼마나 귀찮은지....

난 그냥 모든 패키지들을 다 합쳐서 한번에 임포트 하는 편이다. 

앞으로의 프로젝트에서 코드를 실행하기 전에 밑에 패키지들을 다 임포트하고 실행하면 

패키지 미설치로 오류가 뜨진 않을 것이다.

import urllib.request as req
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
from urllib.request import urlopen #url의 html 을 가져 오기 위한 패키지
from bs4 import BeautifulSoup  #크롤링 필수 패키지 설치하려면 cmd창에서 pip install bs4
import os
import re
from selenium import webdriver
from bs4 import BeautifulSoup #크롤링 도구
from selenium.webdriver.common.keys import Keys
import time
from tqdm import tqdm
import time
import json
import datetime
from konlpy.tag import Okt
from gensim.models import Word2Vec
from gensim.models import KeyedVectors
import matplotlib.pyplot as plt
import sklearn.metrics as metrics
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
import pylab as pl
import statsmodels.api as sm
from sklearn.cluster import DBSCAN
import sklearn as skl
import sklearn.model_selection
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.neighbors import KNeighborsClassifier
import random
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
from imblearn.over_sampling import SMOTE
from ckonlpy.tag import Twitter
import string
import glob
from pprint import pprint
import gensim
import gensim.corpora as corpora
from gensim.models import CoherenceModel
import pyLDAvis
import pyLDAvis.gensim
import warnings
import seaborn as sns
from scipy.cluster.hierarchy import linkage, dendrogram
from matplotlib import font_manager, rc
from ckonlpy.tag import Postprocessor

대충 설명을 아는데까지 해 보겠다. 자세한 건 구글에 검색해보자

 

1. urllib 

  파이썬으로 크롤링을 하게해주는 패키지다. 

2. BeautifulSoup

  마찬가지 크롤링 필수 패키지. 자세한건 공부를 해봐야 겠다.

3. pandas, numpy

  파이썬에서 데이터를 다룰때 빠질 수 없는 패키지. 아마 파이썬으로 데이터를 만져봤다면 다들 알 것이다.

4. os, re

  음... 기억이 안난다. 아니 잘 모른다. 구글에 검색하면 나온다. os는 os와 관련있는거 같고 re는 정규표현식을 할때 썻던거 같다. 물론 아닐 가능성이 농후하다. 나한테 화내지 말고 검색을 해보자.

5. selenium

  웹페이지를 만지는 패키지인데 처음할 때 신기했다. 파이썬으로 클릭도 할 수 있고, 아이디, 비밀번호도 입력할 수 있다. 이거 만들어서 프로그래밍을 모르는 사람한테 보여주면 신기해 할 것이다. 검색해서 익히는 것을 추천한다. 재밌다.

6. time

  파이썬에서 도르마무를 하는 패키지. 크롤링할때 크롤링 속도에 대해 오류가 날 때가 있는데, 가끔 시간을 멈춰준다.

7. tqdm

  "내가 생각한 아이디어는 이미 있다."라는 나의 명언을 다시 되짚어준 패키지. 넘나 사랑한다. 반복문에서 어느정도 진행되는지 알려주는 패키지다.

8. json

  파일을 json형태로 저장하고 불러올때 사용한 것같다.

9. datatime

  시간형태에 대한 패키지

10. konlpy

  형태소 분석기. 종류도 많고 공부도 좀 했다. 나는 주로 Okt를 사용했다.

11. gensim

  젠심 패키지 형태소분석과 토픽모델링, word2vec등 다양한 기능이 있다. 초보자가 쓰게 좋은 것 같다.

radimrehurek.com/gensim/index.html 읽어보면 재미난 것들이 많다.

12. matplotlib

  그래프 그릴때 사용. 기본임 기본

13. sklearn

  지도·비지도 학습, 예측·분류등 머신러닝 패키지. 아마 사이킷-런이라도 했었나..? 이와 관련된 사진을 내 블로그에 올려 논 듯하다.

14. pylab, statsmodels

  모르겠다. 죄송합니다...

15. random

  난수 생성할때 쓴듯...

16. smote

  데이터 학습할때 0,1데이터(종속변수)가 너무 편향적일때 사용하는 기법, oversampling 이라고 하는데 검색 고고

17. ckonlpy

  이거슨 나의 비밀 병기이다. 형태소 분석을 할 때 내가 원하는 용어가 제대로 분리가 되지 않을때, 단어를 사전에 직접 추가, 결합 할 수 있다. 추천한다. ㅎㅎ twitter는 Okt의 옛날 버전인데, 그냥 써도 될 듯 하다.

18. string

  문자열 관련 패키지인것 같은데, 구체적으로 뭘하는 건지는 잘 모르겠다.

19. glob

  파일을 한번에 불러오기할때 쓴 것 같다. 가아끔 유용하다.

20. pprint

  출력관련한 패키지 인 것같다. 잘 모르겠다. ㅎㅎㅎ 그리 크게 중요한건 아닌 것 같다.

21. warning

  이게 뭘까... 이제 추리에 들어가기 시작했다. 아마 경고문을 조작할 때 쓰이는 것같다.

22. seaborn

  이건 기억이 나긴 한다. 그래프를 그릴 때 자동으로 이쁘게 그려준다 편리한 패키지이다.

23. linkage, dendrogram

  정확이 뭔진 모르겠는데 덴드로그램이니 내가 데이터 그룹화에 관련한 일을 했었구나.... 라고 생각한다. 분류할때 쓰면 좋을 것같다.

24. font_manager, rc

  한국인이라면 알아두는게 좋을 것같다. 그래프에 한글을 나오게하는 패키지이다. 폰트설정이 추가로 필요하다.

 

 

다음에 또 다른 프로젝트를 할때 더 추가할 계획이다. 

이렇게 내가 쓴 패키지를 모으니 내가 무엇을 할 수 있고, 무엇을 해왔었는지 알 수 있었다.