목록파이썬(Python)/여러 기술 (9)
견리더의 알(R)파(Python)고
# null값인 것만 가져오기 df[df['col'].isnull()] # null값이 아닌 것만 가져오기 df[df['col'].notnull()] 간단하지만 검색이 귀찮을 때 정리.
물론 젠심 사이트에 있지만 내가 자주 쓰는 메서드를 차례로 추가 하도록 하자 word 와 코사이 유사도가 가장 높은 단어 10개를 추출한다. embedding_model.wv.most_similar('word', topn = 10) word1과 word2 사이의 코사인 유사도를 측정한다. embedding_model.wv.similarity('word1', 'word2') 벡터화가 된 단어들을 불러온다 embedding_model.wv.index_to_key word에 해당하는 벡터값을 불러온다 embedding_model.wv.['word'] 나중에 더 추가 해야겠다..
오마이 갓 주피터보다 파이참이 더 좋다고 생각한 내가 이 블로그를 보고 생각이 바뀌었따.... 주피터 노트북의 꿀팁들. jupyter notebook을 사용할 때 활용할만한 꿀팁들을… | by John | Medium 주피터 노트북의 꿀팁들 jupyter notebook을 사용할 때 활용할만한 꿀팁들을 공유하려고 한다. john-analyst.medium.com 지린다 지려 qgid는 필터 효과도 누릴 수 있따...! 처음 보는 데이터의 구조를 파악할 때 유용할 것 같습니다. ㅎㅎㅎ

깃허브 정리중 파이썬으로 하이퍼 파라미터 찾는 법을 검색해보다 갑자기 이 패키지를 찾았다... 딱 보니 넘무넘무 좋아 버린것이다. 너무 사기템 같아 공유한다.... 난 한 학기동안 EDA 하는법만 배웠는데 코드 한줄에 완벽히 정리가 되다니 후 내 글을 읽는 것보다 더 정리가 잘 되었는 블로그 소개한다. python EDA를 위한 자동 시각화 sweetviz 사용해보기 (tistory.com) python EDA를 위한 자동 시각화 sweetviz 사용해보기 sweetviz를 통해서 데이터의 상관관계나 분포 그리고 통계치를 보여준다. 비슷한 패키지로는 pandas_profiling이 있다. 안정성면에서는 테스트 결과 pandas_profiling이 더 좋아 보였다. nan이 있으면 아직은 data-newb..
데이터가 많지만 나의 컴퓨터는 그것을 다 소화를 못한다. 대략적인 테스트를하려는데 데이터가 너무 많고, 층화 추출을 하고 싶을때 이 간단한 함수를 사용 한다. def sampling_func(data777, sample_pct): np.random.seed(123) N = len(data777) sample_n = int(len(data777)*sample_pct) # integer sample = data777.take(np.random.permutation(N)[:sample_n]) return sample data = data.groupby('date', group_keys=False).apply(sampling_func,sample_pct=0.2) data.groupby(data['date'])...

기존 lstm 딥러닝에 word2vec을 사용하여 가중치를 줘보았다. 오류가 많이나서 힘들었다... 하지만 극복 (참고 블로그) keras를 활용한 word2vec pre-trained 모델을 로딩하여 IMDB 감정분석 분류문제 해결하기 (teddylee777.github.io) 대부분의 설명은 주석으로 적어 놓았다. 앞의 기본적인 패키지 임포트는 따로 프로젝트 탭에서 포스팅 해 놓았고, 추가적으로 필요한 패키지만 여기에 적었다. #데이터 가져오기 감성점수와 형태소 분석이 완료된 데이터 필요 data = pd.read_excel('C:/Users/USER/Desktop/news_sentiment_words.xlsx', index_col=0) data['words'] = [i.replace("'", "")..

네이버 쇼핑 크롤링 네이버 쇼핑의 경우 상품정보가 한번에 안나온다... 40개씩 보기를 했지만 상품정보를 포함하는 html은 5개만 보이고 있다. 하지만 스크롤을 내리면 안보이던 상품정보 html을 볼 수 있다. 하지만 파이썬으로 파싱을 하면 첫 사진만큼 5개의 상품정보만 가져올 수 있다. 원래는 셀레니움을 이용해서 자동으로 스크롤을 내린다음 가져 오려고 했는데, 간단한 다른 방법이 있다고 해서 방식을 적어봐야겠다. 인터넷에 검색해보니 자바스크립트 방식인가 Ajax 방식이라고 하던거 같다. 그리고 이번 포스팅은 파이참이 아닌 주피터를 이용했다. 먼저 패키지 준비. import pandas as pd import numpy as np from bs4 import BeautifulSoup #크롤링 필수 패키..

공모전 여유가 남아 잠깐 구글링중.. 발견 너무 쓸만한 사진이길래 공유해 보아요 이 중 반 이상은 해본것 같기도 하고... 뭐 어쨋든 분석시에 참고하시길 바랍니다~

파이썬을 여지 없이 돌리는 도중 어떤식으로 코드를 돌리는것이 빠를까 생각이 났다. 시간을 재보자. IMPORT TIME #TIME 패키지 임포트 start = time.time() #시작시간 정하기 #################작업코드 작성################### aa = [] for i in data['text']: if '코로나' in i: aa.append(i) #예시 작업코드 끝 ################################################# print('작업시간 : ',time.time() - start) #코드 작업시간 print start ~ 부터 마지막까지 한번에 돌려준다. 그렇다면~ 작업시간이 0.068초 걸렸습니다아 같은 작업을 다른 형식으로 해볼까..