전체 글
-
Pandas vs PySpark💫 Computer Science/Python & AI Framework 2021. 6. 22. 23:41
Do you: Already know Python & Pandas? Love DataFrames? Want to work with Big Data? ➡ Then PySpark is the answer 요즘 파이썬 & 판다스 & 넘파이 조합으로 데이터 분석을 진행 중에 있다. 아직 데이터가 많지도 않고 하나의 데이터 프레임의 크기가 크지도 않아서 저 조합으로도 충분히 커버가 가능하다. 하지만 Spark를 공부해보고자 맘 먹은 이유는 추후 데이터가 많아질 경우를 대비해 수평 확장성을 고려 추후 로그 데이터 분석이 필요할 경우 여러 시각화 플랫폼과의 연결성 서버가 더 생기거나 클라우드를 이용해서 클러스터를 생성할 경우 분산 처리에 대한 대비 빅데이터 플랫폼이 파이썬 패키지를 이용한 분석보다 쾌적한지에 대한 의..
-
같은 글자의 유니코드가 다를때, 정규식이 먹지 않을때💫 Computer Science/Python & AI Framework 2021. 5. 17. 14:42
파이썬으로 텍스트 전처리를 하다가 정규식으로 한글 영어만 추출하고 있었는데, 그렇게 텍스트 클렌징 후 데이터가 None이 되는 경우가 많았다. 살펴보니깐 같은 문자라도 아스키 코드가 달랐고, 그렇다보니 정규식이 먹지 않았던 것. ord('A') # 65 chr(65) # 'A' 파이썬에서는 ord(문자) 함수로 문자의 아스키코드를 알 수 있고 chr(아스키코드) 함수로 아스키코드의 문자를 알 수 있다. 그런데, 똑같은 '한'이라는 글자가 아스키코드 값이 달랐다. 그래서 찾아보니 '유니코드 정규화(Unicode Normalization)'이 필요하다고 한다. 대표적인 예로 옴(Ω)과 오메가(Ω)는 서로 다른 문자로 취급된다. 이런 경우는 동일한 기호가 서로 사용되는 분야가 다를 때 다른 유니코드를 반환한다..
-
[Pandas] pandas 꿀팁(?)💫 Computer Science/Python & AI Framework 2021. 5. 17. 11:01
1. None은 == 로 필터링 되지 않는다. df[df["City"] == None] // X df[df["City"].isnull()] // O df[df["City"].isna()] // O pandas를 사용할 경우 결측값은 None이 아닌 np.nan 을 이용한다. 2. 결측값과 isna, isnull pandas에서 결측값(missing value)를 확인하는 메소드는 .isna()와 .isnull()이 있고 결측값일 경우 True라고 표시된다. 이 경우에도 df[df["City"] == np.nan] // X 으로 잡히지 않는다. 왜냐하면 np.nan == np.nan // False NaN 끼리는 비교 연산자가 먹히지 않기 때문이다. 그리고 isnull()과 isna()의 차이점은 '없다'..
-
[Docker] ML + NLP Dockerfile 만들기💫 Computer Science/Python & AI Framework 2021. 5. 11. 11:30
케라스랑 자연어처리 쪽 도커 이미지를 많이 사용하는데, 요즘 한국어 처리, 임베딩 하느라고 "한국어임베딩" 책의 이기창 저자님의 embedding이미지를 사용했었다. ratsgo/embedding ratsgo/embedding 에서 바로 사용 가능한 기법들 단어 수준 임베딩 - Latent Semantic Analysis - Word2Vec - GloVe - FastText - Swivel 문장 수준 임베딩 - Weighted Embeddings - Latent Semantic Analysis - Latent Dirichlet Allocation - Doc2VecEmbeddings from Language Models (ELMo) - Bidirectional Encoder Representations f..
-
[TIL] 기술 아티클 읽기👀 etc... 2021. 5. 11. 01:33
오늘부터 동료님들과 기술 아티클 읽기 소모임을 시작했습니다 좋은 발전이 있기를 바라며 ~.~ 🍻 소프트웨어를 배울 때 가장 빠른 길은, 작은 성취를 이루어가는 것이다. 기술 아티클 읽은 후 소감문을 주기적으로 업데이트할 예정입니다. 1. 소프트웨어를 배우는 방법 / 이민석 학장님 블로그 첫 시작으로 아주 좋은 글을 골랐다. Navy Seal Admiral Shares Reasons to Make Bed Everyday 왜 아침마다 침대를 깔끔하게 정리해야 하는지에 대한 영상을 소개하며 시작하는 글인데, 해야하는 일을 이만큼 쌓아놓고 못했다고 자괴했던 지난날의 내 모습을 생각하게 됐다. 아침에 일어나 침대를 정리하는 것이 별 것 아니지만 그 한 가지를 성취했다는 원동력이 도미노처럼 연결되어 큰 성취를 이룰..