'머신러닝' 카테고리의 글 목록

데이터가 많을 경우 특정 열 변환 시, 어떻게 진행되고 있는지, 어디까지 변환되고 에러가 나는지 궁금할 때가 있다. 그럴 때는 아래 코드가 유용하다. from tqdm.notebook import tqdm tqdm.pandas() df2['test2'] = df2['test1'].progress_apply(location_extract) 위에 tqdm 관련 두줄 선언 후 apply 대신 progress_apply 를 사용한다. 그러면 아래와 같이 초록색 bar로 진행상황을 알 수 있다.

머신러닝 2023. 2. 27. 05:59

[Geocoder] 주소를 위경도로 변환

주소를 위경도로 바꾸려고 이것저것 해보다가 가장 정확한 방법이라 생각되어 포스팅한다. 1. 파이썬 geopy 패지키 이용 (X) 위경도 기반 클러스터링 한 결과가 이상해서 확인해보니, 잘못되게 변환 되는 것들이 꽤 있었다. 2. 구글 스프레드 시트 이용하기 (X) 하루에 변환할 수 있는 개수가 제한이 있는듯 하다 1000건 미만. 3. 브이월드 사용 국토교통부에서 제공하는 공간정보 오픈 플랫폼이다. 하루 최대 40,000건 까지 이용 가능하다. (그리고 우리나라 서비스니깐 뭔가 더 정확하게 변환하리라는 믿음~~) 회원가입 후 키 발급이 필요한데, 간단하며 가입 즉시 발급된다. 아래에 geocoder 사용법이 자세히 설명되어 있다. https://www.vworld.kr/dev/v4dv_geocodergu..

머신러닝 2023. 2. 27. 05:45

Gradient Descent(경사하강법)

머신러닝 기반 회귀의 핵심 사항은 비용함수를 최소로 만드는 w1, w0 변수가 무엇인지 알아내는 것이다. (여기서는 단순선형 회귀라고 가정한다. y = w0 + w1 * x) 비용함수를 최소로 하는 w1, w0 가 무엇인지 찾아보는 방법이 경사하강법 이다. 실제 y 와 예측된 y_pred 의 차이를 계산하는 비용함수는 아래와 같다. 비용함수를 단순히 y=x^2 로 나타내보면 위의 그래프와 같은데, 여기서 두가지 사항을 눈여겨보자. 1) 방향성 기울기+ 인 경우 : x 값이 작아질수록 y 가 작아지고, 기울기- 인 경우 : x값이 커질수록 y 가 작아짐을 알 수 있다. 2) 크기 y (비용함수)가 작을 수록 : 기울기가 작아지고 y (비용함수)가 클수록 : 기울기가 커진다. 따라서, w1_update = ..

머신러닝 2023. 2. 9. 11:53

kaggle 타이타닉 가공데이터 상관관계 분석

타이타닉 DATA 상관관계 분석`In [55]:import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 앞서 EDA 한 Data 를 pickle 로 불러오기In [56]:total_set = pd.read_pickle("total_set.pickle") total_set.head() Out[56]:PassengerIdPclassSexSibSpParchEmbarkedname_codeAge_valueFare_value01301000.04012111012.07323310001.05134111002.06345300000.061In [57]:train_data_pre = pd.read_pickle("tra..

머신러닝 2018. 12. 21. 18:33

[Ensemble_2] RandomForest (랜덤포레스트)

요즘 하고 있는 캐글 타이타닉 스코어 올리기 중 가장 좋은 점수를 보여주고 있는 '랜덤 포레스트' 이다. 출처) https://medium.com/@williamkoehrsen/random-forest-simple-explanation-377895a60d2d 1. 랜덤포레스트란? - 여러 개의 의사결정나무를 만들고, 그들의 다수결로 결과를 결정하는 방법 2. 장점 - 비교적 하이퍼파라미터 튜닝 없이 간단히 쓸 수 있다 - 대부분 좋은 결과를 가져다 준다 - 단순하며, classification 과 regression 에 모두 쓸 수 있다. 3. 어떻게 만들까? - 의사결정 나무를 랜덤하게 여러개 만든다. 랜덤하게란? train 데이터를 전부 이용해서 학습하는 것이 아니라, train 데이터로 Baggin..

머신러닝 2018. 11. 15. 18:27

[Ensemble_1] Bagging (배깅)

요즈음 캐글 타이타닉 score 을 올리기 위하여 홀로 고군분투하고 있다 -.- 그래서 다른 사람들이 올려놓은 Kernel 을 보다가 요새 Ensemble 부분을 한번 가볍게 훑어보고 있다. 처음 들어보는 단어들이 많이 헷갈려서 한번 정리해보고자 한다. 출처) https://www.youtube.com/watch?v=2Mg8QD0F1dQ 1. Bagging 이란? - 머신러닝 Ensemble 방법 중 하나 - Classification 과 regression 모두 사용 가능 - 오버피팅 방지를 해주며, Variance를 감소하게 해준다. - 주로 Decision Tree 에서 많이 사용하지만, 어떤 알고리즘에도 사용 가능하다. Train Data 에서 복원추출로 m 개의 데이터셋을 만들고, 각 m 개의 ..

머신러닝 2018. 11. 9. 23:12

kaggle 타이타닉 EDA

EDA of Titanic Data캐글에서 유명한 타이타닉 데이터를 EDA 를 해보도록 하겠다. 처음 해보는 것으로, 깊게 들어가지는 않고 최대한 쉬운 방향으로 진행해보고자한다.In [74]:import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 1. Data SetTrain 과 Test 데이타가 있다. 처음 5개 행을 각각 보면 다음과 같다. 이 Titanic Data Set 의 최종 목표는, Survived 할지(1) 안할지(0) 를 맞추는 것이다. Test set 의 Data 는 따라서 Survived feature 가 없는 것을 알 수 있다.In [75]:test_df = pd.read_..

머신러닝 2018. 10. 25. 23:05

[데이터전처리_3] Category Data 처리

아래 내용은 인프런 : 밑바닥부터 시작하는 머신러닝 입문 과정의 최성철 교수님 강. 의를 수강하고, 나름대로 한번 정리를 하여 더 오래 기억하고자 작성한 사항입니다.일부 추가, 삭제, 수정한 사항들도 있습니다.1. Category Data 처리다음과 같은 데이터를 어떻게 처리할까? (Green, Blue, Yellow)그 방법은 One-Hot Encoding . {Green, Blue, Yellow} 의 데이터 집합이 있을 때 데이터 set 의 크기만큼 Binary Feature 를 생성{Green} -> [1, 0, 0]{Blue} -> [0, 1, 0]{Yellow} -> [0, 0, 1]In [41]:import pandas as pd import numpy as np In [42]:edges = ..

머신러닝 2018. 10. 17. 02:16

Make your data chart, easily

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31