[Slides]Forest Fire Severity Prediction_KR.pdf

SDG (Sustainable Development Goals) & Justification

프로젝트에 대한 필요성의 정당화 과정도 중요하다.

직접적인 영향 외에도 간접적인 영향도 정당화에 포함될 수 있다.

예를 들어, 산불에 대해서는 직접 피해 외에도 가난한 사람들에게 큰 피해를 입힌다, 도시의 전기선 및 기지국 인프라에 해를 입힌다 등이 있다.

{B3E03932-21DE-4CAB-A237-B0EC9326C64B}.png


[Notebook - Student]Forest Fire Severity Prediction1.ipynb

데이터 프로파일링

ydata-profiling

forest_fires_report1.html (좋은 데이터라서, 추후 프로젝트 시에도 이용해봄직하다)

df.columns와 df.describe().columns의 차이

columns는 df의 모든 열의 이름을 가져온다.

describe().columns는 descirbe된 열만 가져오므로, describe으로 처리 가능한 숫자 타입의 열만 가져온다.

df.quantile()

특정 분위수에 해당하는 값을 반환해주는 함수이다.

실제 존재하는 값 중에 해당하는 값이 없을 경우에는 보간법을 이용하여 반환한다.

이 때, 보간법에는 linear, lower, higher, midpoint, nearest 가 있다.

RMSE (평균 제곱근 오차)

잔차들이 얼마나 분산되어 있는지를 나타낸다.

pickle

df를 보통 csv로 저장하고 불러온다.

pickle은 그럴 필요 없이, 바로 파일 호환이 가능하다.

wb = write

rb = read

딥러닝

classification과 regression의 차이는 다음과 같다.

100개의 숫자에 대해 결과를 출력하고자 할 때, classification은 목적하는 여러 개의 범주로 나누지만, regression은 하나의 결과를 반환한다.

즉, 출력층의 Dense가 regression은 1이다.

모델을 할 때는, fit으로 df화하여 기입하여도 되지만, 딥러닝에서는 배열 연산이 대부분으로 numpy로 기입하여야 한다. (.to_numpy().astype(’float32’)

np.shape[1]은 columns을 의미한다.

실무에서 모델을 만드는 경우는 거의 없고, 잘 만들어진 모델을 사용한다.

Param 수는 다음 노드에 자기 노드를 모두 곱하고, 자기 노드 수를 더한다.

예를 들어, 64개의 노드라고 하면 연결된 12개의 노드를 곱하고, 자기 노드 64를 더한다.

64*12+64

batch size는 한 번에 input하는 데이터의 양을 의미한다. 하드웨어 성능이 좋을수록, 작게 할 수 있다.

어느 정도 학습하면, 과적합이 되거나 성능 향상 정도가 무의미한 정도가 된다.


[Notebook - Student] MNIST Deep Learning.ipynb