[오전]
[Notebook - Student] Predicting Discriminatory Hiring Practices_KR.ipynb
[Notebook - Student] Predicting Discriminatory Hiring Practices_KR.ipynb
미국 구인 공고에 나오는 단어들을 Data Frame화하여 분석한다.
함수를 파악하는 데 있어서, 매개변수를 먼저 확인해보는 게 도움이 되고 바람직하다.
이전에 배웠던 리스트 컴프리헨션의 심화 학습인 if else에 대해서 학습하였다.
nums = [3, -1, 5, -2, 0] result = [num if num >= 0 else 'minus' for num in nums]
itemgetter는 복합 자료형에서 ()의 인덱스에 해당하는 값을 가져온다.
즉, sorted_x는 dictionary인 femdict를 items()로 복합자료형으로 만들고, 이를 value(단어의 출현수)로 내림차순(reverse=True)으로 sorted한다.
sorted_x = sorted(femdict.items(), key=operator.itemgetter(1), reverse = True)
shared_axes=True로 x축의 단위를 맞춰주나, 최대값(혹은 최소값)은 다르기 때문에 완전히 동일하지는 않다.
vc = gender_df['difference'].value_counts().to_frame().reset_index()
value를 index로 만들고, 각 출현 빈도를 count한다.
코드의 뒤에서 .reset_inde()로 풀어줘서, 결국 difference를 열로 만든다.
.to_frame()으로 df로 만들어준다.
try-except-finally 기법
에러 메시지에 선제 대응하는 코드이다.
try로 기능을 실행하고, except로 에러를 방지하고, finally로 성공 여부와 관계 없이 안전하게 종료될 수 있는 기능을 실행한다.
단, continue는 해당 루프를 끝내고 다음 시도로 넘어간다는 의미이다.
.groupby() : ()를 인덱스로 df를 정렬한다. 다만, 자동으로 index화 되기 때문에, 열로 활용하기 위해서는 reset_index()되어야 한다.