December 2020 Archives

12/12, Sat

그의 AI에 대한 근본적 지적이 성립하지 않는 이유

첫째, 대규모 언어처리 인공지능 모델은 엄청난 전력소모를 유발해 지구온난화에 영향을 미침
둘째, 인종차별, 성차별적 언어들이 섞이면서 인공지능이 잘못된 언어를 학습할 위험 있음
셋째, 대규모 언어처리 인공지능 모델은 인간의 언어를 이해하지 못하면서 흉내내는 것에 집중하고 있음
넷째, 대규모 언어처리 인공지능은 인간을 너무 흡사하게 흉내낼 수 있기 때문에 악용될 수 있음
- 게브루? 박사

첫째, 딥러닝이 무식한 접근방법이다보니 현 기술 수준에서 어쩔수 없음
둘째, (사람처럼) 머신러닝도 데이터를 주는 대로 데이터가 나오는 것, 세상 어디에도 평등하며 정치적으로 옳은 데이터나 사람이란 없다고 봄
셋째, 뇌를 흉내내는 것과 뇌를 만드는 것의 차이가 있더라도 그것은 다른 영역인 점, 뇌는 누구에게도 여전히 완전히 이해받지 못하고 있는 것으로 알고 있음
넷째, 그렇게 하자고 만든 것임

위 지적이 구글에서 기각당한 것은
연구의 깊이가 낮으면서 (구글에게) 괜한 노이즈를 만들기 때문이라고 생각한다.

(구글 월급 받으면서 하실 말씀은 아니세요.)

그렇게 이슈가 되고 싶으셨으면 ...
구글이 의도적으로 인종차별, 성차별적 데이터를 주입하고 있다는 음모(Evil Deed?)에 대한 내부고발 정도는 있었어야지.

12/10, Thu

TF_IDF 한 줄로.

TF_IDF는 "한 문서 내 단어 출현 빈도수 / 전체 문서 중 단어 출현한 문서수" concept.
-> 많은 사람들이 두루 하지 않는 행동을 그 사람이 많이 한다면 그의 특징으로 볼 수 있다.

(적용 - 아빠가 해커랭크 10번 접속했고, 전체 샘플 200 중 20 해커랭크 접속자가 있다면, 10/20 -> 0.5, 아들은 2회 접속했다면 0.01, 아빠는 해커랭크 관심자로 볼 수 있음. 주로 log 걸어 처리...)

여기서 NMF로 이어지고 TF_IDF도 조 선생님(감사합니다!)에 한두말씀 보태서 정리해볼 수도 있겠는데 굳이 내 정리까지 궁금해하는 사람이 없을 것이므로...

그리고 그들이 또 설명하지 않는 부분들이 있는데...