Recently in 그들이 설명하지 않는 IT/딥러닝 Category

02/14, Sun

클럽하우스가 무엇인지와 초대 받는 방법

클럽하우스는 (관심있는 토픽 등에 대해) 다같이 목소리로 이야기를 나눌 수 있는 공간을 중개하는 서비스이다. 물론 청중으로 청취만도 가능, 굳이 기존 서비스로 설명해보자면 목소리로 하는 트위터 같은 공간? 목소리는 저장되지 않음.

초대받으려면...
- 여기서 한국사람들에게 유독 더 강하게 나타나는 어디 빠지면 뒤처질까 염려하는 마음이 발동.
1. 아이폰/아이패드 등 iOS 기기에서만 가능 (안드로이드도 개발중?)
2. 앱을 다운받아 내 전화번호를 계정으로 등록하면 이미 안에 있는 사람(그의 연락처에 내 번호가 저장되어 있어야함!!)이 그것을 알람 받고 그러한 경우들에 대해 "제한 없이" 불러줄 수 있음. - 그러니까 그렇게 귀한 초대장은 아님!

제한된 초대장 컨셉은 가입하면 생기는 1장이 있던데, 아마 이메일을 통해 링크 등 직접 서비스 초대를 보내줄 수 있는 듯함.

결론. 내 전화번호 연락처 중에 이미 하는 사람이 한 명 쯤은 있을 것으로 기대하고, 앱을 깔고 기다리면 내가 요청중이라는 알람을 보고 누군가 내 손을 잡아줄 것이다. 이는 이미 사용중인 사람에게 부담되는 일이 아니므로 기존 사용자를 찾을 수 있다면 직접 부탁해도 그만.

2/14 기준. "나좀 클럽하우스 들여보내줘" 손 든 사람을 이미 안에 있는 사람이 받아주는 것은 안에 있는 사람에게 제한이 없다는 이야기를 잘 안 함. 나만 들어와있고 싶어서?

양키들이 프레임 잘 잡아서 이렇게 플랫폼들을 열어가는 장면들을 볼 때마다 늘 괜히 얄미운 느낌이다. 공개라디오나 팟캐스트를 누구나 손쉽게 열 수 있고 관객들의 청취나 라이브 참여가 쉽게 가능해진 것. 이러한 목소리 기반 서비스가 정말 효과적이고 과연 오래 갈지에 대해서는 잘 모르겠다. 처음 기획 의도는 그랬다지만 결국 어떤 쪽으로 서비스가 진화하고 사람들에게 쓰일지는 두고볼 일. 지금의 (반)제한적 초대는 시스템 카파가 확보되면 싹 풀겠다던데 오히려 이런 비공개 멤버식이 더 솔깃할듯.

아니, 근데 아직도 안드로이드라고요?! 왜죠?
나에게도 아들이 물어본다. 이런 시대에 왜 여기 골방구석에다가 굳이 글을 쓰고 있냐고.

01/12, Tue

아직은 드라이 해야하는 AI 서비스

저러한 문제가 터지니까 아직까지 (그들이) 드라이하게 만들고 있는 것이다.

현재 공개되어 두들겨 맞은 버전은 습작 수준이 맞다. 예쁘장한 그림까지 넣어서 인격을 부여한 기획이 무리했지.

더 문제가 되는 것은 100억건의 대화를 썼다는 부분인데, 언젠가 그들의 강연에서도 자기들이 카카오도 아니면서 그 많은 대화를 갖고있다고 자랑하던 것이 영 이상했는데... 완성도야 스타트업이니 뭐 하면서 귀엽게 봐달라 하더라도 Data 확보 관련 공격을 받은 부분은 한동안 회복하기 어려울 것으로 보인다 - 결국 바로 서비스가 닫혔다.

스OO은 카카오톡 대화 약 100억건을 기반으로 이XX를 개발, 지난해 12월 출시했다. 여기서 사용된 카카오톡 대화는 2016년 출시된 연O의 과X 앱 이용자들의 대화다. ... 연O의 과X 이용자들은 자신들이 넘긴 정보가 '이루다'에 쓰일지 몰랐다고 주장하고 있다.

카카오나 누구들이 왜 저렇게 안하고 지내겠는가. 늘 이야기하지만 카카오 정도면 가족도 속일만한 내 클론 챗봇 정도 쉽게 만들 수 있을 것이다. 지금 문제는 기술이 아니라 Data와 동의에 있기 때문이다. 크게 보면 비슷한 업종에서 일하는 사람으로서 안타까운 일이다. Data 활용에 대한 규제가 또 얼마나 더 생겨날 것인가.

덧. 십년만에 탈 것을 한국의 H사로 바꿨다. 와우 시절에서도 탈것은 특히 더 가난했었는데... 근데 H의 라이언은 아직 말을 잘 못 알아듣는 것 같더라. 좋아하진 않지만 그래도 아리가 "드라이하게" 잘하는 모양. 기계도 기계고 C가 늘 나보고도 드라이한 사람이 되라고 하는데 아직도 갈 길이 멀다.

12/12, Sat

그의 AI에 대한 근본적 지적이 성립하지 않는 이유

첫째, 대규모 언어처리 인공지능 모델은 엄청난 전력소모를 유발해 지구온난화에 영향을 미침
둘째, 인종차별, 성차별적 언어들이 섞이면서 인공지능이 잘못된 언어를 학습할 위험 있음
셋째, 대규모 언어처리 인공지능 모델은 인간의 언어를 이해하지 못하면서 흉내내는 것에 집중하고 있음
넷째, 대규모 언어처리 인공지능은 인간을 너무 흡사하게 흉내낼 수 있기 때문에 악용될 수 있음
- 게브루? 박사

첫째, 딥러닝이 무식한 접근방법이다보니 현 기술 수준에서 어쩔수 없음
둘째, (사람처럼) 머신러닝도 데이터를 주는 대로 데이터가 나오는 것, 세상 어디에도 평등하며 정치적으로 옳은 데이터나 사람이란 없다고 봄
셋째, 뇌를 흉내내는 것과 뇌를 만드는 것의 차이가 있더라도 그것은 다른 영역인 점, 뇌는 누구에게도 여전히 완전히 이해받지 못하고 있는 것으로 알고 있음
넷째, 그렇게 하자고 만든 것임

위 지적이 구글에서 기각당한 것은
연구의 깊이가 낮으면서 (구글에게) 괜한 노이즈를 만들기 때문이라고 생각한다.

(구글 월급 받으면서 하실 말씀은 아니세요.)

그렇게 이슈가 되고 싶으셨으면 ...
구글이 의도적으로 인종차별, 성차별적 데이터를 주입하고 있다는 음모(Evil Deed?)에 대한 내부고발 정도는 있었어야지.

12/10, Thu

TF_IDF 한 줄로.

TF_IDF는 "한 문서 내 단어 출현 빈도수 / 전체 문서 중 단어 출현한 문서수" concept.
-> 많은 사람들이 두루 하지 않는 행동을 그 사람이 많이 한다면 그의 특징으로 볼 수 있다.

(적용 - 아빠가 해커랭크 10번 접속했고, 전체 샘플 200 중 20 해커랭크 접속자가 있다면, 10/20 -> 0.5, 아들은 2회 접속했다면 0.01, 아빠는 해커랭크 관심자로 볼 수 있음. 주로 log 걸어 처리...)

여기서 NMF로 이어지고 TF_IDF도 조 선생님(감사합니다!)에 한두말씀 보태서 정리해볼 수도 있겠는데 굳이 내 정리까지 궁금해하는 사람이 없을 것이므로...

그리고 그들이 또 설명하지 않는 부분들이 있는데...

11/14, Sat

GPT3가 배우는 것

GPT3가 배우는 것은 주어진 모든 문맥상황에서의 말들끼리의 관계이다. GPT3 모델의 트랜스포머를 살펴보면 쿼리, 키, 밸류에 대한 Embedding이 핵심인데, 모든 문맥(morphme들이 서로가 서로를 만나지는 상황)마다 밸류가 바뀌도록 배우는 것이 핵심이다. 결국 "관계"를 배우는 것이다. 그 관계를 배우려다보니, 많은 문장으로 일일이 다 배우자니 컴퓨팅 퍼포먼스가 엄청나게 필요하게 된 것이다.

NLP, 딥러닝 열풍이 한편으로 시들해지는 것이 GPT3 시대부터 가내수공업 단계가 슬슬 마무리되고 있기 때문이다. 현재 그러한 컴퓨팅을 갖출 수 있는 것은 언론에 따르면 한국에서도 현재 삼성이나 네이버 정도로 보인다.

다음 단어를 알아채도록 배우는 것이 아니라, 다음 단어를 알아맞추는 퀴즈를 풀면서 사실은 말들의 관계를 배우고 있다는 것. 평이한 태스크를 수행하면서 그 안에 내재된 요소들의 관계를 학습하는 것. 그렇다면 이러한 원리는 비단 자연어에만 적용되는 것일까?

트랜스포머 아키텍처가 모든 문맥 별 상황에 대한 각각 의미를 파악하려는 방식이 어쩌면 브루트 포스한 것이므로 그에 대한 튜닝을 노려볼 수는 있겠지만, 결국 요소들의 관계를 모든 Context에서 배우자는 트랜스포머의 대원리(?)는 당분간 지배적이고, 여러 분야로 퍼질 것으로 생각된다.

위 이야기들은 맞는가? 자신 없다. GPT3에 대해 뭔가 적어두고 싶어서 적어봤는데 틀렸거나 고칠 부분이 많이 있겠지. 결국 지금 해봐야할 것은 트랜스포머를 작게나마 NLP가 아닌 다른 필드에서 태워보기? 아니면 OpenAI API 사용법이나 잘 배우거나.

(나중에 더 해 볼 이야기 ...) 실제는 자신의 인더스트리에서 NLP 처리가 어떻게 얼만큼 필요한지 파악하는 것부터이다. 챗봇 사주세요 가 아니고. 트랜스포머는 이미 자연어를 넘어 이미지, 영상에서 활약 중인 것으로 알고 있다.