ML DL DS
-
그래프와 추천시스템 7910ML DL DS/graphs 2022. 9. 29. 15:11
그래프와 추천시스템 7910 정점 표현정점표현학습그래프의 정점을 벡터 형태로 표현. Node Embdding이라고도 함f:V→Rdf: V \to \mathbb{R}^{d}f:V→Rd그래프를 벡터 형태로 표현해야, 다양한 기계학습 기술들을 적용할 수 있다.그래프의 정점간 유사도를 임베딩 공간에서도 정점 임베딩 값들간의 유사도가 보존되도록 하는 것이 목표이다.임베딩 공간에서의 유사도는 내적(Inner Product)를 사용할 수 있다.그래프에서 정점의 유사도는 인접서어, 거리/경로/중첩, 임의보행, 등으로 설정할 수 있다. 인접성 기반 접근법인접행렬의 원소 Au,vA_{u,v}Au,v를 두 정점 u v의 유사도로 가정 (0 or 1)인접성 기반의 node embedding 모형의 손실함수인접성 기반 접..
-
그래프와 추천시스템 68ML DL DS/graphs 2022. 9. 29. 15:11
그래프와 추천시스템 68 추천시스템추천의 대상은 다양하지만, 이번 강의에서는 상품을 대상으로하는 추천으로 가정하자사용자와 상품은 이종 그래프(Bipartite graph)로 표현할 수 있다.추천시스템의 핵심은 사용자별 구매를 예측하거나 선호를 추정하는 것 컨텐츠 기반 추천(Content based Recommendation) 사용자가 구매/만족했던 상품과 유사한 것을 추천하는 방법크게 아래와 같은 4가지 단계로 구성가능사용자가 사용했던 상품 프로필(Item Profile)을 수집ex. 원핫벡터, 임베딩 벡터 등으로 표현 가능상품프로필을 바탕으로 사용자 프로필(User Profile)ex. 상품 프로필을 가중 평균 등을 이용해 사용자 프로필 구성 가능사용자 프로필과 다른 상품들의 상품프로필을 매칭ex. 코..
-
그래프와 추천시스템 4-5ML DL DS/graphs 2022. 9. 29. 15:11
그래프와 추천시스템 4-5 그래프를 이용한 바이럴 마케팅Futher Reading https://arxiv.org/abs/1808.05502그래프를 통해 정보, 행동, 고장, 질병 등은 전파된다.SNS를 통해 정보, 행동이 전파된다.컴퓨터 네트워크에서 일부 장비의 고장이 전파되어 네트워크의 마비로 이어진다.질병의 전파 의사결정 기반의 전파모형카카오톡과 라인 중 어떤 메신저를 사용하며 그 이유는?→ 주변 사람들의 의사결정이 본인의 의사결정에 영향을 미친다선형 임계치 모형(Linear Threshold Model)가장 간단한 형태의 의사결정 기반 전파모형추상화2인일 때u, v 정점(사용자)가 모두 A를 사용할 때 효용: au, v 정점(사용자)가 모두 B를 사용할 때 효용: bu, v 정점(사용자)가 각각 ..
-
그래프와 추천시스템 1-3ML DL DS/graphs 2022. 9. 29. 15:11
그래프와 추천시스템 1-3 그래프 이론 기초그래프복잡계완전한 질서나 완전한 무질서를 보이지 않고, 그 사이에 존재하는 계로써, 수많은 요소들로 구성되어 있으며 그들 사이의 상호작용에 의해 집단성질이 떠오르는 다체 문제이다그래프는 복잡계를 효과적으로 표현하기 위한 언어이다. 그래프의 문제정점 분류 문제(Node Classification)정점이 어떤 클래스에 속할지 분류연결 예측 문제(Link Prediction)거시적 관점: 어떻게 연결이 진화할 지 예측 (성장, 감소 등)미시적 관점: 각 정점이 앞으로 어떤 정점과 연결될지 예측 (추천)군집 분석(Community Detection)랭킹, 정보 검색 문제정보 전파, 바이럴 마케팅 문제 그래프의 유형 및 분류방향, 무방향: 관계가 대등한지 아닌지에 따라 ..
-
Seq2Seq Learning & Pre-trained Models - (2)ML DL DS/NLP 2022. 6. 5. 17:36
⛓️Seq2Seq Learning & Pre-trained Models - (2) BERT - Bidirectional Encoder Representation from TransformerBERT Summary이름과 같이 transformer의 인코더 부분만을 사용. 좋은 Pre-trained Language Representation & downstream task에 대한 쉬운 fine tuning. 사전학습 시, 두 입력문장에 대하여 random masking된 토큰을 예측하는 분류(MLM) 문제와, 두 문장이 이어지는 문장인지에 대한 분류문제(Next Sentence)를 함께 학습.(https://github.com/google-research/bert/blob/master/run_pretrain..
-
Seq2Seq Learning & Pre-trained Models - (1)ML DL DS/NLP 2022. 6. 5. 17:36
⛓️Seq2Seq Learning & Pre-trained Models - (1) Sequence to Sequence learningseq2seq의 2 논문 (Sutskever et al.,2014, Cho et al., 2014)과 Jay Alamar의 블로그( https://jalammar.github.io/)를 추천핵심 구성 아이디어인코더: 입력 정보를 처리해 저장. 출력을 context vector라고도 함.디코더: 인코더의 결과를 입력으로 받아 시퀀스로 출력. RNN시퀀스 데이터를 처리하기 위해 개발된 뉴럴 빌딩 블락.입력 시퀀스와 출력 시퀀스의 길이에 따라 one2one, one2many, many2one, many2many로 나눌 수 있으며, 현재 timestamp에 대한 은닉층은 이전 t..
-
Buy It AgainML DL DS/papers 2022. 4. 3. 15:04
Buy It Again! Rahul Bhagat et al. Buy It Agian Modeling Repeat Purchase Recommendations, KDD 2018 https://dl.acm.org/doi/pdf/10.1145/3219819.3219891 2. Modeling Approach2.2 Problem FormulationCj 고객이 Ai 상품을 K번 t1, t2, ... tk의 간격을 두고 구매했을 때, 구매확률밀도를 아래와 같이 예측하려고 한다.위 식에 대한 첫 번째 가정은 다른 상품에 대한 구매 사건은 서로 독립적이라는 가정을 한다.두 번째 가정은 위 식을 아래와 같이 두 요소로 분해할 수 있다는 것이다. Q(Ai)Q(A_{i})Q(Ai)는 고객이 k번 구매했을 때, (k+1..
-
7장 최대 우도 추정법ML DL DS/사회과학자를위한데이터과학 2022. 3. 16. 12:08
7장 최대 우도 추정법로날드 피셔님이 최대우도추정법을 완성함. MLE - 수리통계학 (참고)Likelihood Function 이란세타로 부터 추출된, 독립인 표본들의 결합분포로 보는 것이다.x가 주어질 때, 세타에 대한 함수로 본다.Regularity Condition - 사전 규칙R0: 세타가 다르면, pdf도 다르다R1: pdf들은 공통의 support를 가진다. pdf가 support란 0보다 큰 값을 갖게 되는 영역ex. 균등분포면 해당 구간, 정규분포면 −∞∼∞-\infty \sim \infty−∞∼∞R2: 세타의 참값 세타 제로는 오메가에 있는 interior point이다.세타 값의 open set을 잡아도 오메가에 들어간다. interior point: 경계가 아닌 점 [a, b]에서는..