분류 전체보기
-
통계적 가설 검정 (Statistical hypothesis testing)Math/etc. 2022. 9. 30. 22:27
통계적 가설 검정 (Statistical hypothesis testing) Section 1. General Information데이터의 종류 요약 통계량데이터가 정규분포를 따르는 경우: 평균과 표준편차로 요약이 적절정규분포를 따르지 않는 경우(skewed): 중앙값과 IQR 요약이 적절순위척도(ordinal): 중앙값과 IQR 요약이 적절명목적도: 최빈값→ 이를 통해, 이상치를 확인할 수 있다.시각화적절한 통계적 검정 방안 고르기연구주제가 어떤 것인지, 변수들의 종류가 어떻게 되는지 알아야 한다. 그리고 종속 변수의 데이터가 연속형(정규성, 정규성X), 범주형(순위척도/명목척도)인지에 알아야한다.이외에 설명변수는 얼마나 많고 어떤 데이터 종류인지. 관계나 평균의 차이가 관심사인지. 동일한 실험자에게 ..
-
2 표본 가설 검정(Two-sample hypothesis testing)Math/etc. 2022. 9. 30. 22:27
2 표본 가설 검정(Two-sample hypothesis testing) 2개의 그룹 표본의 평균의 차이가 유의미한지 검정하는 방안먼저 다른 변수들이 있는 경우 개입이 있는지, 독립성(상관성) 검정을 한다.정규성과 등분산성이 만족하는지 알아봐야 한다.정규성: 종속변수는 각 그룹에서 정규 분포를 따른다.확인 방법: 히스토그램, Shapiro Wilk, Kolmogorov-Smirnov만족하지 않은 경우: Mann-Whitney U test (Wilcoxon rank sum), 부트스트랩 기반 검정 Mann-Whitney U test의 경우 평균이 아닌 분포에 대한 검정이므로, 부트스트랩 기반의 검정이 더 검정력이 좋은 듯 하다.정규성을 만족하지 않은 경우, 변수 변환을 생각할 수 있지만 변환된 변수의 평..
-
그래프와 추천시스템 7910ML DL DS/graphs 2022. 9. 29. 15:11
그래프와 추천시스템 7910 정점 표현정점표현학습그래프의 정점을 벡터 형태로 표현. Node Embdding이라고도 함f:V→Rdf: V \to \mathbb{R}^{d}f:V→Rd그래프를 벡터 형태로 표현해야, 다양한 기계학습 기술들을 적용할 수 있다.그래프의 정점간 유사도를 임베딩 공간에서도 정점 임베딩 값들간의 유사도가 보존되도록 하는 것이 목표이다.임베딩 공간에서의 유사도는 내적(Inner Product)를 사용할 수 있다.그래프에서 정점의 유사도는 인접서어, 거리/경로/중첩, 임의보행, 등으로 설정할 수 있다. 인접성 기반 접근법인접행렬의 원소 Au,vA_{u,v}Au,v를 두 정점 u v의 유사도로 가정 (0 or 1)인접성 기반의 node embedding 모형의 손실함수인접성 기반 접..
-
그래프와 추천시스템 68ML DL DS/graphs 2022. 9. 29. 15:11
그래프와 추천시스템 68 추천시스템추천의 대상은 다양하지만, 이번 강의에서는 상품을 대상으로하는 추천으로 가정하자사용자와 상품은 이종 그래프(Bipartite graph)로 표현할 수 있다.추천시스템의 핵심은 사용자별 구매를 예측하거나 선호를 추정하는 것 컨텐츠 기반 추천(Content based Recommendation) 사용자가 구매/만족했던 상품과 유사한 것을 추천하는 방법크게 아래와 같은 4가지 단계로 구성가능사용자가 사용했던 상품 프로필(Item Profile)을 수집ex. 원핫벡터, 임베딩 벡터 등으로 표현 가능상품프로필을 바탕으로 사용자 프로필(User Profile)ex. 상품 프로필을 가중 평균 등을 이용해 사용자 프로필 구성 가능사용자 프로필과 다른 상품들의 상품프로필을 매칭ex. 코..
-
그래프와 추천시스템 4-5ML DL DS/graphs 2022. 9. 29. 15:11
그래프와 추천시스템 4-5 그래프를 이용한 바이럴 마케팅Futher Reading https://arxiv.org/abs/1808.05502그래프를 통해 정보, 행동, 고장, 질병 등은 전파된다.SNS를 통해 정보, 행동이 전파된다.컴퓨터 네트워크에서 일부 장비의 고장이 전파되어 네트워크의 마비로 이어진다.질병의 전파 의사결정 기반의 전파모형카카오톡과 라인 중 어떤 메신저를 사용하며 그 이유는?→ 주변 사람들의 의사결정이 본인의 의사결정에 영향을 미친다선형 임계치 모형(Linear Threshold Model)가장 간단한 형태의 의사결정 기반 전파모형추상화2인일 때u, v 정점(사용자)가 모두 A를 사용할 때 효용: au, v 정점(사용자)가 모두 B를 사용할 때 효용: bu, v 정점(사용자)가 각각 ..
-
그래프와 추천시스템 1-3ML DL DS/graphs 2022. 9. 29. 15:11
그래프와 추천시스템 1-3 그래프 이론 기초그래프복잡계완전한 질서나 완전한 무질서를 보이지 않고, 그 사이에 존재하는 계로써, 수많은 요소들로 구성되어 있으며 그들 사이의 상호작용에 의해 집단성질이 떠오르는 다체 문제이다그래프는 복잡계를 효과적으로 표현하기 위한 언어이다. 그래프의 문제정점 분류 문제(Node Classification)정점이 어떤 클래스에 속할지 분류연결 예측 문제(Link Prediction)거시적 관점: 어떻게 연결이 진화할 지 예측 (성장, 감소 등)미시적 관점: 각 정점이 앞으로 어떤 정점과 연결될지 예측 (추천)군집 분석(Community Detection)랭킹, 정보 검색 문제정보 전파, 바이럴 마케팅 문제 그래프의 유형 및 분류방향, 무방향: 관계가 대등한지 아닌지에 따라 ..
-
Seq2Seq Learning & Pre-trained Models - (2)ML DL DS/NLP 2022. 6. 5. 17:36
⛓️Seq2Seq Learning & Pre-trained Models - (2) BERT - Bidirectional Encoder Representation from TransformerBERT Summary이름과 같이 transformer의 인코더 부분만을 사용. 좋은 Pre-trained Language Representation & downstream task에 대한 쉬운 fine tuning. 사전학습 시, 두 입력문장에 대하여 random masking된 토큰을 예측하는 분류(MLM) 문제와, 두 문장이 이어지는 문장인지에 대한 분류문제(Next Sentence)를 함께 학습.(https://github.com/google-research/bert/blob/master/run_pretrain..
-
Seq2Seq Learning & Pre-trained Models - (1)ML DL DS/NLP 2022. 6. 5. 17:36
⛓️Seq2Seq Learning & Pre-trained Models - (1) Sequence to Sequence learningseq2seq의 2 논문 (Sutskever et al.,2014, Cho et al., 2014)과 Jay Alamar의 블로그( https://jalammar.github.io/)를 추천핵심 구성 아이디어인코더: 입력 정보를 처리해 저장. 출력을 context vector라고도 함.디코더: 인코더의 결과를 입력으로 받아 시퀀스로 출력. RNN시퀀스 데이터를 처리하기 위해 개발된 뉴럴 빌딩 블락.입력 시퀀스와 출력 시퀀스의 길이에 따라 one2one, one2many, many2one, many2many로 나눌 수 있으며, 현재 timestamp에 대한 은닉층은 이전 t..