본문 바로가기

멋쟁이사자처럼 AI스쿨 8기

[멋쟁이사자처럼 AI스쿨] TIL(23.3.7), 머신러닝 Scikit-learn 지도학습 vs 비지도학습 지도 학습 > 정답(Label) 있는 데이터를 학습 분류 : 범주형 데이터를 각 class별로 나누는 것 (범주형 변수) 회귀 : 하나의 가설에 미치는 다양한 수치형 변수들과의 인과성 분석 (수치형 변수) 비지도 학습 > 정답(Label) 없는 데이터를 학습 군집화 : 유사도가 높은 범주끼리 모아주는 것, 분류와는 다르게 정답이 없다. (범주형 변수) 차원축소 : 고차원 데이터를 차원을 축소해서 분석할 특성을 줄이고 한눈에 볼 수 있게 해줌 (수치형 변수) No Free Lunch Theorems for Optimization > Wolpert와 Macready가 1997년에 발표한 논문, > 어떤 최적화 알고리즘이든 모든 문제에서 효과적일 수 없음. > .. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.6), RFM Q. 요일별 & 월별, 시간대별 구매 빈도수 지표가 중요한 이유 ? - 중요한 segment 이기 때문 - 특정 시간대나 요일에 서버 증설 또는 알림 , 프로모션, 광고 등 - 구매율을 높이기위한 어떤 액션을 시도할 수 있기 때문. - 조회수 증가 -> 서비스 개선에 활용 리텐션을 구할 때는 연도, 월, 일, 주별로 구하기도. => 어떤 관점에서 볼 것인지에 따라 주기를 정하게 됨. 예를 들어 게임을 오픈했는데 1~2달 정도 되었다면 연도, 월별로 구해서 보더라도 큰 의미를 찾기 어려울 것입니다. 그래서 서비스 초기에는 시간대별, 일자별로 보기도 합니다. 서비스를 어느정도 운영하다보면 연도, 월별로 궁금해 지는 시점이 옵니다. 그 때는 연도, 월별로 구해서 보게 됩니다. 위 예시처럼 투자를 위해 리텐션을.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.3.3 ) - 태블로1 with 강승일 ㅁ 막대 그래프를 사용하는 이유 만들기 쉬운 시각화 범주끼리 비교하기 위해 순위를 비교하기 위해 추세를 살펴보는데 유용함 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.2.28) * 비즈니스 데이터 분석 Q. 왜 고객의 가치를 평가해야 할까? A. 한정된 자원 -> 효율을 극대화하기 위해 고객 가치 평가, 차별화 마케팅 전략 수립 필 * AARRR > 시장 진입 단계에 맞는 특정 지표를 기준으로 서비스의 상태를 가늠 할 수 있는 효율적인 기준. > 현 시점 가장 핵심적인 지표에 집중 Acquisition : 어떻게 우리 서비스를 접하고 있는가? Activation : 사용자가 처음 서비스를 이용할 때 긍정적인 경험을 제공하는가? Retention : 서비스 재 사용률은 어떻게 되는가? Referral : 사용자가 자발적 바이럴, 공유를 일으키는가? Revenue : 매출로 연결 되고 있는가? Q. 소매, 리테일 서비스에 머신러닝을 어떻게 활용할 수 있는가? A. 고객 분석 - 개.. 더보기
[멋쟁이사자처럼 AI스쿨] mid project #1. 회고 미드 프로젝트 #1 회고. 23.2.20 - 23.2.26 짧고도 길었던 미드 프로젝트1의 테마는 EDA. 최초, 주제 선정시 아이템은 '노인'이었다. 고령화와 관련된 사안들을 경제, 복지, 건강의 카테고리에서 분석해 보는것이었는데, 자료 수집 및 1차 데이터 EDA가 들어간 시점에서 주제가 너무 광범위하고, 도출될 결론이 너무 당연할 수 있다는 피드백을 받아 결국 폐기... 하지만, 노인에서 파생된 '노인 무임승차'를 소재로 서울교통공사의 적자와 노인 무임승차 연령 상한을 주제로 삼아 새로운 분석을 수행하게 된다. 메인 주제 선정후, 세부 분석의 여러가지 카테고리중, 재무제표를 통한 분석이 필요할 것 같다는 의견이 있었고, 이는 경영학과 출인인 나에게 토스되어 공시된 정보를 통해 회사의 상황을 정확히 .. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.2.27) 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : paquet. 파일 포맷을 통해 파일 용량을 줄이는 방법, 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 : downcast ㅁ 기존 ETL(data warehouse 구축) 방식에서 ELT (data lake)방식으로 저장 ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는 데이터 웨어하우스에 데이터를 수집, 가공, 저장하는 방법론 중 하나. ETL은 데이터를 추출하여(Extract) 전처리 및 가공(Transform)한 후, 데이터 웨어하우스에 적재(Load). ㅁ 바이너리 프리픽스(binary prefix) ▶ 1024로 나누어서 파일 단위를 표기하.. 더보기
[멋쟁이사자처럼 AI스쿨] Day36 - TIL with 통계 독립변수가 범주형인 경우 범주형 변수는 기울기를 곱할 수 없음 연속 변수로 변환하여 모형에 투입 가장 많이 사용하는 것은 더미 코딩 dummy coding 더미 코딩 dummy coding 범주형 변수에 범주가 k 개 있을 경우 k 1 개의 더미 변수를 대신 투입 범주 중에 하나를 기준 reference 로 지정 기본적으로 ABC 순으로 먼저 나오는 것이 기준 변경할 수도 있음 기준를 제외한 범주들은 범주별로 더미 변수를 하나씩 가짐 더미변수는 해당 범주일 경우에만 고려 더미변수의 기울기는 기준과의 차이를 의미 더보기
[멋쟁이사자처럼 AI스쿨] 통계 4일차 회고 Q. 회귀분석의 종속변수는? ▶ 연속형 선형모형 : y = wx + b 종속변수 : y x가 어떻게 되느냐에 따라서 y가 정해지기 때문에 y를 '종속'변수라 부름 Q. 선형 모형의 식 y = wx + b에서 w의 의미는? ▶ x가 1 변화할때 y 변화량 y = b (x=0) y = w + b (x=1) y = 2w + b (x=2) Q. 선형 모형의 식 y = wx + b에서 b의 의미는? ▶ x가 0일 때 y의 값 Q. 독립변수 x의 기울기가 +이면, 다른 조건이 같을 때 독립변수 x가 증가할 수록 종속변수 y는 ▶ 증가한다. Q. 선형 회귀분석에서 일반적인 추정방법은 잔차분산을 어떻게 만드는 계수를 찾는가? ▶ 최소로 (작을수록 좋다) 잔차 = 실제값 - 예측값 잔차 분산 = 평균(잔차^2) 편차 =.. 더보기