본문 바로가기

박조은

[멋쟁이사자처럼 AI스쿨] 3월 1주 WIL 23.2.27 - 28 회고. 1. 능동적으로 데이터를 사용하는 방법. 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : parquet. 파일 포맷을 통해 파일 용량을 줄이는 방법 열 스토리지, 필요한 데이터만 읽기 효율적인 바이너리 패킹 압축 알고리즘 및 인코딩 선택 데이터를 파일로 분할하여 병렬 처리 가능 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 : downcast float, int형의 데이터 타입 변경을 통해 메모리 다운 사이즈 수행 2. 비즈니스 데이터 분석. groupby를 활용해 count, sum, mean 등을 활용. nlargest를 통해 상위 제품 추출 datetime 모듈을 통해 날짜 형식 변경 dt 접근자를 통한 파생변수 생성. 조건.. 더보기
[코칭스터디 8기] 데이터 사이언스 2022 수료. 코칭스터디 8기 데이터 사이언스 2022 수료.(리드부스터) 22.10.27 - 11.24 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.2.28) * 비즈니스 데이터 분석 Q. 왜 고객의 가치를 평가해야 할까? A. 한정된 자원 -> 효율을 극대화하기 위해 고객 가치 평가, 차별화 마케팅 전략 수립 필 * AARRR > 시장 진입 단계에 맞는 특정 지표를 기준으로 서비스의 상태를 가늠 할 수 있는 효율적인 기준. > 현 시점 가장 핵심적인 지표에 집중 Acquisition : 어떻게 우리 서비스를 접하고 있는가? Activation : 사용자가 처음 서비스를 이용할 때 긍정적인 경험을 제공하는가? Retention : 서비스 재 사용률은 어떻게 되는가? Referral : 사용자가 자발적 바이럴, 공유를 일으키는가? Revenue : 매출로 연결 되고 있는가? Q. 소매, 리테일 서비스에 머신러닝을 어떻게 활용할 수 있는가? A. 고객 분석 - 개.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.2.27) 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : paquet. 파일 포맷을 통해 파일 용량을 줄이는 방법, 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 : downcast ㅁ 기존 ETL(data warehouse 구축) 방식에서 ELT (data lake)방식으로 저장 ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는 데이터 웨어하우스에 데이터를 수집, 가공, 저장하는 방법론 중 하나. ETL은 데이터를 추출하여(Extract) 전처리 및 가공(Transform)한 후, 데이터 웨어하우스에 적재(Load). ㅁ 바이너리 프리픽스(binary prefix) ▶ 1024로 나누어서 파일 단위를 표기하.. 더보기
[멋쟁이사자처럼 AI스쿨] Day-30 TIL today topic. 버거지수 * glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법 * 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 하는 방법, 컬러 선택 방법 * 지도 시각화 방법 summary 1. isin() & str.contains ▶ isin : 리스트 형태에서 사용 가능!! burger = ["버거킹", "맥도날드", "KFC", "롯데리아"] df[df["상호명"].isin(burger)] ▶ 그러나 isin은 일치하는 것만 찾기 때문에 사용에 적합하지 않음!! ▶ str.contains로 부분 일치 적용 df[df["상호명"].str.contains("버거킹|BKR|맥도날드|멕도날드|롯데리아|KFC|케이에프씨")] 2. heatmap() & sty.. 더보기
[멋쟁이사자처럼 AI스쿨] Day-29 TIL 1. .copy() ▶ .copy()는 파이썬, 판다스, 넘파이에서 모두 사용. but 기능이 약간 차이를 갖음. ▶ .copy() 앞에 붙은 객체의 type을 확인 필요. 2. sns.heatmap() & df.style.background_gradient() ▶ sns.heatmap() : 전체를 기준 ▶ df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교할 때 적합. ex) 변수에 체중, 키, BMI지수, 콜레스테롤수치처럼 스케일값이 다르고 성질이 다른 값의 스케일을 비교하고자 할 때 적합 3. groupby & pivot_table ▶ pivot_table이 groupby의 하이레벨 인터페이스 ▶ groupby > pivot_table > crosstab .. 더보기
[멋쟁이사자처럼 AI스쿨] Day28 TIL ㅁ tidy-data *각 행이 개별 관측치가 아니라 집계가 되어 있는 데이터. => 일별시세데이터 각 행이 개별 관측치인 데이터. ex) 각 행이 개별 관측치, 각 확진자에 대한 정보 *Tidy-data : 깔끔한 데이터 > 각 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터, 분석하기 좋은 데이터 > Pandas의 melt 사용(Tidy Data 깔끔한 데이터를 만들기위해 사용) > pd.melt(df) > 열(columns)에 있던 데이터를 행(row)으로 > 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치 *wide-form => pandas plot()으로 막대의 색상을 다르게 지정하거나, 서브플롯을 그리거나, 시각화 하기에 좋다. long-fo.. 더보기
[멋쟁이사자처럼 AI스쿨] Day-25 TIL 보통은 정규분포 형태가 가장 이상적인 형태입니다. 그런데 현실세계에서는 정규분포 형태의 모양을 띄는 경우가 많지 않습니다. 머신러닝, 딥러닝 등을 할 때는 정규분포 형태로 분포의 모양을 변경해 주기도 합니다. ㅁ 왜도 비대칭도(非對稱度, skewness) 또는 왜도(歪度)는 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다. 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다. ㅁ 첨도 첨도(尖度,.. 더보기