본문 바로가기

Python

[멋쟁이사자처럼 AI스쿨] 3월 1주 WIL 23.2.27 - 28 회고. 1. 능동적으로 데이터를 사용하는 방법. 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : parquet. 파일 포맷을 통해 파일 용량을 줄이는 방법 열 스토리지, 필요한 데이터만 읽기 효율적인 바이너리 패킹 압축 알고리즘 및 인코딩 선택 데이터를 파일로 분할하여 병렬 처리 가능 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 : downcast float, int형의 데이터 타입 변경을 통해 메모리 다운 사이즈 수행 2. 비즈니스 데이터 분석. groupby를 활용해 count, sum, mean 등을 활용. nlargest를 통해 상위 제품 추출 datetime 모듈을 통해 날짜 형식 변경 dt 접근자를 통한 파생변수 생성. 조건.. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.2.28) * 비즈니스 데이터 분석 Q. 왜 고객의 가치를 평가해야 할까? A. 한정된 자원 -> 효율을 극대화하기 위해 고객 가치 평가, 차별화 마케팅 전략 수립 필 * AARRR > 시장 진입 단계에 맞는 특정 지표를 기준으로 서비스의 상태를 가늠 할 수 있는 효율적인 기준. > 현 시점 가장 핵심적인 지표에 집중 Acquisition : 어떻게 우리 서비스를 접하고 있는가? Activation : 사용자가 처음 서비스를 이용할 때 긍정적인 경험을 제공하는가? Retention : 서비스 재 사용률은 어떻게 되는가? Referral : 사용자가 자발적 바이럴, 공유를 일으키는가? Revenue : 매출로 연결 되고 있는가? Q. 소매, 리테일 서비스에 머신러닝을 어떻게 활용할 수 있는가? A. 고객 분석 - 개.. 더보기
[멋쟁이사자처럼 AI스쿨] mid project #1. 회고 미드 프로젝트 #1 회고. 23.2.20 - 23.2.26 짧고도 길었던 미드 프로젝트1의 테마는 EDA. 최초, 주제 선정시 아이템은 '노인'이었다. 고령화와 관련된 사안들을 경제, 복지, 건강의 카테고리에서 분석해 보는것이었는데, 자료 수집 및 1차 데이터 EDA가 들어간 시점에서 주제가 너무 광범위하고, 도출될 결론이 너무 당연할 수 있다는 피드백을 받아 결국 폐기... 하지만, 노인에서 파생된 '노인 무임승차'를 소재로 서울교통공사의 적자와 노인 무임승차 연령 상한을 주제로 삼아 새로운 분석을 수행하게 된다. 메인 주제 선정후, 세부 분석의 여러가지 카테고리중, 재무제표를 통한 분석이 필요할 것 같다는 의견이 있었고, 이는 경영학과 출인인 나에게 토스되어 공시된 정보를 통해 회사의 상황을 정확히 .. 더보기
[멋쟁이사자처럼 AI스쿨] TIL(23.2.27) 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : paquet. 파일 포맷을 통해 파일 용량을 줄이는 방법, 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 : downcast ㅁ 기존 ETL(data warehouse 구축) 방식에서 ELT (data lake)방식으로 저장 ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는 데이터 웨어하우스에 데이터를 수집, 가공, 저장하는 방법론 중 하나. ETL은 데이터를 추출하여(Extract) 전처리 및 가공(Transform)한 후, 데이터 웨어하우스에 적재(Load). ㅁ 바이너리 프리픽스(binary prefix) ▶ 1024로 나누어서 파일 단위를 표기하.. 더보기
[멋쟁이사자처럼 AI스쿨] Week8 - WIL 23.02.06 - 23.02.08, AIS8 8주차 WIL mini project2를 끝낸 시점인 2월 9일 오늘. 대망의 mid project 조 구성이 발표 되었다. EDA 수업이 끝난 이번주. WIL 시작. 이번주의 학습 테마를 6가지로 정리하면 공공데이터를 활용해 전혀 다른 두 개의 데이터를 가져와서 전처리 하고 병합하기 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기 데이터의 형식에 따른 다양한 시각화 방법 이해하기 glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법(약 700mb) 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 방법, 컬러 선택 방법 지도 시각화 방법 EDA 처리 과정 요약. ▶ 서로 다른 형태(row, columns)를 갖는 데이터.. 더보기
[멋쟁이사자처럼 AI스쿨] Day-30 TIL today topic. 버거지수 * glob 를 사용해서 여러 파일을 로드해서 하나로 합치는 방법 * 상관 계수의 종류, 시각화 하는 방법, 삼각행렬을 만들어서 마스크 처리 하는 방법, 컬러 선택 방법 * 지도 시각화 방법 summary 1. isin() & str.contains ▶ isin : 리스트 형태에서 사용 가능!! burger = ["버거킹", "맥도날드", "KFC", "롯데리아"] df[df["상호명"].isin(burger)] ▶ 그러나 isin은 일치하는 것만 찾기 때문에 사용에 적합하지 않음!! ▶ str.contains로 부분 일치 적용 df[df["상호명"].str.contains("버거킹|BKR|맥도날드|멕도날드|롯데리아|KFC|케이에프씨")] 2. heatmap() & sty.. 더보기
[멋쟁이사자처럼 AI스쿨] Day-29 TIL 1. .copy() ▶ .copy()는 파이썬, 판다스, 넘파이에서 모두 사용. but 기능이 약간 차이를 갖음. ▶ .copy() 앞에 붙은 객체의 type을 확인 필요. 2. sns.heatmap() & df.style.background_gradient() ▶ sns.heatmap() : 전체를 기준 ▶ df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교할 때 적합. ex) 변수에 체중, 키, BMI지수, 콜레스테롤수치처럼 스케일값이 다르고 성질이 다른 값의 스케일을 비교하고자 할 때 적합 3. groupby & pivot_table ▶ pivot_table이 groupby의 하이레벨 인터페이스 ▶ groupby > pivot_table > crosstab .. 더보기
[멋쟁이사자처럼 AI스쿨] Day28 TIL ㅁ tidy-data *각 행이 개별 관측치가 아니라 집계가 되어 있는 데이터. => 일별시세데이터 각 행이 개별 관측치인 데이터. ex) 각 행이 개별 관측치, 각 확진자에 대한 정보 *Tidy-data : 깔끔한 데이터 > 각 변수가 열이고 각 관측치가 행이 되도록 배열된 데이터, 분석하기 좋은 데이터 > Pandas의 melt 사용(Tidy Data 깔끔한 데이터를 만들기위해 사용) > pd.melt(df) > 열(columns)에 있던 데이터를 행(row)으로 > 각 변수는 개별 열에, 각 관측치는 개별 행에, 관측 구성 요소 각각 값은 테이블 안에 위치 *wide-form => pandas plot()으로 막대의 색상을 다르게 지정하거나, 서브플롯을 그리거나, 시각화 하기에 좋다. long-fo.. 더보기