본문 바로가기
멋쟁이사자처럼 AI School 8기(fin)/TIL(Today I Learn)

[멋쟁이사자처럼 AI스쿨] TIL(23.2.27)

by #FF0000 2023. 2. 27.

 

  • 스토리지 사이즈를 줄이는 방법, 파일 사이즈를 효율적으로 관리하는 방법 : paquet.
    • 파일 포맷을 통해 파일 용량을 줄이는 방법, 
  • 메모리 사이즈를 줄이는 방법, 메모리를 효율적으로 관리하는 방법 :  downcast

 

ㅁ 기존 ETL(data warehouse 구축) 방식에서 ELT (data lake)방식으로 저장

     ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는

     데이터 웨어하우스에 데이터를 수집, 가공, 저장하는 방법론 중 하나.

     ETL은 데이터를 추출하여(Extract) 전처리 및 가공(Transform)한 후, 데이터 웨어하우스에 적재(Load).

 

 

 

ㅁ 바이너리 프리픽스(binary prefix)

     ▶ 1024로 나누어서 파일 단위를 표기하는 방식

         이진 접두사는 컴퓨터에서 사용되는 바이트(Byte) 단위의 크기를 나타내기 위한 것으로,

          이진법에서 2의 거듭제곱 값을 나타내는 접두사를 사용.

 

 

Koalas: Spark에서 pandas API를 사용 가능하게  함

# import databricks.koalas as ks
import pyspark.pandas as ps

 

 

 

 

Q&A

 

Q. 파일 사이즈를 왜 줄여야 할까?

A. '데이터를 저장하는 것' 자체가 “비용”이기 때문에

기업에서는 Log를 쌓을 때 시간 단위로 파일을 저장할 것인지 , 어떤 기준, 어떤 도구로 데이터를 저장할 것인지를 고민.

 

Q. csv는 행단위로저장, parquet은 열단위로 관리. 열단위로 관리했을때의 장점?

 A. 열 단위 압축은 '효율적이고 저장 공간을 절약'

     각 열의 데이터 유형에 특정한 인코딩 및 압축 기술을 사용 가능.

     특정 열 값을 가져오는 쿼리는 전체 행을 읽을 필요가 없으므로 '성능이 향상'.

 

Q. csv와 parquet 형식의 차이점?

A. csv : 행 저장방식, 메타 정보 미 포

     parquet : 열 저장방식, 메타 정보 포함

 

Q. 동일내용 저장. csv : 23B, parquet : 2.35kB

parquet은 열단위로 저장, 압축률이 높다고 했는데 왜 parquet 이 용량이 더 클까?

A. parquet은 메타정보를 포함, -> 데이터가 아주 작을경우에는 메타정보를 포함한 parquet의 파일크기가 더 클 수 있음

 

Q. 파이썬으로 기술적인 방법 외에 컴퓨터 메모리를 절약해서 사용하는 방법?

A. 메모리를 많이 사용하는 크롬 브라우저의 탭 닫기. 주피터 노트북 커널 종료.

동영상 관련 프로그램, 게임 등 리소스를 많이 필요로 하는 프로그램 종료하기.컴퓨터 재부팅하기. 

보통 기업에서는 개인 PC를 사용하기보다는 대용량 파일은 공용 장비에 접근해서 사용하기도 함. 

 

Q. 데이터베이스 스키마?

A. 컴퓨터과학에서 데이터 스키마는 데이터베이스에서 자료의 구조, 자료의 표현방법, 자료간의 관계를 형식언어로 정의한 구조. 이름이 있다면 데이터 타입 길이 등을 표현.

 

Q. 데이터에 따라 압축률이 다름. why?

A. 데이터 종류의 다양성에 따라 파일 압축률이 상이함.