브렌쏭의 Veritas_Garage

[우리FISA] 데이터 관리 본문

[Project_하다]/[Project_공부]

[우리FISA] 데이터 관리

브렌쏭 2024. 7. 24. 09:36

데이터(data)란

어떤 값을 포함하고 있는 가공되지 않은 1차적인 자료

이름, 나이, 날짜, 이미지, 텍스트 등
  • 데이터는 차원(컬럼, 구조, 열, 기준...) 을 입으면 의미를 지니게 된다
  • 데이터는 정형 데이터비정형 데이터로 나뉜다
    • 정형 데이터: 표 형태로 정리된 데이터
    • 비정형 데이터: 표 형태로 정리되지 않은 데이터
    • 반정형 데이터: 일부는 정형 데이터, 일부는 비정형 데이터

정형 데이터

  • 정형 데이터는 행과 열로 이루어진 데이터
  • 구조화된 데이터 , 미리 정해진 구조에 따라 저장되는 데이터
  • 데이터베이스(RDB), 엑셀, CSV, 텍스트 파일 등

반정형 데이터

  • 정형 데이터와 비정형 데이터의 중간 형태
  • 넣어야 되는 항목을 기본은 지키되 유동적으로 관리하는 데이터
  • 구조화 되어 있지만, 반드시 지킬 필요는 없는 데이터
    • HTML, XML, JSON, YAML

비정형 데이터

  • 정해진 구조가 없는 데이터
  • 텍스트, 이미지, 동영상, 소셜 미디어 데이터
  • 구조화 되어 있지 않아 분석이 어려움

데이터 분석

  • 데이터 분석은 데이터를 수집, 정리, 분석, 시각화하여 의미 있는 정보를 도출하는 과정
  • 데이터 분석은 데이터 전처리, 데이터 시각화, 데이터 분석으로 나뉜다
  • 데이터 분석은 기술적 측면비기술적 측면으로 나뉜다

데이터 전처리

  • 데이터를 분석하기 좋은 형태로 가공하는 과정

데이터 시각화

  • 데이터를 시각적으로 표현하는 과정
    • 그래프, 차트, 지도 등

데이터 분석

  • 데이터를 분석하여 의미 있는 정보를 도출하는 과정
    • 통계, 머신러닝, 딥러닝 등

기술적 측면에서의 데이터 분석

  • 데이터 분석을 위한 기술적인 부분
    • 파이썬, R, SQL, 엑셀 등
  • 데이터 분석을 위한 라이브러리
    • Numpy, Pandas, Matplotlib, Seaborn, Scikit-learn 등

비기술적 측면에서의 데이터 분석

  • 데이터 분석을 위한 비기술적인 부분
    • 비즈니스, 마케팅, 경영, 디자인 등

빅데이터

  • 빅데이터는 대량의 데이터를 의미
  • 정형데이터 뿐만 아니라 반정형, 비정형 데이터가 복합적으로 구성
  • 빅데이터의 특성
    • 다양성(Variety)
      • 전통적인 데이터와 달리 구조적인 데이터 뿐만 아니라 비구조적인 데이터를 포함
      • 생성되는 데이터의 80%가 비디오, 이미지, 문서 등과 같은 비정형 데이터
    • 규모(Volume)
      • 기존의 DBMS가 관리하던 데이터가 기가바이트수준이었다면
        테라바이트나 페타바이트 이상을 의미
    • 속도(Velocity)
      • 데이터 생성에서 유통되어 소비되는 기간이 대폭 단축되었음을 의미
      • 2019년 기준, 매분 72시간 분량의 유튜브 영상 / 216,000개의 인스타그램 포스트가 업로드되고 있음
  • 3가지 특성에 가치(Value), 변동성(Variability), 정확성(Veracity), 복잡성(Complexity) 등을 추가하여 최근에는 빅데이터 특성을 3V에서 4V, 6V, 6V+1C로 확장하여 제시

데이터베이스

여러 사람이 사용할 수 있도록 통합해 관리하는 데이터 집합.
데이터베이스는 데이터의 집합이며,
여러 응용 프로그램들이 데이터를 저장하고 관리하는데 사용하는 공용 데이터들의 모임이다.

데이터베이스는 실체가 없는 논리적인 개념일 뿐이고,
이를 실제로 구현한 것이 바로 데이터베이스 관리 시스템(DBMS)이다.

데이터베이스의 유형

  • 계층형 데이터베이스
    • 데이터를 계층 구조로 저장하는 데이터베이스
    • 데이터를 트리 구조로 저장
    • 데이터의 관계를 표현하기 쉽지만, 데이터의 중복이 발생
      • 중복 데이터를 최소화하기 위해 관계형 데이터베이스가 등장
  • 네트워크형 데이터베이스
    • 각 레코드가 여러 개의 부모 레코드를 가질 수 있는 데이터베이스
    • N:1, 1:N, N:M 관계를 표현하기 쉽지만, 복잡한 구조
    • 설계 및 구현이 어려움
  • 관계형 데이터베이스
    • 최소단위의 데이터를 테이블로 구성
    • SQL과 같은 강력한 쿼리 언어를 지원
    • 중복 데이터를 최소화하고, 데이터의 무결성을 보장
      • 데이터의 무결성: 데이터의 정확성, 일관성, 유효성을 보장
      • 데이터베이스의 무결성을 보장하기 위해 정규화를 수행
  • NoSQL 데이터베이스
    • 비 관계형 데이터베이스
    • 대용량 데이터 처리 및 분산 처리를 위해 등장
      • 대용량 데이터 처리: 빅데이터, 클라우드 컴퓨팅 등
      • 분산 처리: 여러 대의 컴퓨터로 데이터를 처리
    • 데이터의 일관성, 무결성, 정확성을 보장하지 않음
    • 테이블이 아닌 컬렉션으로 데이터를 저장
      • 컬렉션: 문서, 키-값, 그래프 등
      • MongoDB, Cassandra, Redis 등
    • 요즘 대세인듯
    • SQL같은 언어는 지원하지 않는다

파일이나 데이터의 유형과 관계없이 냅다 때려박는 매력이 있다


Redis는 램디스크 방식의 빠른 key-value 저장소였으나 라이센싱 이슈가 발생해서 사용자 대거 이탈중

https://redis.io/blog/redis-adopts-dual-source-available-licensing/

 

Redis Adopts Dual Source-Available Licensing - Redis

Beginning today, all future versions of Redis will be released with source-available licenses. Read more on the blog.

redis.io

 


데이터베이스 관리 스타일

Data Mart, Data Warehouse, Data Lake

데이터베이스를 관리하는 3가지 스타일. 수집되는 데이터 특성 및 데이터 활용방식에 따라 다르게 사용.

Data Mart

  • 데이터를 활용하는 담당자가 데이터를 활용하기 위한 형태 거의 그대로 데이터를 쌓아두는 공간을 의미합니다.
  • 각 현업에서 사용하는 업무단위 처럼 상세한 단위로 데이터를 저장하고, 사용합니다.
  • DM은 현업 담당자(소비자)가 필요한 데이터(상품)을 직접 골라담아 소비할 수 있는 공간(소매점)이라고 할 수 있습니다.
    • 데이터를 공급하는 공간 도매점 개념이 있다.

Data Warehouse

  • 데이터 마트의 집합체로, 기업 전체의 데이터를 종합적으로 분석하기 위한 데이터 저장소

데이터 소매점(DM)에 공급하게될 데이터를 다양한 원천에서 수집하여 주제별로 저장하는 데이터 도매점과 같은 공간

  • 다양한 소스에서 발생하는 데이터를 소비자에게 전달하기 전에 통합하여 저장하는 공간이다.
  • 데이터 웨어하우스는 데이터의 통합성을 중요시하며, 시간의 흐름에 따른 데이터의 변화를 추적할 수 있어야 한다.

DW 스타일에서는 통합되는 과정에서 데이터를 정제하는 비용과 버려지는 데이터가 발생.
이를 해결하기 위해 데이터 레이크 스타일이 등장

Data Lake

  • 데이터 레이크는 비정형 데이터를 포함한 모든 데이터를 저장하는 저장소

데이터 레이크는 저장소로서의 역할을 중시하며, 데이터의 가공은 사용자가 원하는 방식으로 직접 수행

  • 다양한 원천을 그대로 가져와 저장하여 다양성을 보존하는 스타일이다.
    • 즉, DL은 원천에서 발생한 데이터를 다양한 형태 그대로 한 곳에 저장하는 공간.
    • Raw Data를 저장하는 공간
Comments