2장. 데이터 모델과 질의 언어

데이터 모델은 소프트웨어 개발에서 가장 중요한 부분이다. SW가 어떻게 작성됐는지 뿐만 아니라 해결하려는 문제를 어떻게 생각해야 하는지 영향을 미치기 때문이다.

대부분의 애플리케이션은 하나의 데이터 모델을 다른 데이터 모델 위에 계층을 둬서 만든다.

2장에서 중요한 내용
- 범용 데이터 모델 비교(관계형 모델, 문서 모델, 그래프 기반 데이터 모델)
- 여러 질의 언어와 사용 사례

관계형 모델과 문서 모델

가장 잘 알려진 데이터 모델은 1970년 에드가 코드가 제안한 관계형 모델으로한 SQL이다. 관계(relation)(=테이블)로 구성 되고 튜플(tuple)(=로우)의 모임.

관계형 데이터베이스의 근원은 비즈니스 데이터 처리에 있다. -> 트랜잭션 처리, 일괄 처리
관계형 모델의 목표는 정리된 인터페이스 뒤로 구현 세부 사항을 숨기는 것이다.

NoSQL의 탄생

NoSQL은 약 30년간 지속된 관계형 모델의 우위를 뒤집으려는 가장 최신의 시도이며 NoSQL은 어떤 기술이 아닌 Not Only SQL로 해석됨.
NoSQL 데이터베이스를 채택하게 된 원동력
- 대규모 데이터셋이나 많은 처리량 달성을 쉽게 하기 위한 확장성 필요
- 무료 오픈소스 소프트웨어 선호도 증가
- 관계형 모델에서 지원하지 않는 특수 질의
- 관계형 스키마에 제한에 따르지 않는 모델

객체 관계형 불일치

객체지향 프로그래밍 언어 애플리케이션에서 데이터를 관계형 테이블에 저장하려면 둘 사이에 전환 계층 필요 -> 임피던스 불일치(impedance mismatch) 

모든 내용을 갖추고 있는 데이터 구조는 문서이기 때문에 JSON표현에 적합하다. -> 문서 지향 데이터베이스(document-oriented)

다대일과 다대다 관계

중복된 데이터를 정규화하려면 다대일 관계를 사용한다.(문서 모델과 적합하지 않음 -> 조인 지원 약함)
애플리케이션의 데이터는 개발되면서 상호 연결되는 경향이 있다.(다대일, 다대다 필요성)


과거 IBM의 데이터모델 IMS의 설계는 계층 모델 사용

문서 데이터베이스 JSON 모델과 유사했다. 다대다 관계 표현의 문제를 해결하기 위한 해결책 두가지는 관계형 모델(SQL)네트워크 모델이었다. 

네트워크 모델(=코다실 모델)

계층 모델을 일반화 하며, 계층 모델 트리 구조에서 모든 레코드는 하나의 부모가 있지만 네트워크 모델에서는 다중 부모가 있을 수 있다.
접근 경로는 최상위 레코드에서부터 연속된 연결 경로를 따르는 방법.
문제는 다른 경로가 같은 레코드로 이어질 수 있고 프로그래머가 경로의 맨 앞에서 접근 경로를 계속 추적해야함.

관계형 모델(SQL)

관계형 모델이 하는 일은 알려진 모든 데이터를 배치하는 것이다. 튜플(로우) 컬렉션이 전부이며 복잡한 접근 경로가 없다.
질의 최적화기(query optimizer)가 최적의 접근 경로를 만들어준다.


문서 모델과 계층 모델의 비교

문서 모델과 계층 모델의 공통점
- 별도 테이블이 아닌 상위 레코드 내에 중첩된 레코드(ex. 지역, 교육사항 등)를 저장한다.

문서 모델과 관계형 모델의 공통점
- 다대일과 다대다 관계 표현 시 관련 항목은 고유한 식별자로 참조한다.
  -> 관계형 모델 = 외래 키(foreign key)
  -> 문서 모델 = 문서 참조(document reference)
- 조인이나 후속 질의를 사용해 읽기 시점에 확인
- 문서 모델은 코다실 모델의 전철을 밟고 있지 않음.

관계형 데이터베이스와 오늘날의 문서 데이터베이스

관계형 데이터베이스와 문서 데이터베이스의 차이
  1. 내결함성(5장 참고), 동시성 처리(7장 참고)
  2. 데이터 모델에서의 차이점
    - 문서 데이터 모델: 스키마 유연성, 지역성(성능), 애플리케이션 데이터 구조와 가까움
    - 관계 데이터 모델: 조인, 다대일, 다대다 관계 지원 높음

데이터 항목 관계 유형에 따라 어떤 모델이 나은 지 판단 필요

- 데이터가 문서와 비슷한 구조일 경우(일대다 구조) -> 문서 모델 사용
  -> 여러 테이블로 나누어 찢는(shredding) 관계형 기법은 스키마와 복잡한 애플리케이션 코드 발생됨
- 정규화된 데이터(다대일, 다대다 관계 사용 구조) -> 관계 모델 사용 ··· 조인 강점
- 상호 연결이 많은 데이터 -> 그래프 모델(or 관계 모델) 사용

문서 모델에서의 스키마 유연성

스키마 강요
- JSON(문서형, 관계형): 스키마 강요 X
- XML(관계형): 스키마 유효성 검사 포함 가능
  ※ 스키마가 없다는 뜻은 임의의 키와 값을 문서에 추가할 수 있고 읽을 때 필드의 존재 여부를 보장하지 않는다는 의미

쓰기 스키마(schema-on-write): 관계형 DB의 접근 방식으로 스키마를 명시하고 DB는 스키마를 따른다.(정적)
읽기 스키마(schema-on-read): 데이터 구조는 암묵적이며 데이터를 읽을 때 해석한다.(동적)

질의를 위한 데이터 지역성

웹 상에 문서를 보여주는 동작처럼 애플리케이션이 자주 전체 문서에 접근 시 저장소 지역성(Storage location)을 활용하여 성능 향상
필요 부분이 작을 때 큰 문서를 접근하는 경우 낭비(문서 전체를 적재하기 때문) -> 문서를 작게 유지, 문서 크기 증가하는 쓰기 지양

지역성 특성을 가진 관계 DB
- 구글, 스패너(Spanner)
- 오라클, 다중 테이블 색인 클러스터 테이블(multi-table index cluster table)

관계형 데이터베이스와 문서 데이터베이스는 시간이 지남에 따라 서로 비슷해지고 있다.

 데이터를 위한 질의 언어

관계형 모델이 등장하면서 데이터 질의 방법도 새로 등장

모델에 따른 질의언어
1. 선언형 질의언어 -> SQL, 관계대수
  - 목표를 달성하기 위한 방법이 아닌 결과가 충족해야 하는 조건데이터를 어떻게 변환(정렬, 그룹화 등)할지 지정
  - 명령을 실행할 때 접근 경로는 질의 최적화기(query optimizer)가 결정
  - 명령형 언어보다 간결하게 작업할 수 있고 상세 구현이 숨겨져있어 질의를 변경하지 않고 성능 향상 가능
  - 병렬 실행에 적합

2. 명령형 코드 질의언어 -> IMS(계층 모델), 코다실(네트워크 모델), 프로그래밍 언어
  - 특정 순서로 특정 연산을 수행하도록 컴퓨터에게 지시
  - ex) 한줄씩 단계별 실행하여 조건을 평가하고 변수를 갱신하고 루프를 더 실행할지 여부 결정

웹에서의 선언형 질의

선언형 질의의 장점은 데이터베이스에만 국한되지 않는다. -> 웹 CSS, XSL
명령형 접근방식은 JavaScript 코어 DOM(Document Object Model) API

맵리듀스 질의

맵리듀스(MapReduce)는 많은 컴퓨터에서 대량의 데이터를 처리하기 위한 프로그래밍 모델
map(collect)과 reduce(fold, inject) 함수를 기반으로 하며, 선언형 질의와 명령형 질의의 중간 정도 모델
몽고DB와 카우치DB 등 일부 NoSQL 데이터베이스에서 맵리듀스를 지원한다.

그래프형 데이터 모델

1장. 신뢰할 수 있고 확장 가능하며 유지보수하기 쉬운 애플리케이션

오늘날 대부분의 애플리케이션은 계산 중심(compute-intensive)이 아닌 데이터 중심적(data-intensive)이다.

많은 애플리케이션은 다음을 필요로 한다.
- 데이터베이스: 구동 애플리케이션이나 다른 애플리케이션에서 나중에 다시 데이터를 찾을 수 있게 데이터 저장
- 캐시: 읽기 속도 향상을 위해 값비싼 수행 결과를 기억
- 검색 색인(search index): 사용자가 키워드로 데이터를 검색하거나 다양한 방법으로 필터링할 수 있도록 제공
- 스트림 처리: 비동기 처리를 위해 다른 프로세스로 메시지 보내기
- 일괄 처리(batch processing): 주기적으로 대량의 누적된 데이터 분석

데이터 시스템에 대한 생각

데이터베이스, 큐, 캐시 등을 데이터 시스템이라는 포괄적 용어로 묶는다.
첫번째 이유, 데이터 저장과 처리를 위한 새로운 도구는 최근에 만들어졌다.
새로운 도구는 다양한 사용 사례(use case)에 최적화되었기 때문에 전통적인 분류에 정확히 들어맞지 않는다. 
(ex. redis는 메시지 큐로 사용하는 데이터스토어, Apache Kafka는 DB처럼 지속성을 보장하는 메시지 큐)
두번째 이유, 단일 도구로는 데이터 처리와 저장을 모두 만족시킬 수 없는 과도하고 광범위한 요구사항을 갖고 있음.

대부분의 소프트웨어 시스템에서 중요하게 여기는 세 가지 관심사
1. 신뢰성(Reliability): 결함(fault)이 있더라도 시스템은 지속적으로 올바르게 동작
2. 확장성(Scalability): 시스템 데이터 양, 트래픽 양 복잡도가 증가하면서 이를 처리할 적절한 방법 존재
3. 유지보수성(Maintainability): 시간이 지나도 모든 사용자가 시스템 상에서 생산적으로 작업할 수 있어야 함.

신뢰성

"무엇인가 잘못되어도 지속적으로 올바르게 동작함." (대략적인 의미)

결함과 장애는 동일하지 않다.
- 결함(fault): 잘못될 수 있는 일
  -> 결함을 예측하고 대처할 수 있는 시스템을 결함성(fault-tolerant) 또는 탄력성(resilient)을 지녔다고 함.
- 장애(faliure): 사용자에게 서비스를 제공하지 못하고 시스템 전체가 멈춤

결함으로 인해 장애가 발생하지 않도록 내결함성 구조를 설계해야 함.

 ※ 넷플릭스의 카오스 몽키(Chaos Monkey): 고의적으로 결함을 유도하여 내결함성 시스템을 지속적으로 훈련

결함

1. 하드웨어 결함
  가. 원인: 하드디스크 고장, 램 결함, 정전 등
  나. 대응책: 디스크 RAID 구성, 서버 이중 전원 디바이스와 핫 스왑(hot-swap) 가능한 CPU설치, 예비 전원용 디젤 발전기 설치
    -> 구성요소 하나가 죽으면 고장난 구성 요소가 교체되는 동안 중복된 구성 요소를 대신 사용할 수 있음.

2. 소프트웨어 오류
  가. 원인: 시스템 내 체계적 오류(systematic error)
  나. 특징: 예상하기 어렵고 노드 간 상관관계 때문에 상관관계없는 하드웨어 결함보다 오히려 시스템 오류를 더욱 많이 유발하는 경향
  다. 해결책: 신속한 해결이 어렵다. 시스템에 가정과 상호작용에 대해 주의 깊게 생각하기, 빈틈없는 테스트, 프로세스 격리, 죽은 프로세스의 재시작 허용 등

3. 인적 오류
  가. 원인: 운영자의 설정 오류 등
  나. 방지책
    - 오류의 가능성을 최소화하는 방향으로 시스템 설계(ex. 잘 설계된 추상화, API, 관리 인터페이스 사용)
    - 실제 데이터를 확인할 수 있지만 사용자에겐 영향이 없는 비 프로덕션 샌드박스(sandbox) 제공
    - 단위 테스트부터 전체 시스템 통합 테스트와 수동 테스트까지 철저하게 테스트
    - 장애 발생 영향을 최소화하기 위해 오류를 빠르고 쉽게 복구할 수 있도록 함
    - 성능 지표와 오류율 같은 상세하고 명확한 모니터링 대책 마련
    - 조작 교육과 실습 시행

확장성

증가한 부하에 대처하는 시스템의 능력을 설명(ex. "시스템이 특정 방식으로 커지면 이에 대처하기 위한 선택은 무엇인가 또 추가 부하를 다루기 위해 계산 자원을 어떻게 투입하는가")

1. 부하 기술하기

먼저 시스템의 현재 부하를 간결하게 기술한다.

부하는 부하 매개변수(load parameter)라 부르는 몇 개의 숫자로 나타낼 수 있다.
  -> ex. 웹 서버의 초당 요청 수, DB의 읽기 대 쓰기 비율, 대화방의 동시 활성 사용자, 캐시 적중률 등

2. 성능 기술하기

시스템 부하를 기술하면 부하가 증가할 때 어떤 일이 일어나는지 조사할 수 있다.

시스템 부하 기술 방법
  - 부하 매개변수를 증가시키고 시스템 자원은 변경하지 않고 유지하면 시스템 성능은 어떻게 영향을 받는가?
  - 부하 매개변수를 증가시켰을 때 성능이 변하지 않고 유지되길 원한다면 자원을 얼마나 늘려야 하는가?

시스템 성능 측정에 필요한 수치
  - 일괄 처리 시스템 -> 처리량(throughput): 초당 처리할 수 있는 레코드 수나 데이터 집합으로 작업을 수행할 때 걸리는 전체 시간)
  - 온라인 시스템 -> 응답 시간(response time): 클라이언트가 요청을 보내고 응답을 받는 사이의 시간

※ 지연 시간(latency)과 응답 시간(response time): 지연 시간과 응답 시간은 다름.
  - 응답 시간은 클라이언트 관점에서 본 시간(요청을 처리하는 실제 시간 + 네트워크 지연 시간 + 큐 지연시간) 
  - 지연 시간은 요청이 처리되길 기다리는 시간(서비스를 기다리며 휴지(latent) 상태인 시간을 말함)

응답 시간은 동일한 요청에도 매번 응답 시간이 다르기 때문에 단일 숫자가 아니라 측정 가능한 값의 분포로 생각해야 한다.

서비스 평균 응답 시간을 살피는 것에 있어서 산술 평균을 사용하는 것보다 백분위를 사용하는 편이 더 좋다. 

응답 시간의 목록을 가지고 가장 빠른 시간부터 제일 느린 시간까지 정렬하면 중간 지점이 중앙값이 된다.
  - 사용자 요청의 절반은 중앙값 응답 시간 미만으로 제공되고 나머지 반은 중앙값보다 오래 걸린다. 중앙값은 50분위로서 p50으로 축약
  - 상위 백분위 응답시간(=꼬리 지연 시간(tail latency))으로 특이 값이 얼마나 좋지 않은지 파악할 수 있음(95p, 99p, 999p)
    -> 아마존은 99.9분위(999p)  사용
  - 큐 대기 지연은 높은 백분위에서 소수의 느린 요청 처리만으로도 후속 요청 처리가 지체된다.(=선두 차단(head-of-line blocking))
    -> 클라이언트 측 응답시간 측정이 중요하며, 응답 시간과 독립 적으로 요청을 계속 보내야 한다. 이전 요청 완료까지 기다리면 테스트에서 인위적으로 실제 대기 시간을 더 짧게 만들어 평가를 왜곡함.

3. 부하 대응 접근 방식

좋은 성능을 유지하는 방법

- 용량 확장(scailing up)(수직 확장(vertical scaling), 강력한 장비로 이동)
- 규모 확장(scailing out)(수평 확장(horizontal scaling), 다수의 낮은 사양 장비에 부하를 분산)

부하 증가를 감지하면 컴퓨팅 자원을 자동으로 추가할 수 있음(탄력적(elastic) 시스템). 탄력적 시스템은 부하를 예측할 수 없을 때 유용하지만 수동으로 확장하는 시스템이 더 간단하고 운영상 예기치 못한 일이 적다.

단일 노드 상태유지(stateful) 데이터 시스템은 분산 설치는 복잡도가 높아 확장 비용이나 데이터베이스를 분산으로 만들어야 하는 고가용성 요구가 있을 때까지 단일 노드에 데이터베이스를 유지하는 것(용량 확장(scailing up))
  -> 최근까지의 통념이었지만 분산 시스템을 위한 도구와 추상화가 좋아지면서 일부는 바뀌었음.

유지보수성

유지보수성을 위한 소프트웨어 시스템 설계 원칙 세 가지
1. 운용성: 운영의 편리함 만들기 -> 반복 task를 줄여 업무 생산성을 높임
  - 모니터링 제공하여 런타임 동작과 시스템 내부 가시성 제공
  - 표준 도구 이용하여 자동화와 통합을 위한 지원
  - 개별 장비 의존성 회피
  - 좋은 문서와 이해하기 쉬운 운영 모델 제공
  - 기본값을 다시 정의할 수 있는 자유를 관리자에게 부여
  - 예측 가능하게 하고 예기치 않은 상황 최소화

2. 단순성: 복잡도 관리 -> 복잡도를 줄여야 함
  - 우발적 복잡도를 제거하기 위한 최상의 도구는 추상화다.(세부 구현을 숨길 수 있고 재사용성이 높음)

3. 발전성: 변화를 쉽게 만들기
  - 요구사항은 끊임없이 변하기 때문
  - 애자일 작업 패턴 적용

사내 교육 외부 초청 강사님으로 오신 구멍가게코딩단 강요천 강사님의 추천으로 책을 공부한다.
생소한 내용이 많아 어렵지만 정리를 하며 이해도를 높이고자 한다.

책을 완독하여 데이터베이스 분야를 전문적으로 공부할지 개발 공부를 더 할지 결정할 수 있는 계기가 되었으면 한다.


머리말

최근 10년간 데이터베이스와 분산 시스템 분야에서 발전이 있었고 이를 기반으로 Application을 개발하는 방법에도 발전이 있었다.
이런 발전의 원동력은 매우 다양하다.

- 엄청난 양의 데이터와 트래픽으로 생산으로 인하여 이를 효율적으로 처리하기 위해 새로운 도구를 만들어야 했다.
- 기업은 민첩하고 작은 노력으로 가설을 테스트해야 한다. 이를 위해 개발 주기를 단축하고 데이터 모델을 유연하게 해야 한다.
- CPU 클럭 속도는 거의 증가하지 않고 있다. 병렬 처리의 사용 필요성이 늘어나고 있다.
- 사람들은 많은 서비스에 고가용성을 요구한다. 서비스 중단을 원하지 않는다.

데이터 중심 애플리케이션(data-intensive application)은 이러한 기술적 발전을 활용해 실현 가능 범위를 넓힌다.

데이터 중심적(data-intensive)란 데이터 양, 데이터 복잡성, 데이터가 변하는 속도 등 데이터가 주요 도전 과제인 애플리케이션
계산 중심적(compute-intensive)란 CPU사이클이 병목인 경우의 애플리케이션

책의 목적
-  다양하고 빠르게 변하는 데이터 저장과 처리 기술 분야를 배움
-  데이터 시스템의 내부를 보고 핵심 알고리즘을 파악하고 그 원리와 알고리즘이 가진 트레이드오프를 설명함
- 특정 목적에 어떤 기술이 적합한지 결정하는 방법과 애플리케이션 아키텍처의 기반을 만들기 위해 도구를 조합하는 방법 설명

참고 문헌 정리

http://github.com/ept/ddia-references

 

+ Recent posts