음 아마 비둘기보단 똑똑할꺼야

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [알고리즘] 1강 알고리즘 소개

1. 알고리즘의 설계

1) 최댓값 찾기

1-1) 값들을 하나씩 모두 비교해 가면서 최댓값을 찾는 방법
1-2) 토너먼트 방식
    둘씩 비교해서 큰값을 찾아가는 방법
더 효율적인것을 결정해야한다.

(n-1)번 1-1과 1-2 의 효율성은 7번으로 같다.

2) 뒤섞인 카드에서 원하는 카드 찾기

2-1) 순차탐색(Sequential Search) 순차적으로 전부 다 뒤집는다

1
2
3
4
5
6
7
8
SequentialSearch(A[], n, x)
// 배열 A[0..n-1]에서 x를 찾는 알고리즘
{
    for(i = 0; i < n; i ++){
        if(x == A[i]) return i;
    }
    return -1;
}
cs

모든 배열의 원소를 전부 다 비교


2-2) 카드가 오름차순으로 나열되어 있다면 이진탐색(binary search)

1
2
3
4
5
6
7
8
BinarySearch(A[], Left, Right, x)
{
    if(Left>Right) return -1;
    Mid = (left + right) / 2;
    if(x == A[mid]) return Mid;
    else if (x<A[mid]) BinarySearch(A, Left, Mid-1, x)
    else BinarySEarch(A,Mid+1,Right,x);
}
cs

데이터가 뒤죽박죽일때는 순차탐색, 정렬되어있다면 이진탐색이 더 좋다.

> 주어진 문제, 속성, 조건 등의 매우 다양
 => 일반적이고 범용의 기법은 미존재

> 대표적인 설계 기법
- 분할정복 divide and conquer 방법
- 동적 프로그래밍 dynamic programming 방법
- 욕심쟁이 greedy 방법

2. 알고리즘의 분석

1) 정확성 분석 (다루지않음 이미 정확하다고 증명이 된 알고리즘만 학습한다.)

  • 유효한 입력, 유한 시간 → 정확한 결과 생성하는가?
    다양한 수학적 기법을 사용해서 이론적으로 증명이 필요하다.

2) 효율성 분석 (보통의 알고리즘 분석은 효율성 분석을 말한다.)

  • 알고리즘 수행에 필요한 컴퓨터 자원의 양을 측정
  • 메모리 양 > 공간 복잡도 (space complexity)
    정적 공간 + 동적 공간
    (상대적으로 계산하기 쉬움)
  • 수행시간 > 시간 복잡도 (time complexity)
    (보통의 효율성 분석은 시간복잡도를 분석하는것을 말한다.)
    시간이 덜 걸리는것이 효율성이 높다.

    알고리즘을 프로그램으로 구현해서 이를 컴퓨터에서 실행시켜 실제 수행시간을 측정
  • 이런 방법은 일반적이지 못하다!
    컴퓨터 속도, 사용한 프로그래밍 언어, 프로그램 작성방법, 컴파일러의 효율성 등에 종속적이기 때문!


    > 알고리즘이 수행하는 기본적인 연산의 횟수의 합
  • 시간 복잡도에 영향을 미치는 요인?
    - 입력으로 제공되는 데이터 크기 ("입력 크기")
    - 입력 데이터의 상태

3) 시간 복잡도

  • 입력크기 n 이 증가하면 수행 시간도 증가
    > 단순히 단위 연산의 개수가 아닌 입력 크기의 함수로 표현한다.
  • 입력 데이터의 상태(ex:정렬 비정렬)에 종속적
    - 평균 수행시간
    - 최선 수행시간 (데이터가 가장 이상적인 상태로 제공되었을 경우)
    - 최악 수행시간 (가장 데이터가 좋지않은 상태로 제공되었을 경우)
    평균수행시간이 가장 좋지만 평균수행시간을 계산이 쉽지않다. 그러므로 최악의 수행시간을 가지고 시간복잡도를 측정한다. 최악의 수행시간을 기준으로 같거나 적게 걸린다가 되므로 기준은 최악의 수행시간을 기준으로 가진다.
1
2
3
4
5
6
7
8
9
10
11
SumAverage(A[], n)
//A[0.. n-1], n : 입력 배열과 데이터 개수
    sum = 0;
    i = 0;
    while(i<n){
        sum = sum + A[i];
        i = i + 1;
    }
    average = sum / n;
    print sum, average;
}
cs

 

시간복잡도와 점근성능 빅오 표기법으로 까지 도출 할 수 있어야 한다.

 

3. 점근 성능

정의: 입력크기 n이 무한대로 커짐에 따라 결정되는 성능

데이터의 개수가 증가한다. 15개를 기준으로 효율성의 크기가 달라진다.

수행시간의 다항식 함수에서 최고차항만을 계수 없이 취해서 표현
(최고차항만이 가장 큰 영향력을 행사하기 때문이다.)
수행시간의 어림값, 수행 시간의 증가 추세 파악이 용이 > 알고리즘의 우열을 표현

1) 점근성능의 표기법

1-1) 정의 'Big-oh' 점근적 상한 (최악의 수행시간)

어떤 양의 상수 c와 n0이 존재하여 모든 n≥n0에 대하여 f(n)≤cㆍg(n)이면 f(n) = O(g(n))이다.

1-2) 'Big-omega' 점근적 하한 (최선의 수행시간)

어떤 양의 상수 c와 n0이 존재하여 모든 n≥n0에 대하여 f(n)≥cㆍg(n)이면 f(n)=Ω(g(n)) 이다.

1-3) 'Big-theta' 점근적 상하한 (알고리즘의 수행시간을 좀 더 엄밀하게 나타낼 수 있다)

어떤 양의 상수 c1, c2와 n0이 존재하여 모든 n≥n0에 대하여 c1ㆍg(n)≤f(n)≤c2ㆍg(n) 이면 f(n) = Θ(g(n)) 이다.

(점근적 상하한)

 

2) 주요 O-표기 간의 연산 시간의 크기 관계


◀◀◀효율적                                                                                                                    비효율적▶▶▶
상수시간: 데이터의 개수와 상관없이 소요시간은 일정하다.

 

3) 효율적인 알고리즘의 중요성

 

4) 알고리즘의 시간 복잡도 구하기

알고리즘에 나타난 루프의 반복횟수를 조사하여 시간 복잡도로 취함
g(n)은 최고 차수에 의존

 

4. 순환 알고리즘의 성능

1) 순환 recursion, 재귀
알고리즘의 수행 과정에서 자기 자신의 알고리즘을 다시 수행하는 형태

BinarySearch() 를 계산하면 T(n) = T(n/2) + O(1), T(1) = c1

이진탐색의 수행시간은 O(log n) 이다.

일일이 점화식으로 계산하기엔 여간 복잡한게 아니다.

모두 다 기억하긴 어렵지만 2,3,6번은 기억해야한다.

한가지만 기억해도 본전 뽑는다 최! 고! 차! 항! 만 기억하자!

2018/05/18 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 8강 데이터의 저장

2018/05/17 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 6강 정규형의 적용

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

 

DBMS가 데이터를 가져오는 속도가 늦다면 쓰기 굉장히 싫어질꺼다... 비효율적

인덱스는 우리나라말로 찾아보기 라는 뜻이다.

인덱싱이 어떻게 내부적으로 구성되고 동작하여 DBMS가 데이터를 빠르게 찾아줄 수 있는지 알아보도록 하자.

1. 인덱싱

1) 데이터 검색 과정

  • 비효율적 과정
    디스크에 데이터 모음이 있다면~
    메모리에 블럭단위로 읽어와서 첫번째 레코드부터 검색 할 데이터가 있는지 검색하여 원하는 결과가 나올 때 까지 읽는다.

2) 인덱스의 개념

  • 데이터 검색에서 발생하는 비효율적인 문제를 해결을 목적으로 시작
    - 인덱스: DBMS에서 요청된 레코드에 빠르게 접근할 수 있도록 하는 데이터와 관련된 부가적인 구조
    - 인덱싱: 인덱스를 디자인하고 생성하는 작업
  • 인덱스와 검색키(특정컬럼값)를 통하여 레코드가 디스크 저장장치 또는 메모리의 어느 블럭에 저장되어 있는지 파악하고, 해당 블럭을 빠르게 적재한다.

검색키?
파일에서 레코드를 찾는데 사용되는 컬럼이나 컬럼의 집합

  • 1번의 데이터 검색과정의 효율적인 과정
    메모리에 적재하기 전에 디스크에 인덱스를 생성 해 놓는다.
    예시)이름을 검색키로 놓고 각각에 해당하는 레코드가 어디있는지 포인터를 가지고 있다.
    메모리에 인덱스(검색키+포인터)를 적재(블럭단위 적재보다 더 많은 인덱스 데이터를 적재 가능)해서 검색한다.
  • 인덱스의 단점은 디스크에 추가적인 데이터(검색키 + 포인터)를 저장하기 때문에 용량을 조금 더 많이 먹는다가 단점이 될 수 있다.

3) 인덱싱의 개념

  • 인덱스의 종류
    - 순서 인덱스: 특정 값에 대해 정렬된 순서 구조
    - 해시 인덱스: 버킷의 범위 안에서 값의 균일한 분포에 기초한 구조로 해시 함수가 어떤 값이 어느 버킷에 할당되는지 결정
  • 인덱스의 평가기준
    - 접근 시간: 데이터를 찾는 데 걸리는 시간
    - 유지 비용: 새로운 데이터 삽입 및 기존 데이터 삭제 연산으로 인한 인덱스 구조 갱신 비용
    - 공간 비용: 인덱스 구조에 의해 사용되는 부가적인 공간 비용

 

2. 순서 인덱스

1) 순서 인덱스의 특징

  • 검색키로 정렬된 순차 파일에 대하여 레코드에 대한 빠른 접근이 가능하도록 순서 인덱스를 사용
    - 검색키를 정렬하여 해당 검색키와 관련된 레코드와의 연계를 통하여 인덱스 생성

2) 인덱스의 구성

  • 인덱스 엔트리의 구조


설명.
덱스 엔트리는 [검색키값] 과 [포인터]로 구성되어 있는데 [포인터]는 또 두 개의 항목,
[블럭ID] 와 [오프셋]으로 구성되어 있다.
예를 들어 검색키 값이 20140001이고 블럭ID가 b2 오프셋이 30이면
블럭ID가 b2 에서 30바이트만큼 떨어져 있는 곳에 20140001 이라는 검색키값을 가진
레코드가 있다 라는 뜻

  • 순서 인덱스의 분류
    - 밀집(dense) 인덱스
    - 희소(sparse) 인덱스

3) 밀집 인덱스

모든 레코드에 대해 [검색키값+포인터] 쌍을 유지

 

4) 희소 인덱스

인덱스의 엔트리가 소수의 검색키 값만을 유지

설명.
검색키값 14001에 해당하는 레코드를 찾으려 한다면 14001보다 작은 값 중에 가장 큰 값을 가진 검색키 값을 찾는다.
14001이 나올 때 까지 다음 값을 순차적으로 읽어들인다.
희소인덱스는 듬성듬성 인덱스를 구성하지만 내부적으로 레코드를 가지고와서 다시 레코드를 찾아봐야한다는 단점이 있지만 인덱스에 해당하는 데이터의 양이 밀집인덱스보다 작기 때문에 레코드가 엄청 큰 릴레이션에서도 비교적 적은 크기의 인덱스 데이터를 가질 수 있다.

5) 다단계 인덱스

밀집 , 희소 인덱스의 장단점을 잘 섞어보자 해서 나온 인덱스

  • 4KB 크기의 블럭에 100개의 엔트리가 삽임될 때, 100,000,000 개(1억개)의 레코드에 대한 순서 인덱스
    - 1,00,000개(백만개)의 블럭 = 4GB의 공간 필요
    (4GB를 메모리에 적재하는건 불가능에 가까움)

  • 인덱스 크기에 따른 검색 성능
    - 인덱스 크기 < 메모리 크기
    디스크 I/O 이 줄어 탐색 시간이 축소
    - 인덱스 크기 > 메모리 크기
    저장된 블럭을 여러번 나누어 읽어야 하기 때문에 디스크 I/O 비용이 증가하여 탐색 시간이 증가

  • 내부 인덱스와 외부 인덱스로 구성
    - 외부 인덱스를 내부 인덱스보다 희소한 인덱스로 구성하여 엔트리의 포인터가 내부 인덱스 블럭을 지칭
    - 포인터가 가리키는 블럭을 스캔하여 원하는 레코드보다 작거나 같은 검색키 값 중에 가장 큰 값을 가지는 레코드를 탐색
    (내부 인덱스를 밀집 인덱스에 가깝게 구성하고 내부인덱스 위에 외부 인덱스를 희소인덱스에 가깝게 만들어 여러 층으로 구성되도록 한다.)

  • 내부 인덱스는 1,000,000개의 블럭을 갖고, 외부 인덱스는 100개의 블럭만 사용하여 40MB 크기의 외부 인덱스로 메모리에 적재 가능

 

3. B+ - 트리 인덱스

1) B+ 트리의 원형

2) B+ 트리의 구조

  • 루트 노드로 부터 모든 단말 노드에 이르는 경로의 길이가 같은 높이 균형 트리
    - 순서 인덱스(밀집인덱스)는 파일이 커질수록 데이터 탐색에 있어서 접근 비용이 커지는 문제점을 해결하기 위해 제안
    - 현재까지도 널리 사용되는 대표적인 순서 인덱스

  • B+ 트리의 노드 구조

하나의 노드의 사이즈가 일반적인 블럭 사이즈로 구성되고 여러 개의 검색키가 노드 안에 존재한다. K1 ~ Kn개의 검색 키가 있고 P1포인터를 따라가면 K1의 검색키보다 숫자가 작은것 혹은 알파벳이 앞선 것만 있고 P2는 K1과 K2사이의 순서에 존재하는 검색키의 존재만 위치하는 식으로 구성되어있다.

3) B+트리의 구성 요소

  • 인덱스 세트: 루트노드와 중간노드로 구성
    - 단말노드에 있는 검색키 값을 신속하게 찾아갈 수 있도록 경로를 제공하는 목적으로 사용
    - [n/2] ~ n 사이의 개수를 자식으로 소유
    (원하는 레코드가 어디에 있는지 찾기 위해서 힌트를 제공한다 즉, 인덱스세트에는 원하는 레코드가 어디에 가면 찾을 수 있는지 힌트만 제공하는 역할을 한다.) 

  • 순차 세트: 단말노드로 구성
    - 모든 노드가 순차적으로 서로 연결

    (B+트리는 인덱스 세트와 순차 세트로 구성되어있다.)

4) 단말노드의 예

 

5) B+ 트리의 예

단말노드에 포인터는 실제 레코드가 디스크에 어디에 있는지 가리키는 포인터다.

 

6) B+트리의 특징 (외우지않아도 된다. 참고사항일 뿐)

  • 루트는 2, 혹은 [n/2] ~ n 개 사이의 포인터를 가짐

  • 루트와 단말 노드를 제외한 모든 노드는 최소 [n/2]에서 n개 사이의 포인터를 가짐

  • 모든 단말 노드는 루트로부터 같은 거리
    (높이균형트리이기때문)

  • 단말 노드가 아닌 노드에 있는 검색키 값의 수는 그 (중간)노드의 포인터 수보다 하나 작음

  • 단말 노드는 데이터 파일의 순차 세트를 나타내며 모두 리스트로 연결

  • 단말 노드는 적어도 [(n-1)/2] 개의 검색키 값을 포함

 

7) '장보고' 검색

B+트리의 인덱스 첫번째 블럭만 읽어 온다. 정도전보다 크면 오른쪽 작으면 왼쪽으로 가도록 한다.
장보고는 정도전보다 가나다 순에서 작은 범위이므로 왼쪽.
정도전의 왼쪽 포인터를 따라가서 해당 블럭을 가져온다.
'안창호'의 ㅇ 보다 '장보고'의 ㅈ 이 가나다순에서 더 크므로 오른쪽 포인터의 블럭을 디스크에서 읽어온다.
불러온 블럭을 장보고와 같은 검색키값이 있는지 하나씩 비교한 다음 '장보고' 검색키값이 일치하면 왼쪽 포인터에 해당하는 레코드를 읽어온다.

네 번 만에 장보고 레코드를 읽어 올 수 있었다. (겁나 빠름)

 

8) B+ 트리 상에서의 삽입, 삭제(유지비용)

  • 레코드 삽입, 삭제 시 B+트리 또한 수정
    - 레코드 삽입: 노드에서 유지해야 할 검색키 값과 포인터 수 증가로 인해 노드를 분할해야 하는 경우가 발생
    - 레코드 삭제: 노드에서 유지해야 할 검색키 값과 포인터 수 감소로 인해 노드를 병합해야 하는 경우가 발생
    - 높이 균형 유지: 노드가 분할되거나 병합되면서 높이의 균형이 깨지는 경우가 발생

9) B+트리 상에서의 삽입과 삭제

  • 삽입: 검색과 같은 방법을 사용하여 삽입되는 레코드의 검색키 값이 속할 단말 노드를 탐색
    - 해당 단말 노드에 <검색키, 포인터> 쌍을 삽입
    - 삽입 시 검색키가 순서를 유지

  • 삭제: 삭제될 레코드의 검색키를 통해 삭제될 검색키와 포인터를 포함한 단말 노드를 탐색
    - 같은 검색키값을 가지는 다중 엔트리가 존재할 경우, 삭제될 레코드를 가리키는 엔트리를 찾을 때까지 탐색 후 단말 노드에서 제거
    - 단말 노드에서 제거된 엔트리의 오른 쪽에 있는 엔트리들은 빈 공간이 없도록 왼쪽으로 이동

10) 노드가 분할되는 삽입

  • '강감찬' 삽입

삽입하기위해 '강감찬'이 들어가야 할 위치를 검색한다. 이 때 검색은 위에 '장보고'를 검색했을 때와 동일한 방법으로 검색한다.
'김영희' '나태양' '도철수'가 있는 블럭에 삽입되어야한다.
하지만 해당 블럭은 꽉 차 있어 들어갈 수 없으므로 분할 해야 한다.
'강감찬'과 '김영희'를 하나의 단말 노드로 구성하고 '나태양'과 '도철수'를 하나의 단말 노드로 구성시킨다.

(빈 공간이 있으면 그냥 넣으면된다.)
노드가 분할이 되면 단말노드가 하나였던것이 두 개가 되므로 부모 노드(중간 노드)에 새로운 포인터를 추가로 삽입해줘야 한다.

▼ 부모 노드(중간노드) 변경 후 ▼

11) 노드가 병합되는 삭제

  • '강감찬'이 추가된 B+트리에서 피천득 삭제
    - 피천득이 있는 단말 노드를 검색
    해당 단말 노드는 삭제 후 홍길동만 남게 됨
    [(n-1)/2] 개 보다 적은 검색키 값이 적으므로 다른 노드와의 병합이 필요

    - 홍길동이 저장 된 노드의 왼쪽의 형제 노드와 병합
    홍길동을 포함한 엔트리를 형제 노드로 이동
    비워진 노드를 삭제
    비워진 노드를 가리키는 포인터도 삭제
    기존의 포인터를 대체할 '정도전'을 부모 노드에 삽입

 

 

 

2018/05/17 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 6강 정규형의 적용

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

 

DBMS가 내부적으로 데이터를 어떻게 저장하는지 알아보도록 하자

1. 파일 구성

1) 물리적 저장장치

물리적 저장장치는 데이터 접근 속도, 용량을 기준으로 다양한 장치로 구성

레지스터 → 캐시 → 메인메모리 → 자기디스크, 플레시메모리 → 광학 디스크, 자기테이프

◀◀◀◀◀◀◀◀◀속도, 가격                                   저장용량▶▶▶▶▶▶▶▶▶▶▶

2) 저장장치별 특징

휘발성
- 캐시: 고비용 저장장치로 빠른 접근 속도를 보장
- 메인메모리: 실제 프로그램과 데이터 적재 공간
- 플래쉬 메모리: 메인메모리와 유사하나 비휘발성

비휘발성
- 자기디스크: 데이터베이스 전체를 안정적으로 저장 (비휘발성 중 가장 빠름)
- 광학 디스크 드라이브: CD, DVD, Blue-ray 등
- 테이프 장치: 용량이 크고 저렴하나 순차 접근 방식으로 접근 속도가 매우 느림

3) 데이터베이스 구성

데이터베이스는 여러 개 의 파일로 구성되어있다. 사용자가 보았을때 DBMS만 보이지만 DBMS는 여러 개 의 파일로 관리하고 있다.
각각의 파일은 여러 개 의 블록으로 나누어 저장 된다.
블록 내에서는 여러 개의 레코드가 저장되어있다.

DB > 파일 > 블록 > 레코드

파일: 데이터를 영구적으로 저장하기 위해 사용되는 가장 기초적인 구조
블록: 파일을 고정적인 길이로 분할하여 생기는 균등한 크기의 데이터 묶음
레코드: 블록을 구성하는 요소, 더 이상 분리될 수 없는 최소 데이터 저장 단위

4) 고정 길이 레코드

고정적인 바이트 수를 갖는 레코드를 저장하는 기법
고정길이일 경우 레코드의 컬럼 데이터타입 크기만큼 할당해서 블록에 저장하면 된다.

문제점:
문제점1. 레코드의 길이가 블록길이에 딱 맞춰 떨어지지않는 단점이 존재
블록의 길이가 레코드 길이로 정확히 나눠지지 않아 남은 공간을 비워두는 방법 => 블록내의 남는 공간 낭비로 이어진다.
문제점2. 블록의 길이가 레코드 길이로 정확히 나눠지지 않아 한 레코드를 두 블럭에 나누어 저장하는 방법 => 레코드 접근 시 두 블록을 접근 (시스템에서는 두 블럭에 접근해야 하므로 부하가 늘어난다.)

문제점 1 , 2 두 가지 방법 모두 무엇이 더 낫고 더 나쁜지 비교할 수 없다. 혼용해서 적절하게 사용해야 한다.

레코드 삭제 시 문제
- 해당 레코드가 저장된 위치에 빈공간이 생성
- 장시간 레코드의 삽입 및 삭제 발생 시, 저장 공간에 많은 낭비가 발생

레코드 삭제 시 대처 방안
- 마지막 레코드로 공백 대체
- 삭제 리코드 이후의 레코드를 이동
- 가용 리스트 관리

5) 레코드 삭제 대처

5-1) 마지막 레코드로 공백 대체

이름이 장보고인 레코드가 삭제되었다면 맨 마지막 이름이 안창호인 레코드를 삭제된 레코드 위치에 위치시키는 방법
항상 마지막 블럭의 위치를 알고있어야하며 빈 공간을 삭제 후 마지막 공간까지 가서 끄집어 올려야 하므로 상당한 비용이 발생하는 방법

5-2) 삭제 레코드 이후의 레코드를 이동

이름이 장보고인 레코드가 삭제되었다면 이름이 나철수인 레코드부터 마지막 레코드까지의 위치를 한단계씩 위로 끄집어 올리는 방법
삽입되는 순서를 그대로 유지시킬 수 있는 장점이 있다. (검색을 빠르게 유지 가능)
나철수 부터 맨 마지막 레코드까지 한 단계씩 올려야 하므로 어마어마한 비용이 소요되는 단점이 존재.

5-3) 가용 리스트 관리

공백 레코드 포인터를 관리하는 방법.
삭제되는 레코드의 위치들을 공백 레코드가 관리하므로써 새로 삽입되는 레코드를 공백 레코드 포인터가 가지고있는 공백의 위치에 저장시키는 방법이다.
첫번째 방법을 개선시킨 방법이다.
하지만 단점인 레코드의 순서가 뒤죽박죽이 되는건 어쩔 수 없는 단점으로 존재한다.

6) 가변 길이 레코드(varchar)

블록에 저장되는 레코드의 길이가 서로 다른(가변적) 레코드를 할당하는 방법

가변 길이 레코드가 사용되는 상황
- 한 블록 내에 저장되는 레코드 유형이 둘 이상
- 길이가 고정되지 않은 컬럼의 개수가 하나 이상
- 레코드가 멀티셋을 허용한 컬럼을 가질 때

멀티셋
레코드의 컬럼값이 여러 개인 컬럼

가변 길이 레코드 형식
어디가 끝인지를 항상 기억하고 있어야된다는게 고정길이와의 차이점이다.

고정길이 레코드 먼저 블록의 첫번째에 채우기 시작하는데 처음 0~4바이트까지는 어디서부터 얼마만큼이 가변길이인지 정보를 저장해놓는 용도로 사용한다. 4바이트부터 고정길이 데이터를 채우기 시작해서 레코드의 컬럼에 고정길이 데이터가 저장이 끝나면 한 바이트에 NULL 을 입력하여 가변바이트의 시작을 구분한다.

6-1) 슬롯페이지 구조

7) 파일 구조화 방법

하나의 블록 내부에 레코드를 어떤방식으로 저장하는거였다면 지금부턴 각각의 레코드가 하나의 파일 내부에 몇번째 블록에 들어가야하는지 이다.

파일 구조화
- 파일 수준에서 레코드를 관리(순서 등)하는 기법

파일 구조화 방법의 종류
- 힙 파일 구조: 저장순서 고려없이 레코드를 파일 내 임의의 위치에 배치
(메모리)
- 순차 파일 구조: 레코드들이 특정 컬럼값을 기준으로 정렬되어 저장
(특정 컬럼값을 기준으로 계속 순서대로 저장, 검색에는 굉장히 빠름. 저장하는데는 최악 중간에 예상치 못한 순서의 레코드가 들어오면 순서를 맞추기 위해 재정렬하는 비용이 소요.)
- 해시 파일 구조: 레코드를 입력 받아 레코드가 저장 될 블록 주소를 반환하는 해시 함수를 사용
(해시 함수를 사용해서 레코드를 저장, 찾는데 삽입되는데 해시함수를 거쳐야 하기 때문에 비용이 소요되지만 힙과 순차의 중간정도의 파일 구조화 방법이다.)

7-1) 순차 파일 구조의 예
레코드가 검색키 순서대로 정렬
레코드가 파일에 삽입되는 시점에서 키 값이 부여
장점
- 검색키에 대한 정렬 연산이 불필요, 키 값들의 순서로 레코드를 판독하는 연산에 효율적
- 현재 레코드에서 정렬된 키 순서로 다음 레코드를 찾을 때 부가적인 블록 접근이 불필요
- 이진 탐색을 사용하면 더 빠르게 레코드를 검색
단점
- 레코드 삽입, 삭제에 많은 비용 소요

7-2) 다중 테이블 클러스터링 파일 구조
빈번히 조인되는 테이블을 하나의 파일에 저장하기 위한 구조
필요한 테이블이 미리 조인되어 저장

 

2. 저장장치 접근

파일은 논리적 관점에서의 저장 객체

실제 저장될 때에는 여러 개의 물리적 단위인 블록으로 저장
- 블록은 데이터의 전송 단위
- 일반적으로 2KB ~ 32KB 사용
- 블록 전송을 최소화 할 수록 입출력 소요 시간이 단축

> 사용 중인 블록을 지속적으로 메모리에 적재
> 한정적 공간으로 인하여 필요에 따라 특정 블록 할당 해지
> 메모리 내부에 버퍼라는 공간에 블록을 저장하고, 이를 관리하기 위한 버퍼 관리자를 사용

1) 버퍼 관리자

DBMS상의 소프트웨어는 필요한 블록이 있을 때 버퍼관리자에게 해당 블록을 요청
- 요청된 블록이 버퍼에 있다면, 버퍼 관리자는 블록이 위치한 메모리 주소를 프로그램에게 전달
- 요청된 블록이 없는 경우, 버퍼 관리자는 버퍼내의 새로운 공간을 할당하고 해당 블록을 적재
- 더 이상 적재할 공간이 없다면, 버퍼에 있는 기존 블록을 선택하여 할당을 해지하고 해당 블록을 적재

2) 버퍼 관리자의 기능

버퍼 교체 전략
- 가용 공간을 확보 하기 위해 기존에 적재된 블록의 할당을 특정 기준에 의하여 해지
- 미래에 가장 적게 사용될 블록을 선택하여 디스크로 내보내는 것이 이상적인 버퍼 교체 전략
- 버퍼 교체 전략 기법
> LRU(Least Recently Used): 최근에 가장 적게 참조한 블럭을 교체
> MFU(Most Frequently Used): 특정 기간동안 가장 여러 번 사용된 블록을 선택하여 블록을 교체

고정 블록
- 장애로 인하여 메모리의 데이터가 손실되어 작업이 중단될 경우, 중단된 작업의 결과물이 디스크에 기록되는 것을 방지
- 디스크 블록이 교체되는 것을 제한

블록 강제 출력
- 시스템 로그와 같이 중요한 데이터는 디스크에 영구적으로 기록되어야 함
- 버퍼 공간이 필요 없어도 강제로 디스크에 기록

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

 

나쁜릴레이션은 데이터베이스를 운용하는데 굉장히 비효율적 및 이상현상을 일으키는 릴레이션이다.

(아직까지 악당은 남아있닼ㅋㅋㅋㅋㅋㅋ)

1. 정규형의 개념

1) 정규형

- 이상 현상을 최소화 하도록 특정 조건을 갖춘 릴레이션의 형식

- 정규형의 분류

정규형은 타 정규형을 내포하거나 내포당하고있다.
제1정규형이 가장 적은 조건, 가장 약한 형태의 정규형이라 한다.
실무에서는 BC정규형까지만 사용하고 4,5 정규형은 잘 사용하지 않는다.

2) 정규형의 목적

정의
특정 정규형의 조건을 만족하도록 릴레이션과 속성(컬럼)을 재구성하는 과정

※정규화의 기능
- 데이터베이스 내에 모든 릴레이션을 효과적으로 표현 (중복을 최소화해서 가장 적은용량으로 DB 구성)
- 보다 간단한 관계 연산에 기초하여 검색 알고리즘을 효과적으로 작성할 수 있도록 지원
- 바람직하지 않은 삽임, 수정, 삭제 등의 이상 발생 방지 (갱신 이상 방지)
- 새로운 형태의 데이터가 삽입될 때 릴레이션 재구성의 필요성을 축소

3) 제1정규형

- 가장 약한 조건을 갖춘 정규형
- 릴레이션의 모든 속성이 단일 값으로 구성되어야 하는 조건

정의
릴레이션 스키마에서 정의된 모든 속성의 도메인이 원자값(관계형모델의 가장 기본적인 제약조건)을 갖는 상태
=> 기본적으로 관계형 모델을 통해서 만들어진 모든 릴레이션은 제1정규형을 만족한다라고 할 수 있음.

3-1) 제1정규화가 필요한 릴레이션

입항시간이 값이 두 개, 출항시간이 값이 두 개, 목적이 두 개 인 레코드가 있다.
원자값이 아니기때문에 제1정규화가 필요하다.

제1정규화를 시킨 도크릴레이션

단일값만으로 이루어지게 만들기 위해 두번째 릴레이션과 세번째 릴레이션을 변경하였다.

 

4) 함수적 종속성 판결

정의 5강 참조

Q. 도크번호 → 도크관리자?
도크릴레이션을 보면 도크번호가 D1으로 모두 같다 일때 도크관리자는 김주연이고 D2일때 현익창이다
따라서 도크는 도크관리자를 종속한다.

Q. 목적 → 담당도선사?
목적이 선적으로 같은 두번째와 세번째 레코드가 같을 때 담당도선사가 김혜겸으로 같으므로 종속한다.

Q. 목적 → 도크번호?
첫번째와 두번째 레코드의 목적이 선적으로 같을 때 D1으로 같으므로 종속한다.
나머지는 목적컬럼의 값이 다르므로 볼필요없다.

같을때 같은지만 보면된다. (다~ 다르면 종속한다??)

 

5) 함수적 종속성 다이어그램

릴레이션 내의 속성간의 종속 관계를 직관적이고 이해하기 쉽게 도식화 한 표현 방식
- 직사각형: 속성 또는 속성 집합
- 화살표: 함수적 종속성

목적         →     담당도선사
(결정자)            (종속자)

6) 도크 릴레이션의 함수적 종속성 다이어그램

해석,풀이
- 도크번호가 도크관리자를 종속한다.
- 도크번호와 입항시간이 파란색 사각형으로 묶여있다. 이 말은 도크번호와 입항시간 두 개가 같이 출항시간과 목적 담당도선사를 각각 종속한다.
- 목적이 도크번호를 종속한다.
- 목적이 담당도선사를 종속한다.

 

2. 제2정규형

1) 제2정규형의 정의

릴레이션이 제1정규형을 만족하고 기본키의 부분집합이 특정 속성을 종속하고 있지 않은 상태

정의
주어진 릴레이션의 인스턴스가 기본키가 아닌 속성들이 기본키에 완전히 종속되어 있는 상태

2) 제2정규형의 적용

도크릴레이션의 도크번호와 입항시간에 밑줄이 그어져있으므로 도크릴레이션의 기본키에 해당한다.
도크번호와 입항시간이 출항시간,목적,담당도선사를 각각 종속한다.
여기서 문제는 도크관리자다. 도크관리자를 종속하고있는것은 도크번호이다.
기본키의 일부분인 도크번호가 도크관리자를 종속하고있다. 완전히 종속하고있지않은 부분적으로 종속하고있기 때문에 도크관리자 종속을 제거하면 제2정규형을 만족하게된다.
해결방법 = 기본키에 완전히 종속되도록 릴레이션을 분해해야한다.

3) 임의 분해(맘대로) 시 발생하는 문제점

- 불필요한 조인이 발생 (무리하게 릴레이션을 짤라서 2개의 릴레이션을 만들면 불필요하게 조인해서 검색해야한다. 조인은 DBMS에 많은 부하가 발생한다.)
- 원본 릴레이션 재구성이 불가능할 수 있다. (꼴리는데로 분해했다간 돌이킬 수 없는 강을 건너게된다.)

4) 릴레이션의 무손실 분해

정의
스키마 R에 함수적 종속성 X→Y가 존재하고 X∩Y=∮(X와 Y에 겹치는 컬럼이 없다) 이면, R을 R - Y 와 XY로 분해

도크관리 릴레이션 무손실 분해
- {도크번호} → {도크관리자}
- {도크번호} ∩ {도크관리자} =∮

도크관리 - {도크관리자}, {도크번호, 도크관리자}
도크릴레이션에서 도크관리자를 빼고 도크번호와 도크관리자만 존재하는 릴레이션을 추가적으로 생성한다. 이러면 조인했을 때 아무런 문제가 발생하지 않음.

조인해야하는 추가연산이 발생하지만 레코드가 줄어들으므로 용량이 줄어드는 효율성이 추가연산 단점보다 훨씬 크다.

5) 제2정규화의 함수적 종속성 다이어그램

 

3. 제3정규형

1) 제3정규화의 정의

정의
릴레이션이 제2정규형을 만족하고, 기본키가 아닌 속성들이 어떤 키에도 이행적으로 종속되지 않은 상태

이행적 종속이란?
X → Y 이고 Y → Z 이면 X → Z 이다.
(5강에 나왔었다 암스트롱 공리에서... 어휴 본인 비둘기인듯...)

2) 제3정규화의 적용

제2정규화가 된 도크릴레이션에서 도크번호와 입항시간은 목적을 종속하고 (X→Y) 목적이 담당도선사를 종속한다(Y→Z)
위 부분은 이행적 종속성에 해당한다.

{도크번호, 입항시간} → {목적}
                                {목적} → {담당도선사}
→ {담당도선사}

담당도선사를 빼버리자! 그러면 제3정규화가 적용된다!!

목적이 기본키이고 담당도선사를 종속하는 릴레이션을 새로 구축한다. 그리고 도크릴레이션에는 담당도선사만 제거한다.

4. BC정규형

1) BC정규형의 정의

정의
릴레이션이 제3정규형을 만족하고 릴레이션에서 성립하는 X→Y 형태의 모든 함수적 종속성에 대하여 X가 슈퍼키인 상태

슈퍼키: 기본키가 될 수 있는 컬럼

입출항관리 릴레이션(제3정규화가 적용된 도크릴레이션)의 함수적 종속성
- {도크번호, 입항시간} → {목적}
- {도크번호, 입항시간} → {출항시간}
- {목적} → {도크번호}

현상태에서 입출항관리 릴레이션에 BC정규화를 적용시키려면 목적→도크번호 를 따로 떼어내야한다.

2) BC정규화의 적용

항상 종속자를 떼어내는 것이고 결정자를 남겨둔다.
목적이 도크번호를 종속한다는것은 목적이 결정자가 되고 도크번호가 종속자가된다.
그러므로 도크번호를 떼어내야한다.
목적이 기본키이고 도크번호를 종속하는 릴레이션을 추가로 생성하고 기존 입출항관리 릴레이션에서 도크번호를 떼어낸다.
입출항관리 릴레이션의 기본키를 목적과 입항시간으로 두고 출항시간을 종속하도록한다.

 

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해


비효율성을 줄여야 DBMS를 효율적으로 사용할 수 있다.

이번 강의에서는 수학과 논리학이 조금 들어갈 수 있다.

1. 좋은 릴레이션과 나쁜 릴레이션

1) 나쁜 릴레이션의 예


(그림 나쁜릴레이션의 예)

등급과 할인율에 부분적인 중복이 발생하고 있다. 중복레코드는 존재하지않지만 중복의 문제를 내포하고있다.

2) 잘못된 데이터베이스 모델링

2-1) 데이터의 중복

2-2) 갱신 이상
- 삽입 이상: 레코드 추가 시 불필요한 컬럼의 값이 없이는 추가하지 못 하는 경우
- 삭제 이상: 삭제 시 의도하지 않았던 다른 데이터가 삭제되는 경우
- 수정 이상: 중복 저장된 레코드를 수정 시 모두 반영이 안되어 데이터베이스의 일관성이 깨지는 경우

2-3) 갱신 이상 - 삽입 이상
위 삽입된 그림에서 등급 신규 할인율 3프로를 추가하려면 나머지 3개 레코드(고객번호,고객명,전화번호)에 불필요한 정보를 추가하지않는이상 새로운 로우를 추가하지 못한다.    

2-4) 갱신 이상 - 삭제 이상
일반이나 VIP 등급을 삭제하고자할 때 등급과 할인율을 제외한 나머지 레코드 또한 삭제하지 않는 한 삭제하지 못하는 문제

2-5) 갱신 이상 - 수정 이상
일부에게만 할인율을 15프로 적용해놓고 추후 다른것에도 15프로를 적용하려다 수정에 실패한다면 비일관성이 발생한다.

3) 좋은 릴레이션의 개념

컴퓨터 프로그래머적 관점에서의 모델링 (어떻게 데이터를 저장해야 하는가?)
릴레이션의 스키마가 얼마나 효율적으로 실세계를 반영하고 있는지 평가하는 방법을 강구해야한다.
※ 고려사항
1. 한 릴레이션 내의 컬럼과 컬럼사이의 관계 분석
2. 갱신이상이 발생하지 않는지 데이터의 종속과 중복 제거
3. 새로운 컬럼들이 데이터베이스에 추가될 때, 기존 컬럼과의 관계 수정을 최소화

2. 함수적 종속성과 카노니컬 커버

나쁜릴레이션을 좋은릴레이션으로 바꾸려면??

1) 함수적 종속성
릴레이션 인스턴스를 분석하여 속성들(컬럼과 컬럼) 간의 연관관계를 표현한 것
릴레이션의 효율성을 향상시켜 좋은 릴레이션으로 변환하는데 이용되는 중요한 개념

정의
임의의 릴레이션 스키마 R의 인스턴스 r(R)에 포함되는 서로 다른 두 레코드 t1,t2와 속성 집합 X와 Y에 대해,
t1[X] = t2[X] 일 때, t1[y] = t2[y] 이면 함수적 종속성 X → Y가 성립한다.

2) 함수적 종속성의 판별

등급과 전화번호의 종속성
등급 컬럼과 전화번호 컬럼을 비교하였을때 등급이 같은 VIP 레코드더라도 전화번호 컬럼의 값은 다르다.
(X 의 컬럼값이 같으면 Y의 컬럼값도 같아야 종속성이 발생한다.)
* 그러므로 등급은 전화번호와 종속할 수 없다.

등급과 할인율의 종속성
등급이 일반으로 같다면 할인율도 5프로로 같은가?
등급컬럼의 값이 다를때는 신경쓸 필요가 없다. 같을때의 조건만 생각하면 된다.
등급한 할인율을 함수적으로 종속한다.
{등급} → {할인율}

3) 함수적 종속성의 확장

함수적 종속성은 릴레이션의 효율성 여부에 중요한 판단기준이 되지만 릴레이션의 인스턴스만으로 잠재된 모든 함수적 종속성을 찾아내기 어려움

판별되지 않은 모든 함수적 종속성을 찾기 위해 추론 규칙을 사용하여 확장

클로저(closure)
- 판별된 함수적 종속성 집합으로부터 유추할 수 있는 모든 함수적 종속성 집합 F+

4) 함수적 종속성 추론 규칙

4-1) 암스트롱 공리(Armstrong's axiom)

설명
재귀성: X의 컬럼이 Y의 컬럼값을 전부 내포하고 있다면, X가 Y를 종속한다.
부가성: X가 Y의 종속하고있다면 XZ가 YZ를 종속한다.
이행성: X가 Y를 종속하고 Y가 Z를 종속하면 X가 Z를 종속한다.
분해: X가 YZ를 종속하면 X가 Y를 종속한다. X가 Z를 종속한다. X가 Y 와 Z 를 각각 종속한다.
합집합: X가 Y를 종속하고 X가 Z를 종속하면 X가 YZ를 종속한다.
의사 이행성: X가 Y를 종속하고 WY가 Z를 종속하면 Y가 X로 대치가 되도 그대로 성립한다.

공리를 사용해서 클로저를 구할 수 있다.

(암스트롱 공리는 이해용도이다. 암기용도가 아님)

4-2) 함수적 종속성의 판별

고객번호 → 고객명
=> 고객번호가 다 다르므로 고객번호가 고객명을 종속할 수 없다. 고객명이 같아야 할 필요조차 없다.
같은 값이 없으므로 종속한다고 할 수 있다.

(여기서 약간 말이 웃기게 들리는데 고객번호가 고객명을 종속한다. 즉, 같은값이 있을때 같은값이 있으면 종속한다 라는게 정의 였다. 고객번호가 같은 값이 없으므로 고객번호가 고객명을 종속한다 라고 할 수 있다. 나도 이해가 잘 안된다...)

고객명 → 등급
=> 고객명의 레코드가 모두 다른 컬럼값이므로 고객명이 등급을 종속한다.

{고객번호, 고객명} → 할인율
=>고객번호와 고객명이 같은게 전혀없다 그러므로 종속한다.

위 종속성은 모두 유효한 함수적 종속성이다.

암스트롱 공리 의사 이행성에 따라 고객번호가 등급을 종속한다라고 할 수 있다.(고객번호 → 등급)

고객번호 → {고객명, 등급, 할인율}

5) 커버와 카노니컬 커버

5-1) 커버(cover)
정의
함수적 종속성들의 집합 E가 있을 때, E가 F+(클로저)에 포함되면 E의 모든 함수적 종속성이 F로부터 추론 가능 상태
=> F가 E를 커버 (E에 있는 의미가 F에 다 있다 라는 뜻)

5-2) 카노니컬 커버(canonical cover)
정의
F의 카노니컬 커버, Fc는 F+(클로저)에 존재하는 모든 함수적 종속성을 커버할 수 있는 최소한의 함수적 종속성들로만 이루어진 집합
설명: 함수적 종속성 집합(클로저) 안에는 불필요한 함수적 종속성을 많이 내포하고있는데 다 버리고 최소한의 의미만 가지고있는 함수적 종속성으로만 적용하겠다 라는게 카노니컬 커버

함수적 종속성 추론 규칙으로 확장된 클로저에는 자명한 종속성중복된 종속성을 포함

자명한 중속성이란?
A → A (당연한것)

중복된 종속성이란?
X → AB, X → B (의미가 여러번 존재)

불필요한 함수적 종속성을 제거한 표준형으로 변환 후 정규화를 수행한다.

표준형 조건
- F의 모든 함수적 종속성의 오른편 속성은 반드시 1개
- F에서 X → A를 X의 진부분집합 Y에 대하여 Y → A로 교체했을 때, 그 집합이 F와 동등한 집합이 불가능
- F에서 어떤 함수적 종속성을 제거했을 때, 그 집합이 F와 동등한 집합이 불가능

5-3) 카노니컬 커버의 도출

릴레이션 R의 스키가 (X,Y,Z)라고 가정하자
F+(클로저) = { X → YZ, Y → Z, X → Y, XY → Z}
                           ▼▼▼
        F+' = {X → YZ, Y → Z, XY → Z}
1. X가 YZ를 종속하고 X가 Y를 종속한다 라면 X가 Y를 종속한다는 것을 제거해도 된다.
                           ▼▼▼
                F+'' = {X → YZ, Y → Z}
2. XY가 Z를 종속한다라는 이야기는 X가 Y를 종속하고 X를 종속한다는 의미가 X → YZ에 포함되어 있다. 그러므로 XY → Z 에서 XY를 XX로 바꿀 수 있으므로 XX → Z 는 X → Z와 동일하다. 그러므로 XY → Z는 제거가 가능하다.

 

기말고사에서는 교재에 있는 알고리즘은 나오지 않음. 카노니컬 커버의 도출하는 과정만 나온다.

 

 

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

1. 데이터베이스 언어의 개념

1) 데이터베이스 언어의 필요

DBMS 의 역할은 데이터의 관리와 데이터의 사용을 분리 시키는 역할을 한다.
DBMS에게 우리가 원하는것을 부탁하고 청원해야 우리가 원하는것을 얻을 수 있다.
DBMS에게 요청할때 사용하는 도구가 데이터베이스 언어이다.

2) SQL의 개요

SQL(Structured Query Language)은 관계대수에 기초하여 관계형 데이터베이스의 데이터를 관리하기 위해 설계된 언어
1986년 ANSI, 1987년 ISO에서 표준으로 제정

특징

    - 비절차적 언어, 필요한 데이터만 기술
    - 인간의 언어와 매우 유사하고 간단, 명료

3) SQL의 구분

3-1) 데이터 정의 언어 (DDL: Data Definition Language)
    - 데이터베이스 내의 객체를 생성 및 삭제하고 그 구조를 조작하는 명령어의 집합
    - 데이터가 준수해야 하는 제약조건을 기술
    - CREATE, ALTER, DROP 문 등

3-2) 데이터 조작 언어 (DML: Data Mainpulation Language)
    - DDL에 의해 정의된 테이블에 데이터를 조작하는 명령어의 집합
    - 데이터에 대한 CRUD(생성, 검색, 삭제, 수정) 명령을 포함
    - INSERT, UPDATE, DELETE, SELECT 문 등

4) 데이터 타입의 개념

컬럼이 가질 수 있는 값의 범위 즉 도메인을 결정
기본 데이터타입
    - 문자: CHAR(n), VARCHAR(n), CLOB [n은 길이를 의미함]
    - 숫자: INT, FLOAT, DOUBLE, DECIMAL(m,n) [DECIMAL은 정수(m), 소수(n)을 지정할 수 있음]
    - 날짜/시간: DATE, TIME, DATETIME, TIMESTAMP


2. 데이터의 정의

1) 테이블 생성
    새로운 2차원 형태의 테이블을 생성
    구문형식
        CREATE TABLE <테이블이름> ( <컬럼이름1> <데이터타입1> [제약조검1] ... ]

(그림 테이블 생성 질의의 사용)


2) 테이블 수정
    테이블에 새로운 컬럼을 추가, 삭제 및 수정하여 구조를 변경
    구문형식
        컬럼추가: ALTER TABLE <테이블이름> ADD <컬럼이름><데이터타입><제약조건>
        컬럼삭제: ALTER TABLE <테이블이름> DROP <컬럼이름>
        컬럼수정: ALTER TABLE <테이블이름> CHANGE <컬럼이름><데이터타입>
(그림 테이블 수정 질의의 사용1) 컬럼 추가


3) 테이블 삭제
    테이블을 데이터베이스에서 삭제
    구문형식
        DROP TABLE <테이블이름>


3. 데이터의 조작

1) 데이터 삽입

1-1) INSERT문
    - 테이블에 새로운 레코드를 삽입
    - 모든 속성 또는 부분 속성에 대한 속성값을 삽입
    구문형식
        INSERT INTO <테이블이름> VALUES ( v1, v2 ... Vn)
        INSERT INTO <테이블이름>(컬럼1, 컬럼2, ... 컬럼n) VALUES (V1, V2, ... Vn)
        VALUES 에 문자 입력시 값의 양쪽에 작은 따옴표를 붙여야하고 숫자의 경우 붙이지 않아도 된다.

2) 데이터 수정

2-1) UPDATE문
    - 조건을 만족하는 레코드의 특정 컬럼을 수정
    구문형식
        UPDATE <테이블이름> SET <컬럼1> = <값> [, <컬럼2> = <값2] , <컬럼3> = <값3>] <WHERE> 조건

3) 데이터 삭제

3-1) DELETE문
    - 조건을 만족하는 레코드를 삭제
    구문형식
        DELETE FROM <테이블이름> <WHERE> 조건

4) 데이터 검색

4-1) 기본 SELECT 질의
    - 테이블에서 조건을 만족하는 전체 또는 특정 레코드를 검색
    - 한 개 또는 그 이상의 테이블에서 데이터 검색 가능

JOIN문 사용
    SELECT 이름, 교수.학과명, 캠퍼스 FROM 교수, 학과 WHERE 교수.학과명 = 학과.학과명

4-2) 집계함수를 사용한 SELECT 질의
    - 복수개의 레코드에 존재하는 특정 컬럼값에 집계함수를 통해 다양한 계산을 수행할 수 있는 기능
    - 집계함수의 종류
        COUNT, SUM, AVG, MAX, MIN

4-3) 그룹질의
    - 특정 기준으로 레코드를 그룹화하고 각 레코드 그룹에 대해 집계함수를 적용하는 질의
    구문형식
        SELECT 질의 GROUP BY 컬럼
            - 주의: 출력되는 컬럼에 그룹의 기준과 집계 함수 이외의 어떠한 값도 포함될 수 없음
        SELECT 학과명, COUNT(과목명) AS 개설_강의수 FROM 과목 GROUP BY 학과명

4-4) 중첩질의
    - SELECT문 내부에서 독립적으로 실행 가능한 또 다른 SELECT문이 내포되어 있는 질의
    종류
        - FROM 절에서의 중첩 질의 활용
            FROM절에서의 결과집합을 SELECT에서 재검색
        - WHERE 절에서의 중첩 질의 활용
            WHERE절에서의 결과 집합을 활용하여 외부 질의에서 레코드의 출력 여부를 결정
            IN, NOT IN, EXISTS, NOT EXSISTS 사용

4-5) 뷰의 정의


    - 하나 이상의 원본테이블로부터 유도되어 일반 테이블처럼 조작 할 수 있는 가상 테이블
    - 물리적으로 저장되지 않음
구문형식
    CREATE VIEW 뷰이름 AS [질의]


1. 알고리즘 기본개념

1) 알고리즘 생성단계
    설계 > 표현/기술 > 정확성 검증 > 효율성 분석

2. 기본 자료구조

1) 알고리즘에서 자료구조는?

1-1) 자료구조
    - 컴퓨터 기억공간 내에 자료를 표현하고 조직화 하는 방법
    - 프로그램 = 자료구조 + 알고리즘
    - 자료구조에 대한 고려 없는 효율적인 알고리즘의 선택, 또는 알고리즘에 대한 고려 없는 효율적인 자료구조의 선택은 무의미

기본 자료구조 =

배열, 연결리스트 , 스택 , 큐 , 트리 , 그래프

선형 자료구조 : 배열 , 연결리스트 , 스택 , 큐
    ㄴ 데이터에 순서가 있다.
비선형 자료구조 : 트리, 그래프
    ㄴ 데이터에 순서가 없다.


2) 배열

정의: 같은 자료형을 갖는 여러 개의 데이터를 하나의 변수에 저장해놓고 각각의 원소에 접근할 때에는 인덱스 첨자를 사용해서 접근하는 자료구조

특징: 논리적인 순서와 물리적인 순서가 같다.

단점: 삽입과 삭제가 발생하게되면 순서를 유지하기 위해서 자리의 이동이 불가피하다.

장점: 배열은 인덱스를 가지고 해당 원소에 직접접근하는 특징을 가지고 있다. 배열은 데이터가 어디에 저장되어있든지 어디로든 접근의 시간이 동일하다.

3) 연결리스트

하나의 원소는 노드라고 한다. 데이터가 들어가는 곳을 필드라고 한다.
하나의 노드는 하나의 데이터필드와 하나의 링크필드로 표현된다.

특징: 논리적순서와 물리적인순서가 같지 않다. 링크필드의 의미는 다음 노드의 메모리 주소값을 저장하고 있다.

장점: 삽입과 삭제가 간단하다.

단점: 특정 데이터를 찾아갈때는 처음부터 찾아가야 한다는 단점이 있다.


2-1,3-1) 배열과 연결리스트의 종류

배열 : 1차원 2차원 다차원배열

연결리스트: 단일 연결, 단일 원형 연결, 이중 연결, 이중 원형 연결

주어진 문제에 따라 자료구조를 선택해야 함.

접근을 빨리 하고싶으면 배열을 쓰는게 좋고 데이터의 접근보다는 데이터의 삽입과 삭제가 많다면 연결리스트 사용이 효과적일 수 있다.


4) 스택

정의: LIFO (Last In First Out) 후입선출 입구와 출구가 하나밖에 없는 구조

top : 스택에 데이터가 어디까지 쌓여져 있는가를 알림.

push: 삽입하는 연산

pop: 삭제하는 연산

데이터가 삽입 삭제때마다 top이 가리키는 위치가 달라짐.

5) 큐

정의: FIFO (First In FIrst Out) 선입선출 입구와 출구가 정방향

front: 삭제와 관련

rear: 삽입과 관련

삽입이 이뤄질경우 rear가 가리키는 값이 바뀜.

삭제가 이뤄질경우 front가 가리키는 값이 바뀜.


6) 트리

정의: 하나 이상의 노드로 구성된 유한 집합 T

조건1: T의 원소 가운데 단 하나의 루트 노드가 존재
조건2: 루트 노드를 제외한 나머지 노드는 n개의 서로 분리된 부분집합 T1, T2, TN(서브트리) 으로 나누어진다

주요 용어:

차수

리프노드(단말노드)

부모,자식,형제 노드

조상(선조) 후손(자손)

레벨 높이 깊이

6-1) 이진트리

정의: 각 노드의 차수가 2이하인 순서 트리

특성:
    - 레발 i에서 최대 노드의 개수 = 2의 i승
    - 높이 h에서 이진 트리의 최대 노드의 개수 = 2의 h승 - 1
    - 단말 노드(자식이 없는 노드)의 수 n0 = 차수가 2인 노드의 수에 +1 하면 된다. 
        n0 = n2 + 1

종류:
    - 포화 이진트리 : 높이 h 까지 중간에 빈 자리 없이 꽉 차있는 트리
    - 전 이진트리: 각 노드의 차수 = 0 이거나 2. 전 노드의 차수가 1인 경우가 없는 트리
    - 완전 이진트리: 노드의 레벨의 마지막 레벨 전까지가 포화 이진트리이고 마지막 레벨의 노드들이 왼쪽에서부터 마지막까지 중간에 빠짐없이 채워져있는 트리
    - 균형 이진트리: 왼쪽 서브트리와 오른쪽 서브트리의 노드레벨 차이가 1 이내인 트리

구현:
      * 배열을 이용하는 방법

* 연결리스트를 이용하는 방법

7) 그래프

정의: 그래프 G=(V,E)
    V: 정점의 집합, E: 간선의 집합

간선이 방향성이 있느냐에 따라 무방향과 방향그래프로 나뉜다.

각 정점을 잇는 선이 간선이다.

간선들에 값을 줄 수 있다. 비용이라 칭함. 간선들에 비용이 있는 그래프를 가중그래프(가중치그래프)라 한다.

7-1) 무방향 그래프

간선의 표현: (1,2) = (2,1)

그래프 표현: V(G) = { 1,2,3,4,5 } , E(G) = { (1,2),(1,3),(2,4),(3,5) }

7-2) 방향 그래프

간선의 표현: <1,2>


주요 용어:

인접,부수, 부분그래프, 경로, 경로의 길이, 차수(방향그래프 > 진입 차수 , 진출 차수), 단순 경로, 사이클, 루프, 연결, 강력 연결

구현

1) 인접 행렬

2) 인접 리스트

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

1. 관계형 모델의 개념

1) 데이터베이스 모델링 과정
    개념적 데이터모델링 > 개념스키마 > 논리스키마 > 물리스키마 > DB

2) 논리적 데이터 모델링
    - 특정 DBMS에서 사용하는 데이터 모델에 맞추어 데이터를 표현하는 과정
    - 데이터 정의 언어로 기술된 논리 스키마 생성
    - 관계형 모델(releational model)
        * 1969년 에드가 F.코드에 의해 제안
        * 릴레이션(releation)으로 데이터를 표현하는 모델
        * 데이터 표현이 단순하고 직관적
        * 현재 대다수 DBMS의 기초

3) 릴레이션의 특징
    - 레코드의 유일성: 중복된 레코드가 존재 불가능
    - 레코드의 무순서성: 레코드의 순서는 의미가 없음
    - 컬럼의 무순서성: 컬럼은 순서가 없고, 이름과 값의 쌍
    - 컬럼값의 원자성: 모든 값들은 나눌수 없는, 단 하나의 의미

4) 키의 사용
    - 릴레이션의 레코드를 유일하게 식별하는 값

4-1) 키의 종류 및 속성
    키의 속성: 유일성, 최소성
    키의 종류:
        수퍼키: 유일성 만족
        후보키: 유일성, 최소성 만족
        기본키: 레코드의 구분을 위해 선택된 후보키
        외래키: 참조된 다른 릴레이션의 기본키
    키의 참조:
        두 릴레이션에 포함된 레코드 간 연관성을 표현

5) 관계형 모델의 제약조건

영역 제약 조건
    - 컬럼에 정의된 영역(domain)에 속한 값으로만 컬럼값이 결정
키 제약 조건
    - 키는 레코드를 고유하게 구별하는 값으로 구성
개체 무결성 제약조건
    - 어떠한 기본키 값도 널(null) 값이 될 수 없음
참조 무결성 제약조건
    - 두 릴레이션의 레코드 사이에 일관성을 유지에 사용


2. ER다이어그램의 변환

1) 관계형 모델로 변환 예

강좌 - 강의 → 강사
1:N의 관계에서 외래키는 N의 릴레이션에 1의 기본키를 외래키로 사용한다.
다중값속성 ( {} )은 원자성에 어긋나므로 별도의 릴레이션으로 만든다.

강사 ← 부양(약한관계집합) = 가족
약한관계집합 ( 관계: 마름모꼴의 테두리가 두 줄 ) 약한 개체집합 에서 전체참가( 두 줄로 연결 ) 1:N의 릴레이션에서 약한릴레이션은 외래키 및 기본키로 1 의 릴레이션의 기본키를 사용하고 두번째 기본키로 약한집합의 기본키로 사용할 수 있는것을 사용한다.

회원 - 수강[날짜] - 강좌 (N:N 관계)
N:N 의 관계에서는 반드시 관계집합 자체가 별도의 릴레이션으로 만들어져야 한다.
별도의 릴레이션에는 양쪽 릴레이션의 기본키를 가져와서 별도의 릴레이션에 외래키기본키로 컬럼을 생성해야한다.

3. 관계 대수의 사용

1) 관계연산의 개념
    - 관계형 모델을 기반으로 구성된 릴레이션을 사용하여 새로운 릴레이션을 생성하는 표현
    - 사용자의 관점에서 필요한 데이터를 릴레이션에서 추출하는 방법을 제공하는 도구
    - 관계 대수(relational algebra)
        * 관계 연산을 정의하는 방법
        * 주어진 릴레이션에서 필요한 릴레이션을 만드는 연산자로 구성

2) 셀렉트 연산자
    - 주어진 릴레이션에서 조건을 만족하는 레코드 만을 갖는 릴레이션을 추출
    (그림 셀렉트연산자)


    - 교수라는 릴레이션에서 학과명이 컴퓨터과학과인 레코드를 가져와라.
    (그림 셀렉트연산자2)

 

3) 프로젝트 연산자
    - 기술된 컬럼만 갖는 릴레이션을 추출
    (그림 프로젝트 연산자)


    - 교수 릴레이션에서 이름과 연봉만 알고싶다.
    (그림 프로젝트 연산자2)

 

4) 집합 연산자
    - 수학적 집합 이론에서의 이진 연산
        합집합, 교집합, 차집합
    - 집합 연산자 사용 조건
        릴레이션 R과 S의 차수가 동일
        모든 i에 대해 R의 i번째 컬럼의 도메인과 S의 i번째 컬럼의 도메인이 반드시 동일

5) 카티시언 프로덕트 연산자
    - 두 릴레이션에 포함된 레코드 간의 모든 조합을 생성하는 연산자
        R X S
    - 각각 m개와 n개의 레코드, a개와 b개의 컬럼이 존재하는 R과 S릴레이션의 경우, R X S는
        a + b 개의 컬럼
        m x n 개의 레코드

6) 조인 연산자
    - 두 릴레이션에서 조건을 만족하는 레코드를 결합한 레코드로 구성된 릴레이션을 생성
    (그림 조인연산자)


    조인과 카티시언의 다른점
        카티시언은 무작정 짝짖는거고 조인은 조건을 만족시키는것만 짝지음
        카티시언을 수행 한 후 조건을 만족시키는 레코드만 남기는것으로 수행

7) 집계함수 연산
    - 집계 함수를 값들의 집합 또는 레코드의 집합에 적용하는 연산
    (그림 집계함수)

7-1) 칼리그래프G 의 왼쪽부분에 레코드 그룹핑을 시킬 수 있다.
(그림 집계함수 그룹화)

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

1. 모델링의 과정

1) 모델링이 필요한 이유

처음과 의도한대로 만들기 위해서 설계라는 과정이 필요함

1-1) 비즈니스적 관점

어떤 데이터를 저장해야 하는가?

1-2) 컴퓨터 프로그래머 관점

어떻게 데이터를 저장해야 하는가?

2) 사용자 요구사항 분석 단계

2-1) 요구사항 도출

- 구축대상, 프로젝트 목표, 범위를 기준으로 조사범위를 결정
- 업무관계자와 인터뷰
- 외부자료 수집 및 분석

2-2) 요구사항 분석

- 도출된 요구사항의 명확성, 모호성 검증
- 요구사항을 분류하여 통합 또는 분리
- 불완전한 부분이 존재할 경우 이전 단계 재수행

2-3) 요구사항 기록

- 요구사항 목록 정리 및 관리자의 승인
- 정리된 요구사항을 형식에 맞춰 문서화
- 미비 사항이 존재할 경우 이전 단계 재수행
- 프로젝트 종료 때까지 반영 여부 지속적 관리

3) 데이터베이스 모델링 과정

3-1) 개념적 데이터 모델링

- 요구사항의 해석 오류를 피하기 위해 사용
- 실세계의 데이터들을 개념적으로 일반화시켜 구조, 데이터 타입, 속성 관계, 제약조건을 이끌어내는 과정

3-2) 논리적 데이터 모델링

- 특정 DBMS의 구현 모델에 맞춰 데이터를 표현하는 과정
- 데이터 정의 언어로 기술된 논리 스키마 생성

3-3) 물리적 데이터 모델링

- DB 파일의 내부 저장구조, 파일 구성, 인덱스, 접근경로 등을 결정하는 과정

2. ER 모델의 정의

1) 개념

1976년 Peter Chen 박사에 의하여 제안
개념적 모델링 단계에서 사용되는 데이터 모델
실세계의 속성들로 이루어진 개체(entity) 와 개체사이의 관계(relationship)를 정형화 시킨 모델

구성요소 > 개체집합, 관계집합, 속성

2) 개체 집합

2-1) 개체 (entity) 1row

- 실세계에 존재하는 다른 객체와 구별되는 유무형의 사물
- 개체를 설명하는 여러 속성들로 구성

2-2) 개체 집합(entity set) table?

- 같은 속성을 공유하는 개체들의 모임

3) 관계 집합

3-1) 관계

- 개체와 개체 사이의 연관성

3-2) 관계 집합

- 개체 집합 간의 전체적 연결 관계

4) 속성의 개념

- 개체를 구체적으로 설명하는 특성
- 속성에 포함될 수 있는 값의 특성에 따라 여러 종류로 구성

4-1) 속성의 종류

단순속성: 더 이상 작은 구성요소로 나눌수 없는 속성
 예) 회원이름 , 키 , 몸무게

복합속성 : 들여쓰기 사용
 예) 주민등록번호(생일 년월일 성별코드 지역코드)

단일값 속성: 하나의 개체에 대해 단 하나의 값만을 갖는 속성
 예) 회원개체집합의 회원번호, 회원이름

다중값 속성: 하나의 개체에 대해 여러개의 값을 갖는 속성
 예) 회원개체집합의 전화번호(여러개가 들어갈 수 있다) { } 중괄호 사용

유도 속성: 다른 속성의 값으로부터 값이 유추될 수 있는 속성

저장 속성: 유도 속성을 위해 사용될 수 있는 속성
 예) 회원개체집합의 주민등록번호에서 나이를 유추할 수 있으므로 소괄호를 사용

널(null) 속성: 특정 개체가 일부 속성값을 가지지 못하여 null 값을 갖는 속성
    - 특정 개체가 가지는 값을 모르는(입력되지 않은) 경우
    - 특정 개체에 일부 속성이 적용이 될 수 없는 경우

5) 제약조건

- 데이터 모델은 데이터, 의미, 구조, 연관성 및 데이터의 조건을 표현하기 위한 도구
- ER모델은 개체와 관계에 대한 표현을 명확하게 하기위해 데이터가 항상 준수해야 하는 제약조건을 정의할 수 있는 방법을 제공

5-1) 사상수 (mapping cardinality)

관계 집합에 참가한 개체 집합에 대해 각각의 개체가 얼마만큼의 관계를 맺을 수 있는지 명시한 수
1:N, N:1, N:N

※ 일대일 사상수 표현 (보유라는 마름모꼴로 양쪽의 화살표(1을의미))
 예) 스포츠센터의 강사에게 월급을 주기 위한 계좌번호관계

※ 일대다 사상수 표현 (강의라는 마름모꼴로 강사쪽에 화살표 강좌에는 화살표 없는 선)
 예) 강사가 다수의 강좌를 담당할 수 있는 관계

※ 다대다 사상수 표현 (담당이라는 마름모꼴로 양쪽에 화살표 없는 선)
 예) 강사가 여러명의 회원을 담당할 수 있고 회원이 여러명의 강사와 담당관계가능

5-2) 참가 제약조건 (participation constraints)

전체적 참가: 어떤 개체 집합의 모든 개체가 특정 관계 집합에 참여 하는 조건
부분적 참가: 어떤 개체 집합의 일부 개체가 특정 관계 집합에 참여 하는 조건

예) 한명의 강사는 여러개의 강좌를 강의할 수 있고 하나의 강좌는 반드시 하나의 강사에 의해서만 진행될 수 있다. 모든강사는 강의에 참여하는것은 아니다. 모든강좌는 반드시 강의를 진행하는 강사가 있다.

(그림 참가제약조건의예)

 

(그림 참가제약조건의예2)

5-3) 키 속성

키(key): 각 개체를 구별하는데 사용되는 유일한 값을 가지는 속성의 집합
 예) 회원개체집합의 회원번호 개체가 키가 될 수 있다.
 표현) 밑줄

5-4) 특수속성과 관계

관계집합의 속성: 두 개체 집합의 관계에서 생성되는 값을 저장하는 속성
재귀적 관계: 한 개체 집합이 자기 자신과 관계 집합을 형성하는 관계

5-5) 특수관계

약한 개체 집합: 개체의 존재 유무가 관계를 맺고 있는 개체의 존재에 종속되는 개체집합
강한 개체 집합: 약한 개체 집합과 연결되는 일반 개체 집합

3. ER 모델링

학사지원 시스템의 요구사항 분석

● 본교의 학사지원 시스템은 여러 명의 교수와 학생들 그리고 과목 정보를 관리하기 위한 시스템이다.
● 학생은 학번, 이름, 학년, 소속학과 정보를 가지며, 교수는 교번, 이름, 연봉 정보를 가진다. 과목은 학수번호, 과목명, 학점 정보를 가진다. 과목은 한 개 이상의 분반으로 이루어진다. 분반은 번호, 학기, 연도 정보를 관리한다. 추가적으로 과목은 선수과목정보를 가진다.
● 하나의 학생은 한 명의 교수와 지도교수 관계를 맺을 수 있으며, 한 명의 교수는 복수의 학생을 지도할 수 있다. 학생은 여러 개의 과목을 수강할 수 있으며, 교수는 여러 개의 과목을 강의할 수 있다. 하나의 과목은 여러 명의 학생이 수강할 수 있으나, 강사는 1명으로 제한된다. 수강 및 강의 시 학수번호와 분반번호를 같이 기술해야 한다.

(그림 학사지원 시스템의 ER모델)

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

1. 데이터베이스의 개념

사용: 은행 항공 대학 등등등등 많다

데이터베이스가 없으면 원하는 자료를 찾는데 소요되는 비용이 너무 크다. 

1) 파일처리시스템
    DB가 개발되기전에 데이터관리에 사용
    업무 별 작성되는 각각의 어플리케이션이 개별적으로 자신의 데이터를 케어하는 시스템

    1-1) 데이터 종속의 문제
        저장된 데이터가 특정 HW 또는 SW에서만 사용될수 있도록 제한되는 문제
        - 물리적 데이터 독립성
        - 논리적 데이터 독립성

    1-2) 데이터 중복의 문제
        동일한 사항에 대한 데이터를 복수 개 저장할 경우 일관성, 보안성, 경제성 측면에서 문제 발생
        - 일관성: 한가지 사실에 대해 한 개의 데이터 값을 유지
        - 보안성: 같은 데이터에 같은 수준의 보안 유지
        - 경제성: 데이터에 대해 최소한의 저장 공간 만을 점유

    1-3) 무결성 훼손의 문제
        실세계의 데이터는 어떤 현상에 대한 값을 유지하고 있을 뿐만 아니라 데이터가 가질 수 있는 기능범위를 포함
        - 현상에 대한 값의 예: '홍길동'의 수강과목
        - 가능 범위의 예: 1학기 최대 수강과목 18학점
        데이터 무결성
        - 데이터의 정확성 보장
        - 데이터의 값과 값에 대한 제약조건을 동시에 만족
        파일 시스템은 데이터 무결성을 보장하기 위한 기능을 제공하지 않음

    1-4) 동시접근의 문제
        동일 데이터에 다수 사용자의 접근 허용 시 일관성이 훼손

2. 특징

DB 관련 용어
    데이터: 어떠한 사실에 대한 정량적, 정성적 특징을 나타낼 수 있는 값과 값에 대한 설명
    데이터베이스: 특정 기관의 애플리케이션 시스템에서 사용되는 데이터의 집합
    DBMS: 데이터베이스에 저장된 데이터의 구성, 저장, 관리, 사용을 위한 소프트웨어 패키지
    데이터베이스 시스템: 정보를 데이터베이스에 저장, 관리하여 사용장게 요구된 형태의 정보로 제공하는 컴퓨터 기반 시스템

데이터베이스 사용의 의미
    이전의 파일처리시스템에서의 데이터사용과 데이터관리를 DBMS를 통해 이원화 시킨것.

특성)

DB 시스템의 자기 기술성
 - 설명(메타데이터)을 포함
프로그램과 데이터의 격리 및 추상화
 - 사용제에게 개념적인 표현을 제공하여 접근성을 향상
다중 뷰 제공
 - 각 사용자가 관심을 갖은 데이터베이스의 일부만을 표현할 수 있는 기능 제공
다수 사용자 트랜잭션 처리
 - 동시성 제어 기능

값, 데이터, 메타데이터의 차이)

12
값: 숫자 12의 순수한 의미
데이터: 숫자 12와 어떤것을 의미 하는지에 대한 설명 (오늘일자 낮 최고기온)
메타데이터: 숫자 12의 설명 (오늘일자 낮 최고기온)

DBMS의 구조)
    개념적 > 논리적 > 물리적

3. 모델

개념)
    사용 가능한 데이터만을 선별하여 구조화된 DB에 저장 사용할 방법이 필요
    데이터모델: 관계형, ER, 객체지향적 모델 등

1) ER(entity-relationship model) 모델
    실세계 인식에 기초하여 실세계의 객체(object)를 나타내는 개체(entity)들과 개체들간의 관계(relationship)로 구성

2) 관계형(relational model) 모델
    릴레이션이라고 하는 표 형태의 구조를 사용하여 데이터를 저장, 관리하는 모델

관계형 모델로 가기전에 ER 모델을 사용한 후 관계형으로 진행된다.

4. 구성요소

1) DB 언어

1-1) 개념: DBMS는 사용자가 DB를 쉽게 사용하고 다룰 수 있도록 언어 형태의 인터페이스를 제공
                역할에 따라 종류의 언어로 구분 데이터정의언어(DDL) , 데이터조작언어(DML)
            현대 DB언어는 자연어와 유사한 형태의 SQL로 표준화

1-2) 데이터정의언어 DDL (Data Definition Language)
        DB 스키마를 정의하기 위한 언어

1-3) 데이터조작언어 DML(Data Manipulation Language)
        구조화된 데이터에 사용자가 접근 및 조작할 수 있도록 지원하는 언어(검색,삽입,삭제,수정)

5. 시스템 아키텍처

1) 개념

1-1) 중앙집중식 방식
        - 단일 서버가 다수의 클라이언트 장치를 대신하여 작동
        - 중앙 컴퓨터의 과부하로 전체적인 성능 저하

1-2) 분산시스템 방식
        - 클라이언트 장치의 성능 향상으로 자체적인 처리 능력 보유
        - 클라이언트-서버 데이터베이스 시스템

* 클라이언트 - 서버 구조
2 tier: 사용자, 애플리케이션, 데이터베이스
3 tier: 사용자, 애플리케이션 클라이언트, 애플리케이션 서버, 데이터베이스 

© 2015 Jundol in 음 아마 비둘기보단 똑똑할꺼야
Designed by DH / Powered by Tistory
141 / 85 / 88,205