음 아마 비둘기보단 똑똑할꺼야

2018/05/22 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [알고리즘] 3강 분할정복 알고리즘 - 1

2018/05/22 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [알고리즘] 2강 알고리즘 소개

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [알고리즘] 1강 알고리즘 소개

1. [복습] 분할정복 방법의 원리

순환적으로 문제를 푸는 하향식 접근 방법
주어진 문제의 입력을 더 이상 나눌 수 없을 때까지 두 개 이상의 작은 문제로 순환적으로 분할하고, 이렇게 분할된 작은 문제들을 각각 해결한 후 그 해를 결합하여 원래 문제의 해를 구하는 방식

'분할' - '정복' - 결합

특징
- 분할된 문제는 원래 문제와 동일(입력 크기만 감소) 하고 서로 독립적

적용 알고리즘
- 이진 탐색, 퀵 정렬, 합병 정렬, 선택 문제

 

2. 합병 정렬

분할 정복 방법을 가장 잘 표현하고 있는 알고리즘이다.

배열을 동일한 크기의 두 개의 부분배열로 분할하고,
각각의 부분배열을 순환적으로 정렬한 후, (정복)
정렬된 두 부분배열을 합병하여 하나의 정렬된 배열을 만듦.

분할: 입력 크기 n인 배열을 크기 n/2 인 두 부분배열로 분할
정복: 각 부분배열에 대해서 합병 정렬을 순환적으로 적용하여 두 부분배열을 정렬
결합: 정렬된 두 부분배열을 합병하여 하나의 정렬된 배열을 만듦

합병 정렬에서 분할은 신경쓸 필요없다. 합병이 중요한 부분이다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
MergeSort(A[], n){
    if(n > 1){
        Mid = n/2;
        B[0..Mid-1= MergeSort(A[0..Mid-1], Mid);
        C[0..n-Mid-1= MergeSort(A[Mid..n-1], n-Mid);
        A[0..n-1= Merge(B[0..Mid-1], C[0..n-Mid-1], Mid, n-Mid);
    }
    return A;
}
 
Merge(B[], C[], n, m)
{
    i = j = k = 0;
    while(i<&& j<m){
        if(B[i] <= C[j]){
            A[k++= B[i++];
        }else{
            A[k++= C[j++];
        }
    }
    for(; i < n; i++) A[k++= B[i];
    for(; j < m; j++) A[k++= C[j];
    return A[0..n+m-1];
}
cs

 

성능 분석

두 부분배열 간의 비교 횟수 n/2 ~ ( n/2 + n/2 -1 = n - 1 )
최악의경우: Θ(n)
입력 데이터 개수만큼의 저장 장소가 추가로 필요하다.

합병 정렬 MergeSort() 수행시간
- 크기 n/2 인 두 번의 MergeSort() 순환 호출 + 한 번의 합병 Merge()
T(n) = T(n/2) + T(n/2) + Θ(n) (n>1)
T(1) = 1
                  ▼▼▼
         T(n) = 2T(n/2) + Θ(n)
                  ▼▼▼
             T(n) = O(nlogn)

퀵 정렬과 동일한 수행시간을 갖는다.

 

3. 선택 문제

선택문제란?
n개의 원소가 임의의 순서로 저장된 배열 A[0..n-1]에서 번째로 작은 원소를 찾는 문제

i = 1 > 최솟값
i = n/2 > 중간값
i = n > 최댓값

직관적인 방법
- 오름차순으로 정렬한 후 i번째 원소를 찾는 방법 > O(nlogn)
- 최솟값 찾는 과정을 i번 반복((i-1)번째까지는 최솟값을 찾은 후 삭제) > O(in)

최악 O(n2제곱), 평균 O(n) 알고리즘
최악 O(n), 평균 O(n) 알고리즘

3-1) 최솟값 찾기
각 데이터를 하나씩 모두 비교하는 방법
n개의 데이터에 대해서 최소한 (n-1)번의 비교가 필요 > O(n)

3-2) 최솟값과 최댓값 모두 찾기

최솟값 찾은 후 최댓값 찾는 방법(또는 최댓값 찾은 후 최소값 찾기)
n개의 데이터에서 최솟값을 찾는데 (n-1)번의 비교
 + (n-1)개의 데이터에서 최댓값을 찾는데 (n-2)번의 비교
==> 2n - 3 번의 비교

2n-3번의 비교가 아닌 (3/2)n -2번의 비교로 수행 가능
모든 원소를 두 개씩 짝을 이루어 동시에 최솟값/최댓값과 비교

1
2
3
4
5
6
7
8
9
10
11
12
FindMinMax(A[], n, min, max)
{
    if(A[0< A[1]){ min = A[0]; max = A[1]; }
    else { min = A[1]; max = A[0]; }
    for (i = 2; i < n; i++){
        if(A[i] < A[i+1] { small = A[i]; large = A[i+1]; }
        else { small = A[i+1]; large = A[i]; }
        
        if ( small < min ) min = small;
        if ( large > max ) max = large;
    }
}
cs

3-3) i번째로 작은 원소 찾기_ 최악 O(n2제곱), 평균 O(n)

개념과 원리
퀵 정렬의 분할 함수 Partition()을 순환적으로 적용한다.

분할: 피벗을 기준으로 주어진 배열을 두 부분배열로 분할, i가 피벗의 인덱스와 같으면 피벗의 값을 반환하고 종료
정복: 인덱스 i가 포함된 부분배열에 대해서 선택 알고리즘을 순환적으로 적용
결합: 필요없음

1
2
3
4
5
6
7
8
9
10
11
12
int Selection(A[], n, i)
{
    Left = 0; Right = n -1;
    p = Partition(A, n);
    
    if(i == p + 1)
        return A[p];
    else if ( i < p + 1)
        Selection(A[Left..p-1], (p-1)-Left+1, i);
    else
        Selection(A[p+1..Right], Right-(p+1)-1, i-p-1);
}
cs

성능 분석

최악의경우 = 퀵 정렬의 최악의 경우
- 분할 함수가 항상 하나의 부분배열만 생성하는 경우
- 오름차순으로 정렬된 상태에서 i = n 을 찾는 경우 > 분할 함수 호출할 때 마다 피벗의 인덱스는 1씩 증가 > Partition()을 O(n)번 호출 => O(n제곱)
- 해결책 > 항상 일정한 비율의 두 부분배열로 분할, 최악의 경우에도 O(n)]

평균적인 경우 O(n)

 

3-4) i번째로 작은 원소 찾기_최악 O(n), 평균 O(n)

개념과 원리
특정한 성질을 만족하도록 피벗을 선택
> 항상 일정한 비율의 두 부분배열로 분할

피벗선택방법
① 크기 n인 배열의 원소를 5개씩 묶어 n/5개의 그룹 형성
- 5의 배수가 되지 않아 그룹을 생성하지 못한 채 남는 원소는 그대로 남겨 둔다.
② 각 그룹에 대해서 중간값을 찾음
③ n/5 개의 중간값들을 대상으로 다시 중간값을 찾음 > "중간값들의 중간값" => "피벗"

2018/05/22 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [알고리즘] 2강 알고리즘 소개

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [알고리즘] 1강 알고리즘 소개

 

1. 분할정복 방법의 원리

  • 순환적으로 문제를 푸는 하향식 접근 방법
    주어진 문제의 입력을 더 이상 나눌 수 없을 때까지 두 개 이상의 작은 문제로 순환적으로 분할하고, 이렇게 분할된 작은 문제들을 각각 해결한 후 그 해를 결합하여 원래 문제의 해를 구하는 방식
  • 특징
    분할된 작은 문제는 원래 문제와 동일 → 단, 입력 크기만 작아진다.
    분할된 문제는 서로 독립적 → 순환적 분할 및 결과 결합이 가능
  • 각 순환 호출 시의 처리 과정
    분할: 주어진 문제를 여러 개의 작은 문제로 분할
    정복: 작은 문제들을 순환적으로 분할. 만약 작은 문제가 더 이상 분할되지 않을 정도로 크기가 작다면 순환호출 없이 작은 문제에 대한 해를 구함
    결합: 작은 문제에 대해 정복된 해를 결합하여 원래 문제의 해를 구함.

1) 적용 알고리즘에서의 분할 과정

1-1) 이진탐색

중간 값을 기준으로 양쪽으로 분할한다. 한쪽은 사용 할 필요가 없다. 한쪽에서 분할 하고 분할하고 분할되지 않을때까지 분할한다.

n > n/2 , n/2 > n/4 , n/4 ...

1-2) 합병 정렬

정확히 절반크기의 두 개로 분할한다. 여기까지는 이진탐색과 동일하나 이진탐색은 한쪽은 사용하지않지만 합병정렬은 양쪽을 전부 사용한다.

n > n/2 , n/2 > n/4 , n/4 , n/4 , n/4 > ... 

1-3) 퀵 정렬

두개로 분할하는것은 맞으나 합병정렬은 정확히 두 개로 분할했다면 퀵정렬은 크기를 모름. 한쪽은 크고 한쪽은 작고 똑같을 수 도있고 크기가 다양한 일정하지않은 두 개로 분할하는 특징을 가진다.

n (=a+b) > a , b > ...

1-4) 선택 문제

 

 

2. 이진 탐색

  • 정렬된 상태의 데이터 대해 적용 가능한 효과적인 탐색 방법
    오름차순으로 정렬되었다고 가정

탐색방법

  • 배열의 가운데 원소와 탐색키 x(내가 찾고싶은 데이터) 를 비교
    1) 탐색키 = 가운데 원소 => 탐색 성공
    2) 탐색키 < 가운데 원소 => '이진탐색(크기 ½의 왼쪽 부분배열)' 순환 호출
    3) 탐색키 > 가운데 원소 => '이진탐색(크기 ½의 오른쪽 부분배열)' 순환 호출
  • 탐색을 반복할 때마다 대상 원소의 개수가 ½씩 감소

이진탐색의 분할 정복 결합 적용

  • 분할 : 배열의 가운데 원소를 기준으로 왼쪽과 오른쪽 부분배열로 분할. 탐색키와 가운데 원소가 같으면, 해당 원소의 배열 인덱스를 반환/종료
  • 정복 : 탐색키 x가 가운데 원소보다 작으면 왼쪽 부분배열을 대상으로 이진탐색을 순환 호출, 크면 오른쪽 부분배열을 대상으로 이진 탐색을 순환 호출
  • 결합 : 부분배열에 대한 탐색 결과가 직접 반환되므로 결합이 불필요

알고리즘_(순환형태)

1
2
3
4
5
6
7
8
BinarySearch(A[], Left, Right, x)
{
    if(Left > Right) return -1// 탐색실패
    Mid = (Left + Right)/2;
    if(x==A[Mid]) return Mid;
    else if (x<Mid) BinarySearch(A, Left, Mid-1, x); // 왼쪽 부분배열
    else BinarySearch(A, Mid+1, Right, x); // 오른쪽 부분배열
}
cs

     알고리즘 (반복형태)

1
2
3
4
5
6
7
8
9
10
11
BinarySearch_Iteration(A[], n, x)
{
    Left = 0; Right = n-1;
    While(Left <= Right){
        Mid == (Left+Right) / 2;
        if(x==A[Mid]) return Mid;
        else if (x<Mid) Right = Mid - 1// 왼쪽 부분배열
        else Left = Mid + 1;    // 오른쪽 부분배열
    }
    return -1// 
}
cs

 

이진 탐색에서의 분할과 비교

  • 입력 크기 n 일 때 최대 분할 횟수는?

n/2의k제곱 = 1 이 될때 까지 → k = log n

  • 최대 비교 횟수는? "최대 분할 횟수 + 1"

    예시) 입력 데이터 크기 n = 8 일 경우 최대 분할 횟수 k = 3이다 8/2의3제곱 = 1 이므로...
         최대 비교 횟수는 최대 분할 횟수 k 에 1을 더한 값이므로 3 + 1 = 4 이다.


성능 분석

T(n) = 입력 크기 n에 대한 탐색 과정에서의 모든 비교 횟수의 합
     = 맨 바깥 수준에서의 비교 횟수 + 순환 호출에서의 비교 횟수

T(n) = T(n/2) + O(1) (n>1), T(1) = 1

T(n) = logN

이진탐색 특징

  • 입력이 정렬된 리스트에 대해서만 적용 가능

  • 삽입 / 삭제 연산 시 데이터의 정렬 상태 유지가 필요
    평균 n/2개의 데이터 이동이 발생 > 삽입/삭제가 빈번한 응용에는 부적합하다.

 

3. 퀵 정렬

특정 원소를 기준으로 주어진 배열을 두 부분배열로 분할하고, 각 부분배열에 대해서 퀵 정렬을 순환적으로 적용하는 방식
- 오름차순으로 정렬한다고 가정한다.

피벗 pivot
두 부분배열로 분할할 때 기준이 되는 특정 원소 (보통 주어진 배열의 첫 번째 원소로 지정)

(피벗을 기준으로 왼쪽과 오른쪽으로 나누고 각각의 부분배열에 대해서 퀵정렬을 순환적으로 한다.)

 

1) 피벗이 제자리를 잡도록 하여 정렬하는 방식

분할 전 데이터 : 30, 45, 20, 15, 40, 25, 35, 10

1. (첫 데이터인 30을 피벗으로 정한다.)

분할 후 : { 25, 10, 20, 15 } 30 { 40, 35, 45 }
             왼쪽 부분배열       오른쪽 부분배열

피벗을 기준으로 보았을 때 왼쪽부분배열의 모든값은 피벗보다 작은 값들이다.
오른쪽 부분배열의 모든 값은 피벗보다 다 크다.

 

  • 분할: 피벗을 기준으로 주어진 배열을 두 부분배열로 분할

  • 정복: 두 부분배열에 대해서 퀵 정렬을 순환적으로 적용하여 각 부분배열을 정렬

  • 결합: 필요없음

 

2) 알고리즘

1
2
3
4
5
6
7
8
QuickSort(A[], n)
{
    if(n>1){
        pivot = Partition(A[0..n-1], n);    // 두 부분배열로 분할
        QuickSort(A[0..pivot-1], pivot);     // 왼쪽 부분배열에 대한 순환 호출
        QuickSort(A[pivot+1..n-1], n-pivot-1);    //오른쪽 부분배열에 대한 순환 호출
    }
}
cs

 

알고리즘 분할함수 Partition()

1
2
3
4
5
6
7
8
9
10
11
12
13
int Partition(A[], n)
{
    Left = 1; Right = n-1;
    while(Left < Right){                // 피벗 A[0]
        // 피벗보다 큰 값의 위치를 찾음
        while(Left < n && A[Left] < A[0]) Left++;
        // 피벗보다 작은 값의 위치를 찾음
        while(Right > 0 && A[Right] >= A[0]) Right--;
        if(Left < Right) 교환(A[Left] ↔ A[Right])
        else 교환(A[0] ↔ A[Right])
    }
    return Right;
}
cs

 

3) 분할과정

 

퀵 정렬의 적용 예

85보다도 88 피벗이 더 큰값이므로 맨오른쪽에 무한대의 값이 있다고 가정한다.

 

4) 성능분석

4-1) 분할함수 Partition() 수행 시간

피벗을 제외한 모든 원소는 1번~ 최대 2번 비교한다.
n ~ 2n
선형시간 Θn 을 갖는다.

4-2) 퀵 정렬 Quicksort() 수행 시간

한 번의 분할 Partition() + 두 번의 Quicksort() 순환 호출
T(n) = T(배열) + T(배열) + Θ(n) (n > 1)
T(1) = Θ(1)

 

4-3) 최악의 경우

피벗만 제자리를 잡고, 나머지 모든 원소가 하나의 부분배열로 분할되는 경우

극심한 불균형적 분할
- 피벗만 제자리를 잡고, 나머지 모든 원소가 하나의 부분배열로 분할되는 경우
- 피벗이 항상 부분배열의 최솟값 또는 최댓값이 되는 경우
- 입력 데이터가 정렬된 경우 AND 피벗을 배열의 처음 원소로 지정한 경우

T(n) = (Tn-1) + T(0) + Θ(n) (n>0), T(0)=0
                        ▼▼▼
                T(n) = T(n-1) + Θ(n)
                        ▼▼▼
                   T(n) = O(n2제곱)

 

4-4) 최선의 경우

피벗을 중심으로 항상 동일한 크기의 두 부분배열로 분할되는 경우

가장 균형적인 분할
- 피벗을 중심으로 항상 동일한 크기의 두 부분배열로 분할되는 경우
- 피벗이 항상 부분배열의 중간값이 되는 경우

T(n) = T(n/2) + T(n/2) + Θ(n) (n>1)
T(1) = 1
                        ▼▼▼
            T(n) = 2T(n/2) + Θ(n)
                        ▼▼▼
                    T(n) = O(nlogn)

 

4-5) 평균적인 경우

부분배열의 모든 분할 비율에 따른 수행시간의 평균
- 피벗은 동일한 확률로서 분할 후 배열의 어느 곳에나 위치 가능
- 0:n-1, 1:n-2, 2:n-3, ... , n-2:1, n-1:0

T(1) = T(0) = 0
T(n) = 1/n n∑i=1 (T(I-1) + T(n-I)) + Θ(n),  n ≥ 2
                        ▼▼▼
                     T(n) = O(nlogn)

퀵 정렬의 특징

  • 최선/평균의 경우 → O(nlogn)
  • 최악의 경우 → O(n2제곱)
    최악을 피하고 싶다면... 피벗 선택의 임의성만 보장되면 평균적인 성능을 보일 가능성이 매우 높음
    배열에서 임의로 값을 선택해서 배열의 처음 원소와 서로 교환한 후 정렬 수행

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [알고리즘] 1강 알고리즘 소개

1. 알고리즘의 설계

1) 최댓값 찾기

1-1) 값들을 하나씩 모두 비교해 가면서 최댓값을 찾는 방법
1-2) 토너먼트 방식
    둘씩 비교해서 큰값을 찾아가는 방법
더 효율적인것을 결정해야한다.

(n-1)번 1-1과 1-2 의 효율성은 7번으로 같다.

2) 뒤섞인 카드에서 원하는 카드 찾기

2-1) 순차탐색(Sequential Search) 순차적으로 전부 다 뒤집는다

1
2
3
4
5
6
7
8
SequentialSearch(A[], n, x)
// 배열 A[0..n-1]에서 x를 찾는 알고리즘
{
    for(i = 0; i < n; i ++){
        if(x == A[i]) return i;
    }
    return -1;
}
cs

모든 배열의 원소를 전부 다 비교


2-2) 카드가 오름차순으로 나열되어 있다면 이진탐색(binary search)

1
2
3
4
5
6
7
8
BinarySearch(A[], Left, Right, x)
{
    if(Left>Right) return -1;
    Mid = (left + right) / 2;
    if(x == A[mid]) return Mid;
    else if (x<A[mid]) BinarySearch(A, Left, Mid-1, x)
    else BinarySEarch(A,Mid+1,Right,x);
}
cs

데이터가 뒤죽박죽일때는 순차탐색, 정렬되어있다면 이진탐색이 더 좋다.

> 주어진 문제, 속성, 조건 등의 매우 다양
 => 일반적이고 범용의 기법은 미존재

> 대표적인 설계 기법
- 분할정복 divide and conquer 방법
- 동적 프로그래밍 dynamic programming 방법
- 욕심쟁이 greedy 방법

2. 알고리즘의 분석

1) 정확성 분석 (다루지않음 이미 정확하다고 증명이 된 알고리즘만 학습한다.)

  • 유효한 입력, 유한 시간 → 정확한 결과 생성하는가?
    다양한 수학적 기법을 사용해서 이론적으로 증명이 필요하다.

2) 효율성 분석 (보통의 알고리즘 분석은 효율성 분석을 말한다.)

  • 알고리즘 수행에 필요한 컴퓨터 자원의 양을 측정
  • 메모리 양 > 공간 복잡도 (space complexity)
    정적 공간 + 동적 공간
    (상대적으로 계산하기 쉬움)
  • 수행시간 > 시간 복잡도 (time complexity)
    (보통의 효율성 분석은 시간복잡도를 분석하는것을 말한다.)
    시간이 덜 걸리는것이 효율성이 높다.

    알고리즘을 프로그램으로 구현해서 이를 컴퓨터에서 실행시켜 실제 수행시간을 측정
  • 이런 방법은 일반적이지 못하다!
    컴퓨터 속도, 사용한 프로그래밍 언어, 프로그램 작성방법, 컴파일러의 효율성 등에 종속적이기 때문!


    > 알고리즘이 수행하는 기본적인 연산의 횟수의 합
  • 시간 복잡도에 영향을 미치는 요인?
    - 입력으로 제공되는 데이터 크기 ("입력 크기")
    - 입력 데이터의 상태

3) 시간 복잡도

  • 입력크기 n 이 증가하면 수행 시간도 증가
    > 단순히 단위 연산의 개수가 아닌 입력 크기의 함수로 표현한다.
  • 입력 데이터의 상태(ex:정렬 비정렬)에 종속적
    - 평균 수행시간
    - 최선 수행시간 (데이터가 가장 이상적인 상태로 제공되었을 경우)
    - 최악 수행시간 (가장 데이터가 좋지않은 상태로 제공되었을 경우)
    평균수행시간이 가장 좋지만 평균수행시간을 계산이 쉽지않다. 그러므로 최악의 수행시간을 가지고 시간복잡도를 측정한다. 최악의 수행시간을 기준으로 같거나 적게 걸린다가 되므로 기준은 최악의 수행시간을 기준으로 가진다.
1
2
3
4
5
6
7
8
9
10
11
SumAverage(A[], n)
//A[0.. n-1], n : 입력 배열과 데이터 개수
    sum = 0;
    i = 0;
    while(i<n){
        sum = sum + A[i];
        i = i + 1;
    }
    average = sum / n;
    print sum, average;
}
cs

 

시간복잡도와 점근성능 빅오 표기법으로 까지 도출 할 수 있어야 한다.

 

3. 점근 성능

정의: 입력크기 n이 무한대로 커짐에 따라 결정되는 성능

데이터의 개수가 증가한다. 15개를 기준으로 효율성의 크기가 달라진다.

수행시간의 다항식 함수에서 최고차항만을 계수 없이 취해서 표현
(최고차항만이 가장 큰 영향력을 행사하기 때문이다.)
수행시간의 어림값, 수행 시간의 증가 추세 파악이 용이 > 알고리즘의 우열을 표현

1) 점근성능의 표기법

1-1) 정의 'Big-oh' 점근적 상한 (최악의 수행시간)

어떤 양의 상수 c와 n0이 존재하여 모든 n≥n0에 대하여 f(n)≤cㆍg(n)이면 f(n) = O(g(n))이다.

1-2) 'Big-omega' 점근적 하한 (최선의 수행시간)

어떤 양의 상수 c와 n0이 존재하여 모든 n≥n0에 대하여 f(n)≥cㆍg(n)이면 f(n)=Ω(g(n)) 이다.

1-3) 'Big-theta' 점근적 상하한 (알고리즘의 수행시간을 좀 더 엄밀하게 나타낼 수 있다)

어떤 양의 상수 c1, c2와 n0이 존재하여 모든 n≥n0에 대하여 c1ㆍg(n)≤f(n)≤c2ㆍg(n) 이면 f(n) = Θ(g(n)) 이다.

(점근적 상하한)

 

2) 주요 O-표기 간의 연산 시간의 크기 관계


◀◀◀효율적                                                                                                                    비효율적▶▶▶
상수시간: 데이터의 개수와 상관없이 소요시간은 일정하다.

 

3) 효율적인 알고리즘의 중요성

 

4) 알고리즘의 시간 복잡도 구하기

알고리즘에 나타난 루프의 반복횟수를 조사하여 시간 복잡도로 취함
g(n)은 최고 차수에 의존

 

4. 순환 알고리즘의 성능

1) 순환 recursion, 재귀
알고리즘의 수행 과정에서 자기 자신의 알고리즘을 다시 수행하는 형태

BinarySearch() 를 계산하면 T(n) = T(n/2) + O(1), T(1) = c1

이진탐색의 수행시간은 O(log n) 이다.

일일이 점화식으로 계산하기엔 여간 복잡한게 아니다.

모두 다 기억하긴 어렵지만 2,3,6번은 기억해야한다.

한가지만 기억해도 본전 뽑는다 최! 고! 차! 항! 만 기억하자!

2018/05/18 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 8강 데이터의 저장

2018/05/17 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 6강 정규형의 적용

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

 

DBMS가 데이터를 가져오는 속도가 늦다면 쓰기 굉장히 싫어질꺼다... 비효율적

인덱스는 우리나라말로 찾아보기 라는 뜻이다.

인덱싱이 어떻게 내부적으로 구성되고 동작하여 DBMS가 데이터를 빠르게 찾아줄 수 있는지 알아보도록 하자.

1. 인덱싱

1) 데이터 검색 과정

  • 비효율적 과정
    디스크에 데이터 모음이 있다면~
    메모리에 블럭단위로 읽어와서 첫번째 레코드부터 검색 할 데이터가 있는지 검색하여 원하는 결과가 나올 때 까지 읽는다.

2) 인덱스의 개념

  • 데이터 검색에서 발생하는 비효율적인 문제를 해결을 목적으로 시작
    - 인덱스: DBMS에서 요청된 레코드에 빠르게 접근할 수 있도록 하는 데이터와 관련된 부가적인 구조
    - 인덱싱: 인덱스를 디자인하고 생성하는 작업
  • 인덱스와 검색키(특정컬럼값)를 통하여 레코드가 디스크 저장장치 또는 메모리의 어느 블럭에 저장되어 있는지 파악하고, 해당 블럭을 빠르게 적재한다.

검색키?
파일에서 레코드를 찾는데 사용되는 컬럼이나 컬럼의 집합

  • 1번의 데이터 검색과정의 효율적인 과정
    메모리에 적재하기 전에 디스크에 인덱스를 생성 해 놓는다.
    예시)이름을 검색키로 놓고 각각에 해당하는 레코드가 어디있는지 포인터를 가지고 있다.
    메모리에 인덱스(검색키+포인터)를 적재(블럭단위 적재보다 더 많은 인덱스 데이터를 적재 가능)해서 검색한다.
  • 인덱스의 단점은 디스크에 추가적인 데이터(검색키 + 포인터)를 저장하기 때문에 용량을 조금 더 많이 먹는다가 단점이 될 수 있다.

3) 인덱싱의 개념

  • 인덱스의 종류
    - 순서 인덱스: 특정 값에 대해 정렬된 순서 구조
    - 해시 인덱스: 버킷의 범위 안에서 값의 균일한 분포에 기초한 구조로 해시 함수가 어떤 값이 어느 버킷에 할당되는지 결정
  • 인덱스의 평가기준
    - 접근 시간: 데이터를 찾는 데 걸리는 시간
    - 유지 비용: 새로운 데이터 삽입 및 기존 데이터 삭제 연산으로 인한 인덱스 구조 갱신 비용
    - 공간 비용: 인덱스 구조에 의해 사용되는 부가적인 공간 비용

 

2. 순서 인덱스

1) 순서 인덱스의 특징

  • 검색키로 정렬된 순차 파일에 대하여 레코드에 대한 빠른 접근이 가능하도록 순서 인덱스를 사용
    - 검색키를 정렬하여 해당 검색키와 관련된 레코드와의 연계를 통하여 인덱스 생성

2) 인덱스의 구성

  • 인덱스 엔트리의 구조


설명.
덱스 엔트리는 [검색키값] 과 [포인터]로 구성되어 있는데 [포인터]는 또 두 개의 항목,
[블럭ID] 와 [오프셋]으로 구성되어 있다.
예를 들어 검색키 값이 20140001이고 블럭ID가 b2 오프셋이 30이면
블럭ID가 b2 에서 30바이트만큼 떨어져 있는 곳에 20140001 이라는 검색키값을 가진
레코드가 있다 라는 뜻

  • 순서 인덱스의 분류
    - 밀집(dense) 인덱스
    - 희소(sparse) 인덱스

3) 밀집 인덱스

모든 레코드에 대해 [검색키값+포인터] 쌍을 유지

 

4) 희소 인덱스

인덱스의 엔트리가 소수의 검색키 값만을 유지

설명.
검색키값 14001에 해당하는 레코드를 찾으려 한다면 14001보다 작은 값 중에 가장 큰 값을 가진 검색키 값을 찾는다.
14001이 나올 때 까지 다음 값을 순차적으로 읽어들인다.
희소인덱스는 듬성듬성 인덱스를 구성하지만 내부적으로 레코드를 가지고와서 다시 레코드를 찾아봐야한다는 단점이 있지만 인덱스에 해당하는 데이터의 양이 밀집인덱스보다 작기 때문에 레코드가 엄청 큰 릴레이션에서도 비교적 적은 크기의 인덱스 데이터를 가질 수 있다.

5) 다단계 인덱스

밀집 , 희소 인덱스의 장단점을 잘 섞어보자 해서 나온 인덱스

  • 4KB 크기의 블럭에 100개의 엔트리가 삽임될 때, 100,000,000 개(1억개)의 레코드에 대한 순서 인덱스
    - 1,00,000개(백만개)의 블럭 = 4GB의 공간 필요
    (4GB를 메모리에 적재하는건 불가능에 가까움)

  • 인덱스 크기에 따른 검색 성능
    - 인덱스 크기 < 메모리 크기
    디스크 I/O 이 줄어 탐색 시간이 축소
    - 인덱스 크기 > 메모리 크기
    저장된 블럭을 여러번 나누어 읽어야 하기 때문에 디스크 I/O 비용이 증가하여 탐색 시간이 증가

  • 내부 인덱스와 외부 인덱스로 구성
    - 외부 인덱스를 내부 인덱스보다 희소한 인덱스로 구성하여 엔트리의 포인터가 내부 인덱스 블럭을 지칭
    - 포인터가 가리키는 블럭을 스캔하여 원하는 레코드보다 작거나 같은 검색키 값 중에 가장 큰 값을 가지는 레코드를 탐색
    (내부 인덱스를 밀집 인덱스에 가깝게 구성하고 내부인덱스 위에 외부 인덱스를 희소인덱스에 가깝게 만들어 여러 층으로 구성되도록 한다.)

  • 내부 인덱스는 1,000,000개의 블럭을 갖고, 외부 인덱스는 100개의 블럭만 사용하여 40MB 크기의 외부 인덱스로 메모리에 적재 가능

 

3. B+ - 트리 인덱스

1) B+ 트리의 원형

2) B+ 트리의 구조

  • 루트 노드로 부터 모든 단말 노드에 이르는 경로의 길이가 같은 높이 균형 트리
    - 순서 인덱스(밀집인덱스)는 파일이 커질수록 데이터 탐색에 있어서 접근 비용이 커지는 문제점을 해결하기 위해 제안
    - 현재까지도 널리 사용되는 대표적인 순서 인덱스

  • B+ 트리의 노드 구조

하나의 노드의 사이즈가 일반적인 블럭 사이즈로 구성되고 여러 개의 검색키가 노드 안에 존재한다. K1 ~ Kn개의 검색 키가 있고 P1포인터를 따라가면 K1의 검색키보다 숫자가 작은것 혹은 알파벳이 앞선 것만 있고 P2는 K1과 K2사이의 순서에 존재하는 검색키의 존재만 위치하는 식으로 구성되어있다.

3) B+트리의 구성 요소

  • 인덱스 세트: 루트노드와 중간노드로 구성
    - 단말노드에 있는 검색키 값을 신속하게 찾아갈 수 있도록 경로를 제공하는 목적으로 사용
    - [n/2] ~ n 사이의 개수를 자식으로 소유
    (원하는 레코드가 어디에 있는지 찾기 위해서 힌트를 제공한다 즉, 인덱스세트에는 원하는 레코드가 어디에 가면 찾을 수 있는지 힌트만 제공하는 역할을 한다.) 

  • 순차 세트: 단말노드로 구성
    - 모든 노드가 순차적으로 서로 연결

    (B+트리는 인덱스 세트와 순차 세트로 구성되어있다.)

4) 단말노드의 예

 

5) B+ 트리의 예

단말노드에 포인터는 실제 레코드가 디스크에 어디에 있는지 가리키는 포인터다.

 

6) B+트리의 특징 (외우지않아도 된다. 참고사항일 뿐)

  • 루트는 2, 혹은 [n/2] ~ n 개 사이의 포인터를 가짐

  • 루트와 단말 노드를 제외한 모든 노드는 최소 [n/2]에서 n개 사이의 포인터를 가짐

  • 모든 단말 노드는 루트로부터 같은 거리
    (높이균형트리이기때문)

  • 단말 노드가 아닌 노드에 있는 검색키 값의 수는 그 (중간)노드의 포인터 수보다 하나 작음

  • 단말 노드는 데이터 파일의 순차 세트를 나타내며 모두 리스트로 연결

  • 단말 노드는 적어도 [(n-1)/2] 개의 검색키 값을 포함

 

7) '장보고' 검색

B+트리의 인덱스 첫번째 블럭만 읽어 온다. 정도전보다 크면 오른쪽 작으면 왼쪽으로 가도록 한다.
장보고는 정도전보다 가나다 순에서 작은 범위이므로 왼쪽.
정도전의 왼쪽 포인터를 따라가서 해당 블럭을 가져온다.
'안창호'의 ㅇ 보다 '장보고'의 ㅈ 이 가나다순에서 더 크므로 오른쪽 포인터의 블럭을 디스크에서 읽어온다.
불러온 블럭을 장보고와 같은 검색키값이 있는지 하나씩 비교한 다음 '장보고' 검색키값이 일치하면 왼쪽 포인터에 해당하는 레코드를 읽어온다.

네 번 만에 장보고 레코드를 읽어 올 수 있었다. (겁나 빠름)

 

8) B+ 트리 상에서의 삽입, 삭제(유지비용)

  • 레코드 삽입, 삭제 시 B+트리 또한 수정
    - 레코드 삽입: 노드에서 유지해야 할 검색키 값과 포인터 수 증가로 인해 노드를 분할해야 하는 경우가 발생
    - 레코드 삭제: 노드에서 유지해야 할 검색키 값과 포인터 수 감소로 인해 노드를 병합해야 하는 경우가 발생
    - 높이 균형 유지: 노드가 분할되거나 병합되면서 높이의 균형이 깨지는 경우가 발생

9) B+트리 상에서의 삽입과 삭제

  • 삽입: 검색과 같은 방법을 사용하여 삽입되는 레코드의 검색키 값이 속할 단말 노드를 탐색
    - 해당 단말 노드에 <검색키, 포인터> 쌍을 삽입
    - 삽입 시 검색키가 순서를 유지

  • 삭제: 삭제될 레코드의 검색키를 통해 삭제될 검색키와 포인터를 포함한 단말 노드를 탐색
    - 같은 검색키값을 가지는 다중 엔트리가 존재할 경우, 삭제될 레코드를 가리키는 엔트리를 찾을 때까지 탐색 후 단말 노드에서 제거
    - 단말 노드에서 제거된 엔트리의 오른 쪽에 있는 엔트리들은 빈 공간이 없도록 왼쪽으로 이동

10) 노드가 분할되는 삽입

  • '강감찬' 삽입

삽입하기위해 '강감찬'이 들어가야 할 위치를 검색한다. 이 때 검색은 위에 '장보고'를 검색했을 때와 동일한 방법으로 검색한다.
'김영희' '나태양' '도철수'가 있는 블럭에 삽입되어야한다.
하지만 해당 블럭은 꽉 차 있어 들어갈 수 없으므로 분할 해야 한다.
'강감찬'과 '김영희'를 하나의 단말 노드로 구성하고 '나태양'과 '도철수'를 하나의 단말 노드로 구성시킨다.

(빈 공간이 있으면 그냥 넣으면된다.)
노드가 분할이 되면 단말노드가 하나였던것이 두 개가 되므로 부모 노드(중간 노드)에 새로운 포인터를 추가로 삽입해줘야 한다.

▼ 부모 노드(중간노드) 변경 후 ▼

11) 노드가 병합되는 삭제

  • '강감찬'이 추가된 B+트리에서 피천득 삭제
    - 피천득이 있는 단말 노드를 검색
    해당 단말 노드는 삭제 후 홍길동만 남게 됨
    [(n-1)/2] 개 보다 적은 검색키 값이 적으므로 다른 노드와의 병합이 필요

    - 홍길동이 저장 된 노드의 왼쪽의 형제 노드와 병합
    홍길동을 포함한 엔트리를 형제 노드로 이동
    비워진 노드를 삭제
    비워진 노드를 가리키는 포인터도 삭제
    기존의 포인터를 대체할 '정도전'을 부모 노드에 삽입

 

 

 

2018/05/17 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 6강 정규형의 적용

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

 

DBMS가 내부적으로 데이터를 어떻게 저장하는지 알아보도록 하자

1. 파일 구성

1) 물리적 저장장치

물리적 저장장치는 데이터 접근 속도, 용량을 기준으로 다양한 장치로 구성

레지스터 → 캐시 → 메인메모리 → 자기디스크, 플레시메모리 → 광학 디스크, 자기테이프

◀◀◀◀◀◀◀◀◀속도, 가격                                   저장용량▶▶▶▶▶▶▶▶▶▶▶

2) 저장장치별 특징

휘발성
- 캐시: 고비용 저장장치로 빠른 접근 속도를 보장
- 메인메모리: 실제 프로그램과 데이터 적재 공간
- 플래쉬 메모리: 메인메모리와 유사하나 비휘발성

비휘발성
- 자기디스크: 데이터베이스 전체를 안정적으로 저장 (비휘발성 중 가장 빠름)
- 광학 디스크 드라이브: CD, DVD, Blue-ray 등
- 테이프 장치: 용량이 크고 저렴하나 순차 접근 방식으로 접근 속도가 매우 느림

3) 데이터베이스 구성

데이터베이스는 여러 개 의 파일로 구성되어있다. 사용자가 보았을때 DBMS만 보이지만 DBMS는 여러 개 의 파일로 관리하고 있다.
각각의 파일은 여러 개 의 블록으로 나누어 저장 된다.
블록 내에서는 여러 개의 레코드가 저장되어있다.

DB > 파일 > 블록 > 레코드

파일: 데이터를 영구적으로 저장하기 위해 사용되는 가장 기초적인 구조
블록: 파일을 고정적인 길이로 분할하여 생기는 균등한 크기의 데이터 묶음
레코드: 블록을 구성하는 요소, 더 이상 분리될 수 없는 최소 데이터 저장 단위

4) 고정 길이 레코드

고정적인 바이트 수를 갖는 레코드를 저장하는 기법
고정길이일 경우 레코드의 컬럼 데이터타입 크기만큼 할당해서 블록에 저장하면 된다.

문제점:
문제점1. 레코드의 길이가 블록길이에 딱 맞춰 떨어지지않는 단점이 존재
블록의 길이가 레코드 길이로 정확히 나눠지지 않아 남은 공간을 비워두는 방법 => 블록내의 남는 공간 낭비로 이어진다.
문제점2. 블록의 길이가 레코드 길이로 정확히 나눠지지 않아 한 레코드를 두 블럭에 나누어 저장하는 방법 => 레코드 접근 시 두 블록을 접근 (시스템에서는 두 블럭에 접근해야 하므로 부하가 늘어난다.)

문제점 1 , 2 두 가지 방법 모두 무엇이 더 낫고 더 나쁜지 비교할 수 없다. 혼용해서 적절하게 사용해야 한다.

레코드 삭제 시 문제
- 해당 레코드가 저장된 위치에 빈공간이 생성
- 장시간 레코드의 삽입 및 삭제 발생 시, 저장 공간에 많은 낭비가 발생

레코드 삭제 시 대처 방안
- 마지막 레코드로 공백 대체
- 삭제 리코드 이후의 레코드를 이동
- 가용 리스트 관리

5) 레코드 삭제 대처

5-1) 마지막 레코드로 공백 대체

이름이 장보고인 레코드가 삭제되었다면 맨 마지막 이름이 안창호인 레코드를 삭제된 레코드 위치에 위치시키는 방법
항상 마지막 블럭의 위치를 알고있어야하며 빈 공간을 삭제 후 마지막 공간까지 가서 끄집어 올려야 하므로 상당한 비용이 발생하는 방법

5-2) 삭제 레코드 이후의 레코드를 이동

이름이 장보고인 레코드가 삭제되었다면 이름이 나철수인 레코드부터 마지막 레코드까지의 위치를 한단계씩 위로 끄집어 올리는 방법
삽입되는 순서를 그대로 유지시킬 수 있는 장점이 있다. (검색을 빠르게 유지 가능)
나철수 부터 맨 마지막 레코드까지 한 단계씩 올려야 하므로 어마어마한 비용이 소요되는 단점이 존재.

5-3) 가용 리스트 관리

공백 레코드 포인터를 관리하는 방법.
삭제되는 레코드의 위치들을 공백 레코드가 관리하므로써 새로 삽입되는 레코드를 공백 레코드 포인터가 가지고있는 공백의 위치에 저장시키는 방법이다.
첫번째 방법을 개선시킨 방법이다.
하지만 단점인 레코드의 순서가 뒤죽박죽이 되는건 어쩔 수 없는 단점으로 존재한다.

6) 가변 길이 레코드(varchar)

블록에 저장되는 레코드의 길이가 서로 다른(가변적) 레코드를 할당하는 방법

가변 길이 레코드가 사용되는 상황
- 한 블록 내에 저장되는 레코드 유형이 둘 이상
- 길이가 고정되지 않은 컬럼의 개수가 하나 이상
- 레코드가 멀티셋을 허용한 컬럼을 가질 때

멀티셋
레코드의 컬럼값이 여러 개인 컬럼

가변 길이 레코드 형식
어디가 끝인지를 항상 기억하고 있어야된다는게 고정길이와의 차이점이다.

고정길이 레코드 먼저 블록의 첫번째에 채우기 시작하는데 처음 0~4바이트까지는 어디서부터 얼마만큼이 가변길이인지 정보를 저장해놓는 용도로 사용한다. 4바이트부터 고정길이 데이터를 채우기 시작해서 레코드의 컬럼에 고정길이 데이터가 저장이 끝나면 한 바이트에 NULL 을 입력하여 가변바이트의 시작을 구분한다.

6-1) 슬롯페이지 구조

7) 파일 구조화 방법

하나의 블록 내부에 레코드를 어떤방식으로 저장하는거였다면 지금부턴 각각의 레코드가 하나의 파일 내부에 몇번째 블록에 들어가야하는지 이다.

파일 구조화
- 파일 수준에서 레코드를 관리(순서 등)하는 기법

파일 구조화 방법의 종류
- 힙 파일 구조: 저장순서 고려없이 레코드를 파일 내 임의의 위치에 배치
(메모리)
- 순차 파일 구조: 레코드들이 특정 컬럼값을 기준으로 정렬되어 저장
(특정 컬럼값을 기준으로 계속 순서대로 저장, 검색에는 굉장히 빠름. 저장하는데는 최악 중간에 예상치 못한 순서의 레코드가 들어오면 순서를 맞추기 위해 재정렬하는 비용이 소요.)
- 해시 파일 구조: 레코드를 입력 받아 레코드가 저장 될 블록 주소를 반환하는 해시 함수를 사용
(해시 함수를 사용해서 레코드를 저장, 찾는데 삽입되는데 해시함수를 거쳐야 하기 때문에 비용이 소요되지만 힙과 순차의 중간정도의 파일 구조화 방법이다.)

7-1) 순차 파일 구조의 예
레코드가 검색키 순서대로 정렬
레코드가 파일에 삽입되는 시점에서 키 값이 부여
장점
- 검색키에 대한 정렬 연산이 불필요, 키 값들의 순서로 레코드를 판독하는 연산에 효율적
- 현재 레코드에서 정렬된 키 순서로 다음 레코드를 찾을 때 부가적인 블록 접근이 불필요
- 이진 탐색을 사용하면 더 빠르게 레코드를 검색
단점
- 레코드 삽입, 삭제에 많은 비용 소요

7-2) 다중 테이블 클러스터링 파일 구조
빈번히 조인되는 테이블을 하나의 파일에 저장하기 위한 구조
필요한 테이블이 미리 조인되어 저장

 

2. 저장장치 접근

파일은 논리적 관점에서의 저장 객체

실제 저장될 때에는 여러 개의 물리적 단위인 블록으로 저장
- 블록은 데이터의 전송 단위
- 일반적으로 2KB ~ 32KB 사용
- 블록 전송을 최소화 할 수록 입출력 소요 시간이 단축

> 사용 중인 블록을 지속적으로 메모리에 적재
> 한정적 공간으로 인하여 필요에 따라 특정 블록 할당 해지
> 메모리 내부에 버퍼라는 공간에 블록을 저장하고, 이를 관리하기 위한 버퍼 관리자를 사용

1) 버퍼 관리자

DBMS상의 소프트웨어는 필요한 블록이 있을 때 버퍼관리자에게 해당 블록을 요청
- 요청된 블록이 버퍼에 있다면, 버퍼 관리자는 블록이 위치한 메모리 주소를 프로그램에게 전달
- 요청된 블록이 없는 경우, 버퍼 관리자는 버퍼내의 새로운 공간을 할당하고 해당 블록을 적재
- 더 이상 적재할 공간이 없다면, 버퍼에 있는 기존 블록을 선택하여 할당을 해지하고 해당 블록을 적재

2) 버퍼 관리자의 기능

버퍼 교체 전략
- 가용 공간을 확보 하기 위해 기존에 적재된 블록의 할당을 특정 기준에 의하여 해지
- 미래에 가장 적게 사용될 블록을 선택하여 디스크로 내보내는 것이 이상적인 버퍼 교체 전략
- 버퍼 교체 전략 기법
> LRU(Least Recently Used): 최근에 가장 적게 참조한 블럭을 교체
> MFU(Most Frequently Used): 특정 기간동안 가장 여러 번 사용된 블록을 선택하여 블록을 교체

고정 블록
- 장애로 인하여 메모리의 데이터가 손실되어 작업이 중단될 경우, 중단된 작업의 결과물이 디스크에 기록되는 것을 방지
- 디스크 블록이 교체되는 것을 제한

블록 강제 출력
- 시스템 로그와 같이 중요한 데이터는 디스크에 영구적으로 기록되어야 함
- 버퍼 공간이 필요 없어도 강제로 디스크에 기록

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

 

나쁜릴레이션은 데이터베이스를 운용하는데 굉장히 비효율적 및 이상현상을 일으키는 릴레이션이다.

(아직까지 악당은 남아있닼ㅋㅋㅋㅋㅋㅋ)

1. 정규형의 개념

1) 정규형

- 이상 현상을 최소화 하도록 특정 조건을 갖춘 릴레이션의 형식

- 정규형의 분류

정규형은 타 정규형을 내포하거나 내포당하고있다.
제1정규형이 가장 적은 조건, 가장 약한 형태의 정규형이라 한다.
실무에서는 BC정규형까지만 사용하고 4,5 정규형은 잘 사용하지 않는다.

2) 정규형의 목적

정의
특정 정규형의 조건을 만족하도록 릴레이션과 속성(컬럼)을 재구성하는 과정

※정규화의 기능
- 데이터베이스 내에 모든 릴레이션을 효과적으로 표현 (중복을 최소화해서 가장 적은용량으로 DB 구성)
- 보다 간단한 관계 연산에 기초하여 검색 알고리즘을 효과적으로 작성할 수 있도록 지원
- 바람직하지 않은 삽임, 수정, 삭제 등의 이상 발생 방지 (갱신 이상 방지)
- 새로운 형태의 데이터가 삽입될 때 릴레이션 재구성의 필요성을 축소

3) 제1정규형

- 가장 약한 조건을 갖춘 정규형
- 릴레이션의 모든 속성이 단일 값으로 구성되어야 하는 조건

정의
릴레이션 스키마에서 정의된 모든 속성의 도메인이 원자값(관계형모델의 가장 기본적인 제약조건)을 갖는 상태
=> 기본적으로 관계형 모델을 통해서 만들어진 모든 릴레이션은 제1정규형을 만족한다라고 할 수 있음.

3-1) 제1정규화가 필요한 릴레이션

입항시간이 값이 두 개, 출항시간이 값이 두 개, 목적이 두 개 인 레코드가 있다.
원자값이 아니기때문에 제1정규화가 필요하다.

제1정규화를 시킨 도크릴레이션

단일값만으로 이루어지게 만들기 위해 두번째 릴레이션과 세번째 릴레이션을 변경하였다.

 

4) 함수적 종속성 판결

정의 5강 참조

Q. 도크번호 → 도크관리자?
도크릴레이션을 보면 도크번호가 D1으로 모두 같다 일때 도크관리자는 김주연이고 D2일때 현익창이다
따라서 도크는 도크관리자를 종속한다.

Q. 목적 → 담당도선사?
목적이 선적으로 같은 두번째와 세번째 레코드가 같을 때 담당도선사가 김혜겸으로 같으므로 종속한다.

Q. 목적 → 도크번호?
첫번째와 두번째 레코드의 목적이 선적으로 같을 때 D1으로 같으므로 종속한다.
나머지는 목적컬럼의 값이 다르므로 볼필요없다.

같을때 같은지만 보면된다. (다~ 다르면 종속한다??)

 

5) 함수적 종속성 다이어그램

릴레이션 내의 속성간의 종속 관계를 직관적이고 이해하기 쉽게 도식화 한 표현 방식
- 직사각형: 속성 또는 속성 집합
- 화살표: 함수적 종속성

목적         →     담당도선사
(결정자)            (종속자)

6) 도크 릴레이션의 함수적 종속성 다이어그램

해석,풀이
- 도크번호가 도크관리자를 종속한다.
- 도크번호와 입항시간이 파란색 사각형으로 묶여있다. 이 말은 도크번호와 입항시간 두 개가 같이 출항시간과 목적 담당도선사를 각각 종속한다.
- 목적이 도크번호를 종속한다.
- 목적이 담당도선사를 종속한다.

 

2. 제2정규형

1) 제2정규형의 정의

릴레이션이 제1정규형을 만족하고 기본키의 부분집합이 특정 속성을 종속하고 있지 않은 상태

정의
주어진 릴레이션의 인스턴스가 기본키가 아닌 속성들이 기본키에 완전히 종속되어 있는 상태

2) 제2정규형의 적용

도크릴레이션의 도크번호와 입항시간에 밑줄이 그어져있으므로 도크릴레이션의 기본키에 해당한다.
도크번호와 입항시간이 출항시간,목적,담당도선사를 각각 종속한다.
여기서 문제는 도크관리자다. 도크관리자를 종속하고있는것은 도크번호이다.
기본키의 일부분인 도크번호가 도크관리자를 종속하고있다. 완전히 종속하고있지않은 부분적으로 종속하고있기 때문에 도크관리자 종속을 제거하면 제2정규형을 만족하게된다.
해결방법 = 기본키에 완전히 종속되도록 릴레이션을 분해해야한다.

3) 임의 분해(맘대로) 시 발생하는 문제점

- 불필요한 조인이 발생 (무리하게 릴레이션을 짤라서 2개의 릴레이션을 만들면 불필요하게 조인해서 검색해야한다. 조인은 DBMS에 많은 부하가 발생한다.)
- 원본 릴레이션 재구성이 불가능할 수 있다. (꼴리는데로 분해했다간 돌이킬 수 없는 강을 건너게된다.)

4) 릴레이션의 무손실 분해

정의
스키마 R에 함수적 종속성 X→Y가 존재하고 X∩Y=∮(X와 Y에 겹치는 컬럼이 없다) 이면, R을 R - Y 와 XY로 분해

도크관리 릴레이션 무손실 분해
- {도크번호} → {도크관리자}
- {도크번호} ∩ {도크관리자} =∮

도크관리 - {도크관리자}, {도크번호, 도크관리자}
도크릴레이션에서 도크관리자를 빼고 도크번호와 도크관리자만 존재하는 릴레이션을 추가적으로 생성한다. 이러면 조인했을 때 아무런 문제가 발생하지 않음.

조인해야하는 추가연산이 발생하지만 레코드가 줄어들으므로 용량이 줄어드는 효율성이 추가연산 단점보다 훨씬 크다.

5) 제2정규화의 함수적 종속성 다이어그램

 

3. 제3정규형

1) 제3정규화의 정의

정의
릴레이션이 제2정규형을 만족하고, 기본키가 아닌 속성들이 어떤 키에도 이행적으로 종속되지 않은 상태

이행적 종속이란?
X → Y 이고 Y → Z 이면 X → Z 이다.
(5강에 나왔었다 암스트롱 공리에서... 어휴 본인 비둘기인듯...)

2) 제3정규화의 적용

제2정규화가 된 도크릴레이션에서 도크번호와 입항시간은 목적을 종속하고 (X→Y) 목적이 담당도선사를 종속한다(Y→Z)
위 부분은 이행적 종속성에 해당한다.

{도크번호, 입항시간} → {목적}
                                {목적} → {담당도선사}
→ {담당도선사}

담당도선사를 빼버리자! 그러면 제3정규화가 적용된다!!

목적이 기본키이고 담당도선사를 종속하는 릴레이션을 새로 구축한다. 그리고 도크릴레이션에는 담당도선사만 제거한다.

4. BC정규형

1) BC정규형의 정의

정의
릴레이션이 제3정규형을 만족하고 릴레이션에서 성립하는 X→Y 형태의 모든 함수적 종속성에 대하여 X가 슈퍼키인 상태

슈퍼키: 기본키가 될 수 있는 컬럼

입출항관리 릴레이션(제3정규화가 적용된 도크릴레이션)의 함수적 종속성
- {도크번호, 입항시간} → {목적}
- {도크번호, 입항시간} → {출항시간}
- {목적} → {도크번호}

현상태에서 입출항관리 릴레이션에 BC정규화를 적용시키려면 목적→도크번호 를 따로 떼어내야한다.

2) BC정규화의 적용

항상 종속자를 떼어내는 것이고 결정자를 남겨둔다.
목적이 도크번호를 종속한다는것은 목적이 결정자가 되고 도크번호가 종속자가된다.
그러므로 도크번호를 떼어내야한다.
목적이 기본키이고 도크번호를 종속하는 릴레이션을 추가로 생성하고 기존 입출항관리 릴레이션에서 도크번호를 떼어낸다.
입출항관리 릴레이션의 기본키를 목적과 입항시간으로 두고 출항시간을 종속하도록한다.

 

2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해


비효율성을 줄여야 DBMS를 효율적으로 사용할 수 있다.

이번 강의에서는 수학과 논리학이 조금 들어갈 수 있다.

1. 좋은 릴레이션과 나쁜 릴레이션

1) 나쁜 릴레이션의 예


(그림 나쁜릴레이션의 예)

등급과 할인율에 부분적인 중복이 발생하고 있다. 중복레코드는 존재하지않지만 중복의 문제를 내포하고있다.

2) 잘못된 데이터베이스 모델링

2-1) 데이터의 중복

2-2) 갱신 이상
- 삽입 이상: 레코드 추가 시 불필요한 컬럼의 값이 없이는 추가하지 못 하는 경우
- 삭제 이상: 삭제 시 의도하지 않았던 다른 데이터가 삭제되는 경우
- 수정 이상: 중복 저장된 레코드를 수정 시 모두 반영이 안되어 데이터베이스의 일관성이 깨지는 경우

2-3) 갱신 이상 - 삽입 이상
위 삽입된 그림에서 등급 신규 할인율 3프로를 추가하려면 나머지 3개 레코드(고객번호,고객명,전화번호)에 불필요한 정보를 추가하지않는이상 새로운 로우를 추가하지 못한다.    

2-4) 갱신 이상 - 삭제 이상
일반이나 VIP 등급을 삭제하고자할 때 등급과 할인율을 제외한 나머지 레코드 또한 삭제하지 않는 한 삭제하지 못하는 문제

2-5) 갱신 이상 - 수정 이상
일부에게만 할인율을 15프로 적용해놓고 추후 다른것에도 15프로를 적용하려다 수정에 실패한다면 비일관성이 발생한다.

3) 좋은 릴레이션의 개념

컴퓨터 프로그래머적 관점에서의 모델링 (어떻게 데이터를 저장해야 하는가?)
릴레이션의 스키마가 얼마나 효율적으로 실세계를 반영하고 있는지 평가하는 방법을 강구해야한다.
※ 고려사항
1. 한 릴레이션 내의 컬럼과 컬럼사이의 관계 분석
2. 갱신이상이 발생하지 않는지 데이터의 종속과 중복 제거
3. 새로운 컬럼들이 데이터베이스에 추가될 때, 기존 컬럼과의 관계 수정을 최소화

2. 함수적 종속성과 카노니컬 커버

나쁜릴레이션을 좋은릴레이션으로 바꾸려면??

1) 함수적 종속성
릴레이션 인스턴스를 분석하여 속성들(컬럼과 컬럼) 간의 연관관계를 표현한 것
릴레이션의 효율성을 향상시켜 좋은 릴레이션으로 변환하는데 이용되는 중요한 개념

정의
임의의 릴레이션 스키마 R의 인스턴스 r(R)에 포함되는 서로 다른 두 레코드 t1,t2와 속성 집합 X와 Y에 대해,
t1[X] = t2[X] 일 때, t1[y] = t2[y] 이면 함수적 종속성 X → Y가 성립한다.

2) 함수적 종속성의 판별

등급과 전화번호의 종속성
등급 컬럼과 전화번호 컬럼을 비교하였을때 등급이 같은 VIP 레코드더라도 전화번호 컬럼의 값은 다르다.
(X 의 컬럼값이 같으면 Y의 컬럼값도 같아야 종속성이 발생한다.)
* 그러므로 등급은 전화번호와 종속할 수 없다.

등급과 할인율의 종속성
등급이 일반으로 같다면 할인율도 5프로로 같은가?
등급컬럼의 값이 다를때는 신경쓸 필요가 없다. 같을때의 조건만 생각하면 된다.
등급한 할인율을 함수적으로 종속한다.
{등급} → {할인율}

3) 함수적 종속성의 확장

함수적 종속성은 릴레이션의 효율성 여부에 중요한 판단기준이 되지만 릴레이션의 인스턴스만으로 잠재된 모든 함수적 종속성을 찾아내기 어려움

판별되지 않은 모든 함수적 종속성을 찾기 위해 추론 규칙을 사용하여 확장

클로저(closure)
- 판별된 함수적 종속성 집합으로부터 유추할 수 있는 모든 함수적 종속성 집합 F+

4) 함수적 종속성 추론 규칙

4-1) 암스트롱 공리(Armstrong's axiom)

설명
재귀성: X의 컬럼이 Y의 컬럼값을 전부 내포하고 있다면, X가 Y를 종속한다.
부가성: X가 Y의 종속하고있다면 XZ가 YZ를 종속한다.
이행성: X가 Y를 종속하고 Y가 Z를 종속하면 X가 Z를 종속한다.
분해: X가 YZ를 종속하면 X가 Y를 종속한다. X가 Z를 종속한다. X가 Y 와 Z 를 각각 종속한다.
합집합: X가 Y를 종속하고 X가 Z를 종속하면 X가 YZ를 종속한다.
의사 이행성: X가 Y를 종속하고 WY가 Z를 종속하면 Y가 X로 대치가 되도 그대로 성립한다.

공리를 사용해서 클로저를 구할 수 있다.

(암스트롱 공리는 이해용도이다. 암기용도가 아님)

4-2) 함수적 종속성의 판별

고객번호 → 고객명
=> 고객번호가 다 다르므로 고객번호가 고객명을 종속할 수 없다. 고객명이 같아야 할 필요조차 없다.
같은 값이 없으므로 종속한다고 할 수 있다.

(여기서 약간 말이 웃기게 들리는데 고객번호가 고객명을 종속한다. 즉, 같은값이 있을때 같은값이 있으면 종속한다 라는게 정의 였다. 고객번호가 같은 값이 없으므로 고객번호가 고객명을 종속한다 라고 할 수 있다. 나도 이해가 잘 안된다...)

고객명 → 등급
=> 고객명의 레코드가 모두 다른 컬럼값이므로 고객명이 등급을 종속한다.

{고객번호, 고객명} → 할인율
=>고객번호와 고객명이 같은게 전혀없다 그러므로 종속한다.

위 종속성은 모두 유효한 함수적 종속성이다.

암스트롱 공리 의사 이행성에 따라 고객번호가 등급을 종속한다라고 할 수 있다.(고객번호 → 등급)

고객번호 → {고객명, 등급, 할인율}

5) 커버와 카노니컬 커버

5-1) 커버(cover)
정의
함수적 종속성들의 집합 E가 있을 때, E가 F+(클로저)에 포함되면 E의 모든 함수적 종속성이 F로부터 추론 가능 상태
=> F가 E를 커버 (E에 있는 의미가 F에 다 있다 라는 뜻)

5-2) 카노니컬 커버(canonical cover)
정의
F의 카노니컬 커버, Fc는 F+(클로저)에 존재하는 모든 함수적 종속성을 커버할 수 있는 최소한의 함수적 종속성들로만 이루어진 집합
설명: 함수적 종속성 집합(클로저) 안에는 불필요한 함수적 종속성을 많이 내포하고있는데 다 버리고 최소한의 의미만 가지고있는 함수적 종속성으로만 적용하겠다 라는게 카노니컬 커버

함수적 종속성 추론 규칙으로 확장된 클로저에는 자명한 종속성중복된 종속성을 포함

자명한 중속성이란?
A → A (당연한것)

중복된 종속성이란?
X → AB, X → B (의미가 여러번 존재)

불필요한 함수적 종속성을 제거한 표준형으로 변환 후 정규화를 수행한다.

표준형 조건
- F의 모든 함수적 종속성의 오른편 속성은 반드시 1개
- F에서 X → A를 X의 진부분집합 Y에 대하여 Y → A로 교체했을 때, 그 집합이 F와 동등한 집합이 불가능
- F에서 어떤 함수적 종속성을 제거했을 때, 그 집합이 F와 동등한 집합이 불가능

5-3) 카노니컬 커버의 도출

릴레이션 R의 스키가 (X,Y,Z)라고 가정하자
F+(클로저) = { X → YZ, Y → Z, X → Y, XY → Z}
                           ▼▼▼
        F+' = {X → YZ, Y → Z, XY → Z}
1. X가 YZ를 종속하고 X가 Y를 종속한다 라면 X가 Y를 종속한다는 것을 제거해도 된다.
                           ▼▼▼
                F+'' = {X → YZ, Y → Z}
2. XY가 Z를 종속한다라는 이야기는 X가 Y를 종속하고 X를 종속한다는 의미가 X → YZ에 포함되어 있다. 그러므로 XY → Z 에서 XY를 XX로 바꿀 수 있으므로 XX → Z 는 X → Z와 동일하다. 그러므로 XY → Z는 제거가 가능하다.

 

기말고사에서는 교재에 있는 알고리즘은 나오지 않음. 카노니컬 커버의 도출하는 과정만 나온다.

 

 

부울함수의 보수

부울함수 F의 보수는 F바

부울함수 F = X바YZ바 + X바Y바Z 의 보수를 구하시오

F바 = (X바YZ바 + X바Y바Z)바 = (X바YZ바)바 ● (X바Y바Z)바
     = (X + Y바 + Z) ● (X + Y + Z바)

● = 도트 라고 읽는다

드모르간 정리를 이용
   - AND와 OR를 서로 바꾸고, 각 변수의 보수를 취한다.

1. 부울대수

2. 부울함수의 정규형 및 표준형(정규형을 간략하게 만든것)

1) 정규형 (입력변수 XYZ 인 3변수가 모두 포함되서 표현되는 것)

- 부울함수를 최소항의 합(sum of minterm) 이나 최대항의 곱(product of maxterm) 으로 표현한 것

1-1) 최소항과 최대항

2개의 논리변수 X, Y가 있을 때

최소항: 논리곱(AND)으로 표현되는 4개(XY, XY바, X바Y, X바Y바)의 항 (그 결과가 논리값 1)
최대항: 논리합(OR)으로 표현되는 X + Y, X바 + Y, X + Y바, X바 + Y바 의 네 가지 항 (그 결과가 논리값 0)

최소항과 최대항은 서로 쌍대 관계가 있다.

1-2) 최소항
        - n개의 논리변수로 구성된 부울함수에서 최소항이란
            * 각 변수의 문자 1개씩 모두 n개의 문자의 논리곱 항으로서
            * 그 결과가 논리값 1 인 경우
            * Mj로 표시 ex) 2개의 논리변수 X, Y의 경우에는 m0, m1, m2, m3로 4가지라고 표현으로 쓸 수 있다.

(그림 최소항 진리표)


 

1-3) 최대항
        - n개의 논리변수로 구성된 부울함수에서 최대항이란
            * 각 변수의 문자 1개씩 모두 n 개의 문자의 논리합 항으로서
            * 그 결과가 논리값 0 인 경우
            * Mj 로 표시

(그림 최대항 진리표)

 

1-4) 진리표를 부울함수로 표현 (최소항의 합 형태로)

(그림 진리표를 부울함수로 표현(최소항의 합))

최소항을 각각 모두 구한 뒤 OR 결합 (합) 으로 묶어주면 된다.

1-5) 진리표를 부울함수로 표현 (최대항의 곱 형태로)

(그림 진리표를 부울함수로 표현(최대항의 곱))

 


논리값이 0 이되는 최대항을 모두 구한 뒤 논리곱 연산자로 모두 결합해주면 된다.

2) 최소항의 합으로 부울함수 표현
    - 진리표에서 출력이 1 이 되는 최소항들을 논리합(OR)으로 묶으면 정규형 부울함수가 구해진다.
        진리표에서 출력이 1이 되는 항들만 골라서 OR(+로 묶는다)해주면 된다.
        진리표에서 출력 F가 1이 되기 위해서는 001, 100, 111 중에 하나이면 된다.
        001 = X바Y바Z , 100 = XY바Z바, 111 = XYZ
        따라서 F = X바Y바Z + XY바Z바 + XYZ

   - 부울함수 F = X + YZ바 를 최소항의 합으로 표현하시오

3) 최대항의 곱으로 부울함수 표현
    - 진리표에서 출력이 0 이 되는 최대항들을 논리곱(AND)으로 묶으면 정규형 부울함수가 구해진다.
        진리표에서 출력이 0이 되는 항들을 AND로 표현해 준다.
        진리표에서 출력 F가 0이 되기 위해서는 000, 010, 011, 101, 110 중에 하나이면 된다.
        따라서 F = (X + Y + Z)(X + Y바 + Z)(X + Y바 + Z바)(X바 + Y + Z바)(X바 + Y바 + Z)

- 부울함수 F = XY + X바Z를 최대항의 곱으로 표현하시오.

다른 표현으로 F = M0 · M2 · M4 · M5
F(X,Y,Z) = πM(0,2,4,5)

 

4) 표준형

- 부울함수를 표현하는 또 다른 형태(간소화된 형태)
- 각 항은 하나 또는 그 이상의 문자로 구성
- 곱의 합(sum of products) 합의 곱(product of sums)의 형태

정규형은 진리표에서 바로 얻을 수 있지만, 최소항 또는 최대항에 모든 변수가 포함되어 있어 부울함수의 간소화에는 부적합

따라서 정규형으로부터 간소화된 표준형으로 변환이 필요

4-1) 곱의 합

(표준형을 구하기위해서는 정규형을 먼저 구한 후 정규형을 간소화하면 표준형 부울함수가 도출된다.)


2018/05/15 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 5강 정규화 기초

2018/03/21 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 4강 데이터베이스 언어

2018/03/19 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 3강 관계형 모델

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 2강 데이터베이스 모델링

2018/03/16 - [방송통신대학교/컴퓨터과학과 [3학년 1학기]] - [데이터베이스] 1강 데이터베이스의 이해

1. 데이터베이스 언어의 개념

1) 데이터베이스 언어의 필요

DBMS 의 역할은 데이터의 관리와 데이터의 사용을 분리 시키는 역할을 한다.
DBMS에게 우리가 원하는것을 부탁하고 청원해야 우리가 원하는것을 얻을 수 있다.
DBMS에게 요청할때 사용하는 도구가 데이터베이스 언어이다.

2) SQL의 개요

SQL(Structured Query Language)은 관계대수에 기초하여 관계형 데이터베이스의 데이터를 관리하기 위해 설계된 언어
1986년 ANSI, 1987년 ISO에서 표준으로 제정

특징

    - 비절차적 언어, 필요한 데이터만 기술
    - 인간의 언어와 매우 유사하고 간단, 명료

3) SQL의 구분

3-1) 데이터 정의 언어 (DDL: Data Definition Language)
    - 데이터베이스 내의 객체를 생성 및 삭제하고 그 구조를 조작하는 명령어의 집합
    - 데이터가 준수해야 하는 제약조건을 기술
    - CREATE, ALTER, DROP 문 등

3-2) 데이터 조작 언어 (DML: Data Mainpulation Language)
    - DDL에 의해 정의된 테이블에 데이터를 조작하는 명령어의 집합
    - 데이터에 대한 CRUD(생성, 검색, 삭제, 수정) 명령을 포함
    - INSERT, UPDATE, DELETE, SELECT 문 등

4) 데이터 타입의 개념

컬럼이 가질 수 있는 값의 범위 즉 도메인을 결정
기본 데이터타입
    - 문자: CHAR(n), VARCHAR(n), CLOB [n은 길이를 의미함]
    - 숫자: INT, FLOAT, DOUBLE, DECIMAL(m,n) [DECIMAL은 정수(m), 소수(n)을 지정할 수 있음]
    - 날짜/시간: DATE, TIME, DATETIME, TIMESTAMP


2. 데이터의 정의

1) 테이블 생성
    새로운 2차원 형태의 테이블을 생성
    구문형식
        CREATE TABLE <테이블이름> ( <컬럼이름1> <데이터타입1> [제약조검1] ... ]

(그림 테이블 생성 질의의 사용)


2) 테이블 수정
    테이블에 새로운 컬럼을 추가, 삭제 및 수정하여 구조를 변경
    구문형식
        컬럼추가: ALTER TABLE <테이블이름> ADD <컬럼이름><데이터타입><제약조건>
        컬럼삭제: ALTER TABLE <테이블이름> DROP <컬럼이름>
        컬럼수정: ALTER TABLE <테이블이름> CHANGE <컬럼이름><데이터타입>
(그림 테이블 수정 질의의 사용1) 컬럼 추가


3) 테이블 삭제
    테이블을 데이터베이스에서 삭제
    구문형식
        DROP TABLE <테이블이름>


3. 데이터의 조작

1) 데이터 삽입

1-1) INSERT문
    - 테이블에 새로운 레코드를 삽입
    - 모든 속성 또는 부분 속성에 대한 속성값을 삽입
    구문형식
        INSERT INTO <테이블이름> VALUES ( v1, v2 ... Vn)
        INSERT INTO <테이블이름>(컬럼1, 컬럼2, ... 컬럼n) VALUES (V1, V2, ... Vn)
        VALUES 에 문자 입력시 값의 양쪽에 작은 따옴표를 붙여야하고 숫자의 경우 붙이지 않아도 된다.

2) 데이터 수정

2-1) UPDATE문
    - 조건을 만족하는 레코드의 특정 컬럼을 수정
    구문형식
        UPDATE <테이블이름> SET <컬럼1> = <값> [, <컬럼2> = <값2] , <컬럼3> = <값3>] <WHERE> 조건

3) 데이터 삭제

3-1) DELETE문
    - 조건을 만족하는 레코드를 삭제
    구문형식
        DELETE FROM <테이블이름> <WHERE> 조건

4) 데이터 검색

4-1) 기본 SELECT 질의
    - 테이블에서 조건을 만족하는 전체 또는 특정 레코드를 검색
    - 한 개 또는 그 이상의 테이블에서 데이터 검색 가능

JOIN문 사용
    SELECT 이름, 교수.학과명, 캠퍼스 FROM 교수, 학과 WHERE 교수.학과명 = 학과.학과명

4-2) 집계함수를 사용한 SELECT 질의
    - 복수개의 레코드에 존재하는 특정 컬럼값에 집계함수를 통해 다양한 계산을 수행할 수 있는 기능
    - 집계함수의 종류
        COUNT, SUM, AVG, MAX, MIN

4-3) 그룹질의
    - 특정 기준으로 레코드를 그룹화하고 각 레코드 그룹에 대해 집계함수를 적용하는 질의
    구문형식
        SELECT 질의 GROUP BY 컬럼
            - 주의: 출력되는 컬럼에 그룹의 기준과 집계 함수 이외의 어떠한 값도 포함될 수 없음
        SELECT 학과명, COUNT(과목명) AS 개설_강의수 FROM 과목 GROUP BY 학과명

4-4) 중첩질의
    - SELECT문 내부에서 독립적으로 실행 가능한 또 다른 SELECT문이 내포되어 있는 질의
    종류
        - FROM 절에서의 중첩 질의 활용
            FROM절에서의 결과집합을 SELECT에서 재검색
        - WHERE 절에서의 중첩 질의 활용
            WHERE절에서의 결과 집합을 활용하여 외부 질의에서 레코드의 출력 여부를 결정
            IN, NOT IN, EXISTS, NOT EXSISTS 사용

4-5) 뷰의 정의


    - 하나 이상의 원본테이블로부터 유도되어 일반 테이블처럼 조작 할 수 있는 가상 테이블
    - 물리적으로 저장되지 않음
구문형식
    CREATE VIEW 뷰이름 AS [질의]


1. 알고리즘 기본개념

1) 알고리즘 생성단계
    설계 > 표현/기술 > 정확성 검증 > 효율성 분석

2. 기본 자료구조

1) 알고리즘에서 자료구조는?

1-1) 자료구조
    - 컴퓨터 기억공간 내에 자료를 표현하고 조직화 하는 방법
    - 프로그램 = 자료구조 + 알고리즘
    - 자료구조에 대한 고려 없는 효율적인 알고리즘의 선택, 또는 알고리즘에 대한 고려 없는 효율적인 자료구조의 선택은 무의미

기본 자료구조 =

배열, 연결리스트 , 스택 , 큐 , 트리 , 그래프

선형 자료구조 : 배열 , 연결리스트 , 스택 , 큐
    ㄴ 데이터에 순서가 있다.
비선형 자료구조 : 트리, 그래프
    ㄴ 데이터에 순서가 없다.


2) 배열

정의: 같은 자료형을 갖는 여러 개의 데이터를 하나의 변수에 저장해놓고 각각의 원소에 접근할 때에는 인덱스 첨자를 사용해서 접근하는 자료구조

특징: 논리적인 순서와 물리적인 순서가 같다.

단점: 삽입과 삭제가 발생하게되면 순서를 유지하기 위해서 자리의 이동이 불가피하다.

장점: 배열은 인덱스를 가지고 해당 원소에 직접접근하는 특징을 가지고 있다. 배열은 데이터가 어디에 저장되어있든지 어디로든 접근의 시간이 동일하다.

3) 연결리스트

하나의 원소는 노드라고 한다. 데이터가 들어가는 곳을 필드라고 한다.
하나의 노드는 하나의 데이터필드와 하나의 링크필드로 표현된다.

특징: 논리적순서와 물리적인순서가 같지 않다. 링크필드의 의미는 다음 노드의 메모리 주소값을 저장하고 있다.

장점: 삽입과 삭제가 간단하다.

단점: 특정 데이터를 찾아갈때는 처음부터 찾아가야 한다는 단점이 있다.


2-1,3-1) 배열과 연결리스트의 종류

배열 : 1차원 2차원 다차원배열

연결리스트: 단일 연결, 단일 원형 연결, 이중 연결, 이중 원형 연결

주어진 문제에 따라 자료구조를 선택해야 함.

접근을 빨리 하고싶으면 배열을 쓰는게 좋고 데이터의 접근보다는 데이터의 삽입과 삭제가 많다면 연결리스트 사용이 효과적일 수 있다.


4) 스택

정의: LIFO (Last In First Out) 후입선출 입구와 출구가 하나밖에 없는 구조

top : 스택에 데이터가 어디까지 쌓여져 있는가를 알림.

push: 삽입하는 연산

pop: 삭제하는 연산

데이터가 삽입 삭제때마다 top이 가리키는 위치가 달라짐.

5) 큐

정의: FIFO (First In FIrst Out) 선입선출 입구와 출구가 정방향

front: 삭제와 관련

rear: 삽입과 관련

삽입이 이뤄질경우 rear가 가리키는 값이 바뀜.

삭제가 이뤄질경우 front가 가리키는 값이 바뀜.


6) 트리

정의: 하나 이상의 노드로 구성된 유한 집합 T

조건1: T의 원소 가운데 단 하나의 루트 노드가 존재
조건2: 루트 노드를 제외한 나머지 노드는 n개의 서로 분리된 부분집합 T1, T2, TN(서브트리) 으로 나누어진다

주요 용어:

차수

리프노드(단말노드)

부모,자식,형제 노드

조상(선조) 후손(자손)

레벨 높이 깊이

6-1) 이진트리

정의: 각 노드의 차수가 2이하인 순서 트리

특성:
    - 레발 i에서 최대 노드의 개수 = 2의 i승
    - 높이 h에서 이진 트리의 최대 노드의 개수 = 2의 h승 - 1
    - 단말 노드(자식이 없는 노드)의 수 n0 = 차수가 2인 노드의 수에 +1 하면 된다. 
        n0 = n2 + 1

종류:
    - 포화 이진트리 : 높이 h 까지 중간에 빈 자리 없이 꽉 차있는 트리
    - 전 이진트리: 각 노드의 차수 = 0 이거나 2. 전 노드의 차수가 1인 경우가 없는 트리
    - 완전 이진트리: 노드의 레벨의 마지막 레벨 전까지가 포화 이진트리이고 마지막 레벨의 노드들이 왼쪽에서부터 마지막까지 중간에 빠짐없이 채워져있는 트리
    - 균형 이진트리: 왼쪽 서브트리와 오른쪽 서브트리의 노드레벨 차이가 1 이내인 트리

구현:
      * 배열을 이용하는 방법

* 연결리스트를 이용하는 방법

7) 그래프

정의: 그래프 G=(V,E)
    V: 정점의 집합, E: 간선의 집합

간선이 방향성이 있느냐에 따라 무방향과 방향그래프로 나뉜다.

각 정점을 잇는 선이 간선이다.

간선들에 값을 줄 수 있다. 비용이라 칭함. 간선들에 비용이 있는 그래프를 가중그래프(가중치그래프)라 한다.

7-1) 무방향 그래프

간선의 표현: (1,2) = (2,1)

그래프 표현: V(G) = { 1,2,3,4,5 } , E(G) = { (1,2),(1,3),(2,4),(3,5) }

7-2) 방향 그래프

간선의 표현: <1,2>


주요 용어:

인접,부수, 부분그래프, 경로, 경로의 길이, 차수(방향그래프 > 진입 차수 , 진출 차수), 단순 경로, 사이클, 루프, 연결, 강력 연결

구현

1) 인접 행렬

2) 인접 리스트

© 2015 Jundol in 음 아마 비둘기보단 똑똑할꺼야
Designed by DH / Powered by Tistory
78 / 52 / 96,877