공부 이야기

경영정보시각화능력평가_데이터

창이 2024. 5. 15.

728x90

데이터

- 현실 세계에서 관찰하거나 측정하여 수집한 사실이나 값이다.

- 가공되지 않은 원시 정보로 정보와 지식을 생성할 수 있는 잠재력이 있지만 그 자체는 맥락과 의미가 부여되지 않은 객관적 사실이다.

정보

- 데이터를 가공하여 데이터의 맥락, 관계, 구조 등 의미를 부여한 결과물

- 데이터를 연결, 분석, 요약 또는 해석하여 생성된다.

- 의사결정에 활용될 수 있으며 유용한 정보는 정확하고 시간 상으로 적절하며 의미 있는 정보

EX) 매출 분석, 영화 평점 등

지식

- 정보의 해석과 통합을 통해 얻은 현실세계의 이해로 추세, 관계, 패턴 등 포함

- 특정 주제에 대한 이해와 전문 지식을 의미하며 정보를 가치 있는 맥락으로 배치하고 해석하면서 얻어진다.

- 문제 해결, 의사 결정, 예측 및 창의적인 아이디어를 발전시키는 데 필수적이다.

EX) 매출의 월별 추세, 광고와 매출의 상관관계 , 주식 시장 예측 등

통찰

- 지식과 경험을 기반으로 문제나 상황을 깊이 이해하고 새로운 관점을 얻는 것을 의미하며 통찰을 '지혜'라고 표현

- 데이터와 정보의 분석 결과로부터 도출되며 효과적인 의사결정과 비즈니스 전략 수립의 기반을 제공한다.

- 예상치 못한 패턴, 혁신젃인 아이디어, 새로운 가능성 등 발견

EX) 고개 주문의 새로운 패턴 인식, 환경 상태의 이상 징후 탐지 등

구조에 따른 데이터 분류

정형 데이터

- 표 형태 고정된 형식과 구조로 되어 있는 데이터, 일관적으로 저장되고 처리될 수 있도록 한다

- 정형 데이터 각 열은 데이터 유형과 이름을 갖고 각 행은 데이터의 개별 항목을 나타낸다.

반정형 데이터

- 구조가 완전히 정형화되지는 않았지만, 일부 구조화된 요소가 있는 데이터 형태

- API를 통한 웹 서비스 및 애플리케이션 간의 데이터 교환에 널리 사용

- XML(태그와 속성), JSON(키-값 쌍), HTML, YAML, 로그, 소셜 미디어 데이터, 이메일 등

비정형 데이터

- 텍스트, 이미지, 오디오 등

- 자연어 처리나 이미지 인식과 같은 고급 기술 필요

범주형 데이터의 분석

- 빈도 분석 : 범주형 데이터의 각 범주가 데이터에서 얼마나 자주 발생하는 지를 확인하여 데이터의 분포 이해

- 카이제곱 분석 : 범주형 데이터 간 종속성 또는 독립성 확인 위해 사용

- 데이터 시각화

- 순위 분석 : 순서형 데이터 범주 간 순위 및 상대적 차이 파악과 비교 분석

- 로지스틱 회귀 분석 : 범주형의 목표 변수를 예측하기 위해 사용되는 회귀분석

수치형 데이터의 분석

- 기술 통계 : 평균, 중앙값, 최빈값 등을 사용하여 데이터의 중심 경향을 파악할 수 있고 표준 편차, 분삭, 범위, 사분위 수 등을 이용하여 데이터의 퍼짐 정도 분석

- 추론 통계 : 데이터를 바탕으로 이론적 가설 검증과 다양한 통계적 검정을 수행. 변수 간의 상관관계와 영향 분석

- 예측 분석 : 회귀분석, 다중 회귀 등 회귀모델을 사용하여 수치형 데이터 예측할 수 있고 시계열 분석을 이용하여 미래 예측

- 데이터 시각화 : 막대, 산점도, 히스토그램 등

- 머신러닝 : 지도학습과 비지도 학습을 사용하여 데이터 분류하거나 유사한 데이터를 군집화 하는 것이 가능

데이터 수명 주기

데이터 수집 -> 저장 -> 처리 -> 분석 -> 보관 -> 폐기

빅데이터 특성

규모, 속도, 다양성, 진실성, 가치

통계적 유의성이란, 통계적 검정을 통해 얻은 결과가 우연에 의한 것이 아니라 실제 의미 있는 차이나 관계를 가리키는지 판단하는 개념으로 통계적 유의성을 검증하여 데이터의 결과가 우연인지 아닌지 판단.

데이터 해석 오류

표본현향

- 표본을 추출하는 과정에서 발생하는 편향으로 표본이 모집단을 대표하지 못할 때 발생

- 표본 현황이 발생하는 경우 잘못된 결론 도출이나 데이터 분석 결과 일반화가 힘듬

측정오류

- 측정 과정에서 발생하는 오류로 실제의 값과 측정된 값 사이의 차이

- 측정 오류가 발생하면 데이터 신뢰도와 정확도에 영향을 미친다

거짓 인과관계

- 두 변수 사이에 상관관계가 있을 때 직접적인 인과관계가 없음에도 불구하고 인과관계가 있는 것처럼 잘못 해석하는 상황

- 상관 관계가 인과관계는 아님

이상치 무시

일반화 오류

- 하나의 데이터 집합을 기반으로 일반적인 결론을 내리는 것은 위험할 수 있으며 다른 상황에서는 다른 결과가 나올 수 있다.

확증 편향 : 분석가가 자신의 믿음이나 가설을 뒷받침하는 데이터만을 선택적으로 해석하는 경우로 객관적이지 않은 데이터 해석으로 오류 유발

과대 적합 : 모델이 훈련 데이터에 지나치게 적합하여 새로운 데이터 예측 성능이 떨어지는 현상, 모델이 데이터의 노이즈가지 학습할 때 발생

과소 적합 : 너무 단순한 모델 사용하거나 충분한 훈련이 이루어지지 않았을 때 발생. 모델이 데이터의 중요한 패턴을 학습하지 못해 저하

단일 변수 오류 : 복잡한 문제나 현상을 한 가지 변수나 요인으로만 설명하려는 경향은 여러 변수와 그 상호작용을 고려하지 않아서 오해의 소지가 있을 수 있음.

심슨의 역설 : 세부 집단별로는 추세나 경향성이 나타나지만, 전체적으로 추세가 사라지거나 반대의 경향성이 나타나는 현상

이산 확률 분포 종류 > 이항분포, 포아송 분포, 기하 분포, 다항 분포, 이산 균일 분포

연속 확률 분포 종류 > 정규 분포, 연속 균일 분포, 지수 분포, 카이제곱 분포, 스튜던트 T 분포

데이터 마이닝 분석 기술 > 연관 분석, 군집 분석, 분류 분석, 회귀 예측

파일 시스템 계층 구조

디렉터리

- 폴더라고도 하며 파일을 체계적으로 관리하기 위한 논리적인 단위.

- 파일이나 다른 디렉터리 포함할 수 있는 컨테이너 역할 수행, 파일 조직화하기 위한 계층 구조 제공

- 고유 식별자인 디렉터리 경로 가지며 사용자는 디렉터리 통해 파일에 쉽게 접근 가능

루트 디렉토리

- 파일 시스템 가장 상위 디렉토리

- 다른 모든 디렉터리와 파일의 부모이자 시스템에 관한 접근점

하위 디렉터리

- 루트 디렉터리 아래에는 하나 이상의 디렉터리가 있을 수 있으며 하위 디렉터리는 다시 하위 디렉터리를 포함할 수 있음

- 하위 디렉터리들은 계층적으로 구성되며 디렉터리 생성하여 파일을 그룹화하고 조직화할 수 있음

파일

- 사용자가 생성하는 데이터 단위

- 데이터의 실제 내용을 저장하는 논리적 단위로 블록들의 집합으로 구성

- 디렉터리 내에 저장되며 해당 디렉터리의 구조와 파일명을 사용하여 파일을 검색하고 관리할 수 있다

- 파일에 대한 메타데이터를 포함

- 파일 시스템은 파일의 데이터를 여러 개의 블록에 분산하여 저장하고 파일의 메타데이터는 특정 블록에 저장되거나 파일 시스템 다른 영역 저장

블록

- 파일 시스템의 가장 낮은 게층으로, 일정한 크기의 데이터 조각. 파일 시스템 저장.

- 각 블록은 고유한 주소를 가지며 파일시스템은 이러한 블록들을 조직화하여 파일이나 디렉터리에 할당

경로

- 파일 시스템에서 각 파일 및 디렉터리는 고유한 경로.

- 절대 경로는 루트 디렉터리에서부터 시작하여 해당 파일이나 디렉터리가지의 전체 경로 나타냄

- 상대 경로는 현재 작업 디렉터리에서부터 시작하여 해당 파일이나 디렉터리까지의 전체 경로를 나타낸다.

로컬 파일 시스템

- NTFS : MS 윈도우에서 사용되는 파일 시스템

- Ext4 : 리눅스

- APFS : 애플

- FAT32 : 이동식 저장 장치에 사용되는 파일 시스템

파일 시스템단점 : 데이터 중복과 불일치, 데이터 무결성 문제, 보안 문제, 동시성 제어 부족, 백업 복구 어려움, 데이터 검색 비효율, 확장성 문제

데이터베이스 관리시스템 기능

데이터 저장 및 관리

- 데이터는 테이블 레코드, 열의 형태로 구조화되어 저장

- 삽입, 삭제, 수정 등 수행

데이터 무결성 유지

- 데이터의 정확성과 일관성 유지

- 스키마 정의, 설정

- 스키마는 데이터 구조, 조직, 제약 조건 정의하는 개념

데이터 검색 및 질의

- SQL 또는 다른 쿼리 언어로 DB에서 데이터 검색하고 원하는 정보 추출

- 효율적 검색 및 필터링 기능

데이터 보안

데이터 무결성 검사

- ACID 원칙 준수

원자성, 일관성, 고립성, 지속성

동시성 제어

- 다수 사용자가 동시에 데이터에 접근하여 작업할 수 있도록 지원

- 동시성 제어 통해 데이터충돌 방지 및 일관성 유지

백업 및 복구

데이터 모델링

- DB 설계하고 모델링하는 기능 제공

- 데이터 구조와 관계 정의, 테이블과 인덱스 그리고 관계 생성

성능 최적화

RDBMS(관계형 데이터베이스 관리 시스템)

테이블, 스키마, 데이터 유형, 기본키, 외래키, SQL, 데이터무결성, 트랜잭션

NoSQL 주요 유형

문서 지향 데이터베이스

- 데이터를 JSON, XML 같은 문서 형식으로 저장

- 문서마다 다른 구조 가질 수 있으며 유연성이 높다.

EX) MongoDB, CouchDB

키-값 저장소

- 데이터를 키와 값의 쌍으로 저장

- 높은 성능과 확장성 제공, 간단한 데이터 모델

열 기반 저장소

- 데이터를 열의 집합으로 저장하여 대용량 데이터 처리와 분석에 유리

- 시계열 데이터, 분석 데이터 적합

그래프 데이터베이스

- 데이터를 노드, 엣지, 속성으로 모델링

- 복잡한 관계와 네트워크를 효율적으로 처리

NoSQL 데이터베이스 특징

유연한스키마, 수평적 확장성, 빠른 성능, 고가용성

DDBMS(분산 데이터베이스 관리 시스템)

- 여러 위치에 분산된 컴퓨터 네트워크에 데이터베이스를 저장하고 관리하는 시스템

- 각기 다른 지리적 위치에 있는 여러 DB 서버가 하나의 통합된 DB 시스템처럼 작동하게 만들어 준다

- 네트워크 상의 여러 DB에 분산된 데이터에 접근하고 조작할 수 있다.

객체 지향 데이터베이스 관리 시스템

- 객체 기반 데이터 모델링 / 데이터 구조 표현 / 상속 / 직렬화 및 지속성 / 쿼리 언어 등

인메모리 데이터베이스 관리 시스템

- 데이터 저장 위치 / 성능 / 실시간 처리 / 단순 구조 / 데이터 복구 및 지속성

스키마

스키마 정의

- DB의 논리적 구조를 나타내는 메타데이터 집합

- 테이블, 열, 데이터 유형, 관계, 제약 조건 등 DB 구조적 특성 정의

- 데이터 구조와 제약 조건을 분명하고 자세히 하는 것으로 개체, 속성, 관계의 정의와 그들이 유지해야 할 제약 조건 포함

- 데이터베이서 관리의 관점에서 스키마는 외부 단계, 개념 단계, 내부 단게 구분.

스키마 구성요소

- 테이블 : 데이터 저장하는 기본 단위, 행과 열 구성

- 열 : 테이블 내 각 열은 특정 데이터의 유형과 속성을 가진 데이터 저장

- 행 : 각 행은 테이블 내 개별 데이터 레코드

- 데이터 유형 : 각 열 데이터 유형 정의

- 관계 : 테이블 간의 관계 정의

- 제약 조건 : 데이터 무결성을 보장하기 위한 규칙 정의 (기본키, 외래키)

스키마 종류

외부 스키마

- DB 논리적 구조로, DB 사용자가 인식하는 DB 구조

- DB 논리적 설계와 구조화 방법 정의, 물리적 저장 세부 사항은 포함하지 않는다.

- 관계형 데이터베이스에서 테이블 구조, 열과 데이터 유형, 테이블 간의 관계 등 포함

개념 스키마

- DB 전체의 추상적 모델로, DB 전반적 구조 설명

- 전채 DB 구조와 정책 정의

- 응용 프로그램과 사용자 그룹을 아우르는 DB 전체적인 뷰 제공

- 개념적 스키마는 일반적으로 DB 설계 초기 단계 정의

- 개체 관계 모델(ERM), 개체 - 관계 다이어그램(ERD) 등 포함

내부 스키마

- DB 물리적 저장 형태로, 데이터가 실제 저장되는 방식 설명

- 저장 파일 레코드 배열, 인덱스 구조, 액세스 경로 등 포함

- DB 관리 시스템의 성능과 저장 효율성에 영향을 미치고 DB 관리자에 의해 관리됨

- DB 파일저장 방식, 데이터 압축 및 인코딩 방식, 인덱스 물리적 구현 등 포함

데이터 언어

데이터 정의어 (DDL)

- DB 스키마 정의하고 관리하는 데 사용

- CREATE, ALTER, DROP 등

데이터 조작어 (DML)

- 데이터 검색, 삽입, 수정, 삭제에 사용

- SELECT, INSERT, UPDATE, DELETE

데이터 제어어 (DCL)

- DB에 대한 접근 권한 관리에 사용

- GRANT, REVOKE

키와 변수의 개념

키

DB에서 키는 테이블 내 특정 행을 식별하거나 테이블 간 관계 정립에 사용되는 개념. 여러 종류의 키가 있으며 각각은 DB 내에서 고유의 다른 역할을 한다.

기본키

- 테이블 내 각 행을 고유하게 식별하는 열 또는 열의 조합

- 중복된 값 가질 수 없고 NULL 값 포함할 수 없다.

- 데이터 무결성 유지

외래키

- 다른 테이블의 기본키를 참조하는 열이다.

- 두 테이블 간의 관계를 정립하고 참조 무결성 유지에 사용

- 외래키는 참조하는 기본키의 값과 일치해야 하며 그렇지 않으면 데이터의 무결성 꺠질 수 있음

후보키

- 테이블 내 행 고유하게 식별할 수 있는 열 또는 열 조합

- 중복될 수 없고 널값 포함 X

- 후보키는 테이블에서 기본키로 사용될 수 있는 모든 가능한 키이다.

대체키

- 후보키 중 기본키로 선택되지 않은 키

- 기본키로 사용되지 않지만 여전히 행을 고유하게 식별할 수 있는 열

복합키

- 두 개 이상의 열을 결합하여 테이블 내 행 고유하게 식별하는 키

- 단일 열로는 행을 고유하게 식별할 수 없을 때 사용

슈퍼키

- 테이블 내 행을 고유하게 식별할 수 있는 모든 가능한 열의 조합

- 복합키는 각 행을 식별하는 데 필요한 최소의 열만 포함하지만 슈퍼키는 필요 이상의 열을 포함할 수 있다

변수

변수 유형

양적 변수

- 수치적 값, 축정이나 계산을 통해 얻을 수 있는 변수

- 연속 변수 : 어떤 범위 내에서 어떤 값이든 취할 수 있는 변수로 온도, 체중, 소득 등 해당

- 이산 변수 : 셀 수 있는 별개의 값들을 가지는 변수로, 자녀의 수, 고객 방문 회수 등이 해당

질적 변수

- 특정 범주나 그룹으로 분류되는 변수

- 명목 변수 : 데이터 서로 구별하는 데 사용되는 변수로 순서나 등급이 없는 성별, 혈액형, 국적 등 해당

- 순서 변수 : 범주 간 순서가 있는 변수로, 교육 수준이나 서비스 만족도 등

독립 변수

- 종속 변수에 영향을 주는 변수로, 원인이 되는 변수

종속 변수

- 독립 변수에 의해 영향을 받는 변수로 결과 혹은 응답을 나타내는 변수

- 다른 변수들의 변화에 따라 값이 변함

- 어떤 제품의 판매량을 예측한다면 판매량은 종속 변수가 되며 이에 영향을 미치는 광고 비용, 가격을 독립 변수로 사용할 수 있음

파생 변수

- 기존 변수로부터 새로 생성된 변수

- 원래 데이터에서 추가적인 통찰을 제공

- 날짜에서 요일을 추출, 나이로부터 연령대를 그룹화하는 것 등이 해당

인덱스 변수

- 여러 변수 결합하여 만든 복합적인 단일 변수

- 사회경제적 지수, 건강 지수 등 해당

요약 변수

- 데이터의 특성을 요약하여 표현한 변수

- 여러 개의 관측치를 대표하는 값으로 축약된 형태를 가지며 데이터의 집계나 통계 계산에 사용

- 학생들의 시험 점수로부터 평균, 중앙값, 최댓값, 최솟값 등 계산하여 요약 변수 생성하는 경우 해당

시계열 변수

- 시간에 따라 변화하는 값을 갖는 변수

- 일정 간격으로 측정된거나 관찰되는 시간 데이터 기반

- 시간 경과에 따른 패턴, 추세, 계절성 등 파악하거나 예측하는 데 사용

DB 설계

개념적 설계

요구사항 분석 -> 개체 식별 -> 속성 정의 -> 관계 설정 -> ER 다이어그램 작성

논리적 설계

데이터 모델 선정 -> 테이블 정의 -> 속성(필드) 정의 -> 관계 설정 -> 정규화 -> 스키마 작성

물리적 설계

파일 저장 구조 결정 -> 인덱싱 전략 -> 파티셔닝 및 클러스터링 -> DB 서버 구성 -> 데이터 보안 및 백업 전략 -> 네트워크 구성