공부 이야기

경영정보시각화능력평가_BI

창이 2024. 5. 16.
728x90
반응형

결측값 

결측값 유형

완전 무작위 결측 : 결측치가 다른 변수들과 관련 없이 완전히 무작위로 발생한 경우

무작위 결측 : 결측치가 다른 관측된 변수들과 관련이 있을 때

비무작위 결측 : 결측치가 누락된 값 자체와 관련이 있을 때

결측값 처리

제거 : 행, 열 제거

단순 대체 : 평균, 중앙값, 최빈값 대체 / 고정값 대체 

예측 모델 사용 대체 : 회귀 대체 / k-최근접 

다중 대체 : 결측값을 여러 번 대체하여 여러 개 완전한 데이터 세트를 생성하고 이들 결과를 종합하여 최종 결론 도출 / 결측값 불확실성 고려 및 분석 신뢰도 향상

무시하기 : 결측값 그대로 두고 / 결측값이 분석 결과에 큰 영향을 미치지 않거나 결측값 매우 적을 때 고려

중복값 제거

중복값 식별 - 제거 - 주의 사항 

불일치 데이터 처리

데이터 표준화 / 데이터 맵핑 / 데이터 변경 / 데이터 조정 

이상값 처리

이상값 식별, 제거, 대체, 변환, 분리, 통계적조정 

데이터 변환

정규화

최대-최소 정규화 : 데이터를 0과 1 사이의 값으로 변환. 모든 데이터 포인트가 동일한 범위 내에 존재 

표준화 : 평균이 0이고 표준 편차가 1이 되도록 데이터 변환. (x-평균)/표준편차

소수점 정규화 : 데이터값을 소수점 이동을 통해 정규화. 

로그 변환

- 데이터 분포가 왜곡된 경우 데이터의 분포를 대칭적으로 만들어 극단적인 값의 영향을 줄이기 위해 데이터에 로그 함수를 취함

- 이상값 영향을 줄여주고 데이터 분포를 정규 분포에 가깝도록 만들어준다.

범주화

- 연속적인 데이터를 범주형 데이터로 변환

범주화 목적

- 분석 용이성 : 명확하고 이해하기 쉬운 범주로 나누어 분석 용이하게 한다

- 정보 요약 : 대량의 데이터를 간략하고 핵심적인 정보로 요약한다

- 패턴 인식 : 범주화를 통해 데이터 내의 패턴이나 경향을 더 쉽게 식별

범주화 기법 

등간격 구간화 : 데이터 범위를 동일한 크기의 구간으로 나눈다. 

등빈도 구간화 : 각 구간에 거의 동일한 수의 데이터 포인트가 오도록 한다. 

클러스터 기반 구간화 : 데이터를 클러스터링하고 각 클러스터를 별도의 구간으로 간주한다. 데이터의 내재된 구조를 기반으로 구간을 정하는 것

결정 트리 기반 구간화 : 결정 트리 알고리즘을 사용하여 데이터를 이산화한다. 데이터의 순도를 최대화하는 방향으로 구간을 정한다. 

범주형 데이터 변환

원-핫 인코딩 : 범주형 데이터를 0과 1의 이진값으로 변환

레이블인코딩 : 범주형 데이터의 각 범주에 고유한 정수값 할당 

데이터 형식 변환

형식변환 : 데이터 값을 다른 형식으로 변환하거나 구조 변경 

구조변환 : 데이터 구조 변경 ( xml -> json) 

데이터 분리

목적

모델 훈련, 검증, 테스트

분리 방법

홀드아웃 방법

- 데이터 집합을 훈련 데이터, 검증 데이터 및 테스트 데이터로 나눈다.

- 일반적으로 전체 데이터의 일정 비율을 훈련, 검증 및 테스트 데이터로 나눈다.

ex) 전체 데이터 70%를 훈련 / 15% 검증 / 나머지 15% 테스트 데이터로

교차 검증

- 목적 : 과적합 방지 / 모델 성능 평가 / 하이퍼파라미터 조정 

- k-겹 교차 검증 : 데이터를 k개의 동일한 크기의 부분으로 나눔. 모델은 k번 훈련되고 평가되며 각 반복의 성능을 평균내어 모델 성능 평가

- 계층적 k-겹 교차 검증 : 각 폴드가 전체 데이터 세트의 클래스 분포를 잘 반영 / 분류 문제 유용, 각 클래스 비율 유지

- Leave-One-Out : 데이터의 각 샘플을 한 번에 하나씩 검증 세트로 사용 / 데이터 세트의 크기가 N이라면 모델은 N번 훈련되고 평가

- 교차 검증의 장점 : 일반화 성능 평가 / 데이터 활용 최대화 / 신뢰도 높은 성능 평가

- 교차 검증 단점 : 계산 비용 / 데이터 분할의 중요성

계층 분리

- 목적 : 대표성 유지 / 편향 감소 / 일반화 능력 향상

- 방법 : 데이터 세트 분할, 각 계층 샘플링, 훈련 및 테스트 세트 조합

- 장점 : 향상된 대표성 / 통계적 효율성, 데이터 불균형 해소 

- 단점 : 클래스 정의 어려움, 샘플링 과정 복잡성 

시계열 데이터 분리

- 특징 : 시간 의존성 / 순차적 분리

- 분리 방법 : 단순 시간 기반 분리, 롤링 윈도우 분리, 확장 윈도우 분리 

- 주의 : 데이터 시간적 범위, 계절성과 추세, 데이터 누수 방지

* 롤링 위도우 분리 : 고정된 크기의 윈도우를 설정하고 이 윈도우를 시계열 데이터 위에서 훈련 세트로, 윈도우 바로 다음의 데이터는 테스트 세트로 사용

* 확장 윈도우 분리 :  초기 윈도우 크기를 설정한 후 반복할 때마다 윈도우 크기를 확정하는 것으로 이 방법은 시간이 지날 수록 더 많은 데이터를 훈련에 사용할 수 있음.

데이터결합

수직 연결 : 동일 열을 가지고 있는 데이터 세트 연결에 사용

수평 연결 : 다른 열을 가지고 있는 데이터 세트를 하나의 세트로 결합할 때 사용

내부 병합 : 공통 존재 키를 기준으로 병합 

외부 병합 : 하나의 데이터 세트에만 존재하는 키도 포함하여 병합 

데이터 적재

일괄 적재

- 주기적이고 일괄적으로 데이터 로드, 대량 데이터 한 번에 처리하며 주로 일일 또는 주간 배치 작업 수행

- 주로 대량의 데이터 처리, 데이터 처리 주기 정의하고 배치 작업을 예약하며 데이터 적재

실시간 적재

- 데이터 발생할 때마다 실시간으로 처리되고 적재되는 방식으로 데이터의 실시간 분석과 모니터링에 사용

- 데이터 스트림을 지속적으로 수집하고 변환 및 적재 프로세스 통해 실시간으로 데이터를 저장소에 전달한다.

병렬적재

- 데이터 동시에 여러 부분으로 분할하여 병렬로 처리하는 방법

- 데이터 처리 성능을 향상시키고 대용량 데이터를 효율적으로 적재

중분적재

- 이전에 적재한 데이터와 새로운 데이터를 비교하여 변경된 부분만 적재하는 방법

- 데이터 적재 작업의 속도를 향상하고 중복 데이터를 방지

데이터 전송 프로토콜

- 데이터 적재에는 데이터를 전송하는 다양한 프로토콜과 방법 사용

- FTP, SFTP, HTTP, HTTPS, SCP 등 데이터 전송하고 적재

ETL 프로세스

- 데이터 추출, 변환, 적재 세 단계 구성

- 데이터 원하는 형식으로 변환하고 적재하는 데 사용되며 데이터 웨어하우스와 데이터레이크에서 널리 활용

데이터 백업 방법

전체 백업

- 모든 데이터 한 번에 백업

- 데이터 양 적을 때 효과적, 대규모 DB 또는 파일 시스템의 경우 시간과 저장 공간 많이 소요

중분 백업

- 마지막 전체 백업 이후 변경된 데이터만을 백업하는 방법

- 저장 공간 절약하고 백업 시간 단축

차등 백업

- 마지막 전체 백업 이후 변경된 데이터만을 백업

- 차이점은 변경된 데이터만을 백업하는 것이 아니라 마지막 전체 백업 이후 변경된 모든 데이터를 백업하는 것

순차적 백업

- 일련의 백업 세트를 생성하여 장기적으로 보존하는 방법

- 보관 기간별로 일일, 주간, 월간 백업 세트 만든다.

비식별화 기술

데이터 마스킹 : 실제 데이터 값 가려서 익명화

익명화 : 데이터에서 개인 식별할 수 있는 모든 정보 제거

가명화 : 식별 가능한 데이터 가명으로 대체 / 실제 이름을 코드나 무작위 문자열로 대체하여 개인 직접 식별할 수 없게 한다

데이터 집계 : 개별적인 데이터를 그룹화하여 개인정보 식별 가능성을 낮춘다

데이터 임의화 : 데이터에 임의성을 추가하여 개인을 식별할 수 없도록 한다 

K-익명성 : 개인정보 포함하는 레코드가 데이터 세트 내에서 최소 K번 이상 / 각 레코드가 적어도 K명의 개인과 연관될 수 있도록 데이터 변조

비즈니스 인텔리전스 기술 

데이터 수집부터 분석, 시각화에 이르기까지 다양한 단계와 도구

데이터 웨어하우징

- 조직 다양한 출처로부터 수집된 데이터를 통합, 저장, 관리 시스템

- 데이터 웨어하우징 통해 데이터가 일관된 형식으로 저장되어 효율적인 분석과 리포팅 가능

- ETL, 데이터 정제 및 통합 기술 포함

OLAP 

- 복잡한 분석 쿼리 빠르게 처리 시스템

- 다차원 데이터 모델 사용하여 데이터 분석 기능 제공

- 피벗 테이블, 다차원 데이터 큐브, 복합 쿼리 등 기술 응용

데이터 마이닝

- 대규모 데이터 세트에서 패턴, 연관성, 추세 발견 과정

- 데이터 마이닝 기법은 분류, 군집화, 연관 규칙 학습, 예측 모델링

- R, Python, SAS, SPSS 등 분석 도구가 사용

데이터 시각화

- 데이터 분석 결과를 시각적으로 표현하고 탐색하는 기술

- 인터랙티브 대시보드, 그래픽, 차트 등 통해 데이터 쉽게 이해

- 태블로, 파워 BI 등

비즈니스 성과 관리(BPM) 

- 조직 성과 측정하고 관리하는 접근 방식

- KPI, 스코어 카드, 성과 대시보드 등을 사용하여 조직의 목표 달성 정도를 평가 한다.

예측 분석 및 머신러닝

- 과거 데이터 기반으로 미래 이벤트나 결과 예측 기술

- 회귀분석, 분류 모델, 시계열 분석, 인공 신경망 

모바일 비즈니스 인텔리전스

- 스마트폰이나 태블릿과 같은 모바일 장치를 통해 BI 솔루션에 접근하는 기술

셀프 서비스 비즈니스 인텔리전스

- 최종 사용자가 IT 부서 지원 없이 독립적으로 데이터 분석을 수행할 수 있는 도구

- 사용자 친화적인 인터페이스와 드래그 앤드 드롭 기능 사용하여 편리성 제공

클라우드 기반 

 

728x90
반응형

댓글

추천 글