[ADSP] 데이터분석 준전문가 <1과목> 데이터 이해 - 01장 데이터의 이해

728x90

01. 데이터와 정보

1. 데이터의 정의

(1) 데이터의 정의

1) 데이터의 정의

데이터 : 있는 그대로의 사실. 가공되지 않은 자료, 객관적인 사실 (수학 80점, 영어 100점)
정보 : 데이터로부터 얻은 것. 가공된 자료 (수학, 영어 점수의 평균은 90점)

2) 데이터의 특성 ★

존재적 특성 : '있는 그대로의 객관적 사실'을 나타내는 것
당위적 특성 : '추론, 예측, 전망, 추정'을 위한 정보의 근거가 될 수 있음

(2) 데이터의 유형

1) 정성적 데이터와 정량적 데이터 ★

정성적 데이터 : 언어, 문자 등 집합으로 표현할 수 없는 기준이 명확하지 않은 데이터 (문자 텍스트, 언어, 문자 등)
정량적 데이터 : 수치, 도형, 기호 등 집합으로 표현할 수 있는 기준이 명확한 데이터 (30cm, 정육면체, 3시 방향 등)

2) 정형 데이터와 비정형 데이터, 반정형 데이터 ★

	정형 데이터	비정형 데이터	반정형 데이터
고정된 틀을 가지는가?	O	X	O
연산이 가능한가?	O	X	X
어디에 저장하는가?	관계형 데이터베이스(DB)	NoSQL(Not only SQL)	파일 형태
수집과 관리가 용이한가?	O	X	△
예시	CSV, 엑셀 스프레드시트	소셜 데이터, 댓글, 영상, 음성	XML, JSON, 센서 데이터

* 반정형 데이터는 가공을 거쳐 정형 데이터로 변환이 가능하다.

3) 암묵지와 형식지 ★★

암묵지(Tacit Knowledge) : 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식. 머릿속에 존재하는 지식으로, 언어나 문자를 통해 나타나지 않는 지식이며 시행착오와 같은 경험을 통해 체득하는 경우가 많음
형식지(Explicit Knowledge) : 암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식. 교과서, 데이터베이스, 신문, 비디오와 같이 어떤 형태로든 형상화된 지식을 말함

[암묵지와 형식지의 상호작용] ★★

암묵지
- 공통화(Socialization) : 개인에게 내면화된 암묵지가 조직의 형식지(지식)가 됨
- 내면화(Internalization) : 표출화된 암묵지가 개인의 지식으로 연결 및 습득됨

형식지
- 표출화(Externalization) : 개인의 암묵지를 조식의 지식으로 공통화하기 위해 표출
- 연결화(Combination) : 표출한 개인의 암묵지를 개인의 지식으로 연결

2. 데이터와 정보

(1) DIKW 피라미드 ★★★

1) 데이터에서 지혜를 얻는 과정

데이터(Data) : 개별 데이터 자체는 의미가 중요하지 않은 객관적인 사실
정보(Information) : 데이터의 가공, 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것. 정보가 내포하는 의미는 유용하지 않을 수 있음
지식(Knowledge) : 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합해 고유의 지식으로 내재화된 것
지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물

(2) 데이터에 관한 상식

1) 비트와 바이트

비트(bit) : '0'과 '1'의 두 가지 값으로 신호를 나타내는 최소단위. 이진수를 뜻하는 'binary digit'의 약자
바이트(byte) : 8개의 비트로 구성된 데이터의 양을 나타내는 단위. 1바이트로는 숫자와 영어의 한글자를 표현할 수 있고, 2바이트로는 한글의 한글자를 표현할 수 있음
- 1byte = 8bit / 1KB = 1024byte / 1MB = 1024KB / 1GB = 1024MB / 1TB = 1024GB / 1PB = 1024TB / 1EB = 1024PB / 1ZB = 1024EB / 1YB = 1024ZB
- bit(비트) < byte(바이트) < KB(킬로바이트) < MB(메가바이트) < GB(기가바이트) < TB(테라바이트) < PB(페타바이트) < EB(엑사바이트) < ZB(제타바이트) < YB(요타바이트)

02. 데이터베이스

1. 데이터베이스 개요

(1) 데이터베이스 정의

1) DB와 DBMS

DB(Data-Base) : 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체
DBMS(Data-Base Management System) : 이용자가 쉽게 데이터베이스를 구축, 유지할 수 있게 하는 관리 소프트웨어

2) 데이터베이스 특징

① 데이터베이스의 일반적인 특징 ★★★

통합된 데이터 : 동일한 내용의 데이터가 중복되지 않게 통합되어 있다.
저장된 데이터 : 컴퓨터 기술을 바탕으로 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있다.
공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용할 수 있다. 일반적으로 대용량화되고 구조가 복잡하다.
변화하는 데이터 : 새로운 데이터의 삽입, 기존 데이터의 수정 및 삭제의 변화를 통해 항상 최신의 정확한 데이터 상태를 유지한다.

② 데이터베이스의 다양한 측면에서의 특성 ★★★

정보의 축적 및 전달 측면	- 기계 가독성 : 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있다. - 검색 가능성 : 다양한 방법으로 필요한 정보를 검색할 수 있다. - 원격 조작성 : 정보통신망을 통해 원거리에서도 즉시 온라인으로 이용 가능하다.
정보 이용 측면	이용자의 정보요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
정보 관리 측면	정보를 일정한 질서와 구조에 따라 정리/저장하고 검색/관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고, 새로운 내용 추가나 갱신이 용이하다.
정보기술발전 측면	데이터베이스는 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.
경제/산업적 측면	데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공/이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가진다.

③ 데이터베이스 트랜잭션 특성

트랜잭션(Transaction) : 데이터베이스에서 명령을 수행하는 하나의 논리적인 기능의 단위. 데이터베이스에서 명령이 수행됨에 따라 변화가 생기는데, 잘못된 명령 혹은 여러 사용자에 의한 명령 등과 같은 다양한 상황에서 데이터를 보호하기 위해 트랜잭션에는 4가지 특성이 존재한다.
- 원자성(Atomicity) : 트랜잭션이 데이터베이스에 모두 적용되거나 또는 모두 적용되지 않아야 한다.
- 일관성(Consistency) : 트랜잭션의 결과는 항상 일관성을 띄어야 한다.
- 고립성(Isolation) : 하나의 트랜잭션이 다른 트랜잭션에 영향을 주지 않아야 한다.
- 지속성(Durability) : 트랜잭션이 성공적으로 수행된 경우 그 결과는 영구적이어야 한다.

2. 데이터베이스 활용

(1) 데이터베이스 활용

1) 기업 내부의 데이터베이스 ★

인하우스 DB : 기업 경영 전반에 관한 모든 자료를 연계하여 일관된 체계로 구축 및 운영하는 데 중점. 이후 경영 활동의 기반이 되는 전사자원관리시스템(ERP)으로 확대됨 - 1990년대
OLTP(Online Transaction Processing) : 정보의 수집과 이를 조직 내에서 공유하기 위한 경영정보시스템(MIS)과 생산 자동화, 통합 자동화 등 기업 활동에서 영역별로 구축되던 단순 자동화 중심의 시스템 - 1990년대 중반 이전
- Transaction = 각각의 거래 단위에 초점을 맞춘 개념
  마트에서 물건을 구매한다면, 결제하는 그 순간에 맞춘 자동화된 데이터 처리 및 데이터 수집을 의미
OLAP(Online Analytical Processing) : 데이터 마이닝 등의 기술이 등장하면서 단순한 정보의 '수집'과 '공유'에서 탈피하여 '분석'이 중심이 되는 시스템 구축으로 변화하게 된 것 → 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
- Analytical = 각각의 데이터가 쌓인 전체 데이터에 초점
  OLTP를 거쳐 적재된 데이터에 초점을 맞춰 데이터 분석을 통해 의사결정에 활용할 수 있는 정보를 제공하는 것이 목적
CRM(Customer Relationship Management, 고객 관계 관리) : 기업 내 외부적인 분석을 통해 마케팅 측면에서 신규 고객 창출 혹은 기존 고객의 이탈을 방지하는 것이 목적
SCM(Supply Chain Management, 공급망 관리) : 원자재에서부터 기업을 거쳐 고객에게 도달할 때까지의 유통 단계를 최적화하여 고객에게 제공하는 것이 목적
EAI(Enterprise Application Integration, 기업 애플리케이션 통합) : 하나의 기업은 여러 개의 서비스를 보유하고 있지만, 서비스 간 연계가 필요한 경우 연결 루트는 서비스 수가 증가함에 따라 기하급수적으로 증가함. 이때 모든 서비스를 중앙에서 관리한다면 연결 루트가 간소화되는 효과를 가짐
KMS(Knowledge Management System, 지식 경영 시스템) : 직원 개개인의 지식, 프로젝트 경험, 과거 사례 등 기업이 보유할 수 있는 모든 지식을 통합해서 문제 해결 능력을 향상시키는 것이 목적
ERP(Enterprise Resource Planning, 경영 자원 통합 관리) : 여러 자원 및 업무가 하나로 통합된 시스템으로 재구축하여 어느 부서에서 필요로 하는 자원이 있다고 알릴 경우 바로 그 자원에 대한 구매 및 생산이 진행될 수 있도록 도와 업무의 효율성을 높이는 것이 목적
BI(Business Intelligence, 비즈니스 인텔리전스) : 기업의 의사결정 프로세스. 기업의 경영권을 소유한 자가 올바른 의사결정을 내릴 수 있도록 기업의 데이터를 가공 및 분석하는 것이 목적.
- 여러 데이터베이스의 활용 방법 중 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스로, 가트너는 이것을 '여러 곳에 산재한 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'으로 정의했다.
RTE(Real Time Enterprise) : 기업의 업무 프로세스에서 발생하는 정보를 실시간으로 통합 및 전달하여 신속한 대응이 가능한 스피드 경영

2) 부문별 사회 기반 구조 데이터베이스 ★★

물류 부문 : 종합물류정보망, CVO 서비스, EDI 서비스, 물류 정보 DB 서비스, 부가 서비스, CALS(Commerce At Light Speed), PORT-MIS(항만운영정보시스템), KROIS(철도운영정보시스템)
지리 부문 : 지리정보유통망 가시화, GIS(Geographic Information System, 지리정보시스템), LBS(Location-Based Service, 위치정보서비스), SIM(Spatial Information Management, 공간정보 관리시스템)
교통 부문 : 지능형교통정보시스템(ITS)
의료 부문 : 의료정보시스템, HL7 국내 표준화 작업, U-Health(Ubiquitous-Health), PACS(Picture Archiving and Communications System)
교육 부문 : 각종 교육 정보의 개발 및 보급, 정보 활용 교육, 대학/행정 정보화, 교육행정정보시스템(NEIS)

(2) 데이터베이스 종류

1) RDB와 NoSQL ★

RDB(관계형 데이터베이스) : 데이터를 행과 열로 이루어진 테이블에 저장하며, 하나의 열은 하나의 속성을 나타내고 같은 속성의 값만 가질 수 있다. 데이터 저장 방식은 구조적으로는 엑셀 파일과 유사하며, 정형 데이터를 다루는 데 특화되어 있다.
- Oracle, MySQL, MS-SQL, DB2/Infomix(IBM), MariaDB(Sun Microsystems), Derby(Apache), SQLite(오픈소스)
NoSQL : 'Not only SQL', 'Non SQL', 'Non-relational'의 의미로 관계형이 아닌 비관계형을 의미하는 단어에서 생성된 명칭이다. SQL이 필요없다는 의미가 아니라, 기존 RDB의 SQL을 보완 및 개선한 비관계형 DB라는 의미를 담는다. 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이하다.
- Document-Oriented DB : CouchDB, MongoDB, Elasticsearch, Cloudant
- Key-Value DB : 아마존의 Dynamo, Redis, Riak, Coherence, SimpleDB
- Column-Oriented DB : 구글의 Bigtable, Cassandra, HBase, HyperTable

계층형 DBMS	데이터가 부모 자식 형태를 갖도록 관계를 맺어 관리하는 데이터베이스 관리 시스템으로서 데이터 중복 문제가 발생하기 쉬운 단점이 있다.
네트워크형 DBMS	각 데이터 간의 연결을 통해 네트워크처럼 복잡한 그물 형태로 데이터를 관리하는 데이터베이스 관리 시스템으로서 게층형 DBMS의 중복 문제를 해결했으나 복잡한 구조로 인해 구조 변경에 많은 어려움이 발생한다는 단점이 있다.
분산형 DBMS	분산된 여러 개의 데이터베이스를 하나의 데이터베이스로 인식하고 사용할 수 있는 데이터베이스 관리 시스템이다.
객체지향 DBMS	사용자가 정의하는 타입을 하나의 데이터 유형으로 저장하는 데이터베이스 관리 시스템으로서 구조가 없는 비정형 데이터라도 사용자가 원하는 방식에 따라 표현 가능하다는 장점이 있다. (멀티미디어 등 복잡한 데이터 구조를 표현 및 관리)

2) SQL의 이해

SQL(Structured Query Language) : DBMS에서 데이터베이스에 명령을 내리는 데이터베이스의 하부 언어. DB마다 문법이 다르지만, 기본적인 데이터 추출과 분석에 사용되는 문법은 거의 동일하다.
- DDL(데이터 정의 언어) : CREATE, ALTER, RENAME, DROP - 테이블 관련
- DML(데이터 조작 언어) : SELECT, INSERT, UPDATE, DELETE - 데이터 관련
- DCL(데이터 제어 언어) : GRANT, REVOKE - 권한 관련
- TCL(트랜잭션 제어 언어) : COMMIT, SAVEPOINT, ROLLBACK - 기타

3) 데이터베이스 구성요소

인스턴스 : 하나의 객체를 의미하며 존재하는 모두 인스턴스가 될 수 있다. (사람, 동물, 물건 등 모두 표현 가능)
속성 : 객체를 표현하기 위해 사용되는 값. (사람의 속성은 이름, 성별, 주민등록번호, 직업 등)
엔터티 : 데이터의 집합. 실체가 존재하는 테이블과 달리 개념적인 존재로서 개념, 장소, 사건 모두 엔터티로 여겨짐. 2개 이상의 인스턴스와 1개 이상의 속성을 보유해야 한다.
메타데이터 : 사진 파일의 속성 정보를 보면 언제, 어디서 생성되었는지 알려주는 추가적인 데이터가 존재하는데, 이처럼 데이터를 설명하는 데이터를 말한다.
인덱스 : 데이터를 저장할 때 내부에서 자동적으로 데이터의 이름을 지정하게 되는데, 이때 부여되는 이름. 사용자의 질의에 신속하게 응답하고 정렬하고 탐색할 수 있도록 도와주는 책의 색인과 비슷한 역할을 한다.

728x90

저작자표시 비영리 변경금지

'💾 DataBase' 카테고리의 다른 글

[ADSP] 데이터분석 준전문가 <2과목> 데이터 분석 기획 - 01장 데이터 분석 기획의 이해 (0)	2024.10.19
[ADSP] 데이터분석 준전문가 <1과목> 데이터 이해 - 02장 데이터의 가치와 미래 (0)	2024.10.13
[MySQL] 프로그래머스 - 보호소에서 중성화한 동물(Lv. 4) (0)	2023.05.25
[MySQL] 프로그래머스 - 헤비 유저가 소유한 장소(Lv. 3) (0)	2023.05.24
[E] Tibero(Oracle) 에러 - TBR-7075: Specified role 'CONNECT' was not found. (0)	2023.04.07

01. 데이터와 정보

1. 데이터의 정의

(1) 데이터의 정의

1) 데이터의 정의

2) 데이터의 특성 ★

(2) 데이터의 유형

1) 정성적 데이터와 정량적 데이터 ★

2) 정형 데이터와 비정형 데이터, 반정형 데이터 ★

3) 암묵지와 형식지 ★★

2. 데이터와 정보

(1) DIKW 피라미드 ★★★

1) 데이터에서 지혜를 얻는 과정

(2) 데이터에 관한 상식

1) 비트와 바이트

02. 데이터베이스

1. 데이터베이스 개요

(1) 데이터베이스 정의

1) DB와 DBMS

2) 데이터베이스 특징

2. 데이터베이스 활용

(1) 데이터베이스 활용

1) 기업 내부의 데이터베이스 ★

2) 부문별 사회 기반 구조 데이터베이스 ★★

(2) 데이터베이스 종류

1) RDB와 NoSQL ★

2) SQL의 이해

3) 데이터베이스 구성요소

'💾 DataBase' 카테고리의 다른 글

티스토리툴바