데이터 분석 기초 쌓기 (2) 조건간 차이검증 방법, 데이터 추론

티스토리 뷰

Computer/Data

데이터 분석 기초 쌓기 (2) 조건간 차이검증 방법, 데이터 추론

Tree._.River 2021. 1. 6. 18:56

조건간 차이 검증

" 통계를 통해 다양한 조건에서 확인 "

샘플의 기술통계 -> 객관적 방법이 아니며, 잘못 판단할 가능성이 높음
정확히 어느정도 차이가 있어야 있다고 할지, 차이값에 대한 객관적 정의 필요

애매한 요구조건, 애매한 차이 해결 방법

" 추론을 통해 해결 "

월요일 매출 모집단 μ1 ——> 샘플링 ——> 월요일 매출 표본 x(바)1

모집단 간 차이 μ1 - μ2 표본 간 차이 x(바)1 - x(바)2

화요일 매출 모집단 μ2 ——> 샘플링 ——> 화요일 매출 표본 x(바)2

추론의 정확성

" 추론은 맞을 수도 있고 틀릴 수도 있음 "

객관적으로 추론이 맞았는지 확인하는 방법

"내가 한 계산이 틀릴 확률로 계산할 수 있음"

틑릴 확률이 높다 = 내가 한 추론이 틀릴 확률이 높음 -> 옳바른 추론이 아닐 확률이 높음

틀릴 확률이 낮다 = 내가 한 추론이 틀릴 확률이 낮음 -> 옳바른 추론일 확률이 높음

샘플데이터 간 차이로 앞으로 발생할 전체 데이터 간 차이를 유추, 추론

-> 기술통계만으로 판단을 내리는 것이 아니라 앞으로 발생할 전체의 차이를 유추 즉, 추론해야함.

(유추/추론 : 샘플 데이터 간 차이로 앞으로 발생할 전체 데이터 간 차이 구함)

‘확률을 구한다’라는 의미

상대평가

절대적인 값 - 평균/ + -> 상대적으로 높은 값 , - -> 상대적으로 낮은 값

분포의 밑넓이와 확률

분포의 밑넓이를 구할 수 있으면 내가 원하는 구간의 밑넓이와 전체 밑넓이의 비율로 정확한 확률을 구할 수 있음

(원하는 구간의 분포 밑넓이) / (전체 분포의 밑넓이)

다른분포, 같은 값 구분 방법

표준화

특정 수치를 서로 다른 분포에서 비교하려면 편차만으로는 비교할 수 없음

따라서 단위를 맞추기 위해 편차를 표준 편차로 나눔

Z = (X - μ) / σ , Z score 가 높을 수록 평균으로부터 더 멀리 떨어져 있다는 의미

X : 정상화되는 원수치

μ : 모집단 평균

σ : 모집단 표준편차

표준 점수의 평균은 항상 0

표준 점수의 표준 편차는 항상 1

표준화 전 원래 데이터인 그 모집단이 정규분포라면 모든 데이터를 표준화시켜서 얻어낸 그 표준 점수들의 분포도 정규분포이다.

모든 점수를 다 표준화하여 얻어낸 표준 점수의 분포 = 표준정규분포 즉, Z 분포

저작자표시

'Computer > Data' 카테고리의 다른 글

데이터 분석 기초 쌓기 (3) 표준정규분포표로 확률구하기, 0가설검정 (0)	2021.01.07
데이터 분석 기초 쌓기 (1) 기본 통계 지식 (0)	2021.01.06

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

Tree RIver

티스토리 뷰

데이터 분석 기초 쌓기 (2) 조건간 차이검증 방법, 데이터 추론

'Computer > Data' 카테고리의 다른 글

티스토리툴바