×

    [강의정리] 기초통계1:데이터와 분석

    관련글

    기초통계1:데이터와 분석

    기초통계2:기술통계량


    들어가며

    Data

    Data 큐레이터 : data 안에 숨겨진 스토리(이야기)를 해주는 사람

    ex) 고흐 그림의 불꺼진 성당

    내 이야기를 잘 들어주면 말하지 않아야지 했던 것까지 말하게 된다. Data를 잘 들어 주어야 한다.

    통계학 & IT

    Machine Learning (Deep Learning)

    앞으로 대비해야


    데이터와 분석

    A. 일변량 질적 자료의 분석

    (1) 표 (빈도표, 백분율)

    (2) 그래프 : 막대그래프, 원그래프

    B. 일변량 양적 자료의 분석

    (1) 표 (구간의 빈도, 백분율)

    Q. 왜 구간을 만들까?

    Q. 구간 설계 방법?

    (2) 그래프 : 히스토그램, 상자그림

    (3) 기술통계량 = 요약통계량

    C. 이변량 질적 자료의 분석

    D. 이변량 양적 자료의 분석

    기술통계량 참조


    E. 이변량(bi-variate) 질적 자료의 분석 = 교차표 = 분할표

    두 질절 자료 사이의 관련성

    이것으로 가설검정을 한다면? : 교차분석 = 카이제곱검정(Chi-square test)

    행백분율은 집단의 크기를 동일하게 해 주기 때문에 수치 비교에 편리하다.

    F. 이변량 양적 자료의 분석

    상관분석(Correlation analysis)

    관련성? 산점도를 그렸을 때 선형의 관계(직선의 관계)

    (1) 산점도 (scatter plot)

    (2) 상관계수(Coefficient of Correlation)

    cf) 3개의 계수 : 상관계수, 변동계수, 회귀계수

    두 양적자료의 관련성 정도를 수치로 표현한 값 : r

    r : 표본의 상관계수 cf) 모상관계수(𝜌)

    공변량(co-variate) : (x1-x평균)(y1-y평균)

    공분산(co-variance), 공변량들의 합계. COV(x,y) = (x1-x평균)(y1-y평균) + (x2-x평균)(y2-y평균) ….

    -> 공변량의 평균으로, 면적들의 합과 차이다.

    But, 단위가 바뀌어(Cm -> m) 값이 축소되거나 늘어나면 데이터는 그대로이지만 공변량에 큰 차이가 발생한다.

    따라서 pearson’s coefficient of correlation r = 공변량 / ( x의 다름 * y의 다름)

    x의 다름 : x의 표준편차(자유도 이용), y의 다름 : y의 표준편차(자유도 이용),

    pearson’s coefficient of correlation : 양적 자료, 연속성

    cf) 순위형(순서형) 자료 : spearman, kendall의 방법 사용

    r

    0.0-0.2 : 관련성이 없다. 0.2-0.4 : 약한 관련성이 있다. 0.4-0.6 : 보통의 관련성이 있다. 0.6-0.8 : 강한 관련성이 있다. 0.8-1.0 : 매우 강한 관련성이 있다.

    ex) r이 0.730(계수 이므로 소수점 3째자리까지 관례)일 경우, “양의 강한 관련이 있다.”라고 할 수 있다.

    (3) 상관분석

    G. 독립표본 T검정(Two Sample t-test)

    검정(Test) ?

    ※ 가설? 모집단에 대한 입장, ( fact와는 다르다 )

    공정한 데이터 수집 -> 검정

    ※ 검정의 기준

    유의확률 < 유의수준 : 대립가설 win
    유의확률 > 유의수준 : 귀무가설 win
    

    유의확률을 추정하기 위해서는 분포를 알아야 함

    ⓐ정규분포, ⓑt분포, ⓒf분포, ⓓChi-square분포, ….

    1. 정규성 검정
    2. 등분산 검정 (귀무가설 “등분산이다.” = “두 집단의 다름은 같다”) … f-검정( F비를 통해 f분포로 확률 계산함)
    3. 등분산 가정 t검정 or 異분산 t검정

    H. 분산분석(ANOVA : Analysis of Variance)


    기타

    구조방정식 모형 (Structured Equation Model : SEM)

    리커트 척도 : 7점 척도

    cf) 5점 척도, 4점 척도

    분석할 때 좋은 습관

    Excel tip : Ctrl + ``` : inspect (함수 그대로 보여줌)


    강의 개요

    장소 : 통계교육원
    일시 : 2017.05.15(월) - 2017.05.17(수)
    

    강사 이력

    이름 : 이부일
    소속 : (주)인사이트마이닝 CEO
    블로그 : blog.daum.net/buillee
    페이스북 : www.facebook.com/buillee70
    
    ... ... ... ...
    Back