티스토리 뷰

반응형

구글 애널리틱스(웹 로그 분석의 시작과 끝), (브라이언 클리프튼 지음) 책을 읽고 정리, 요약해보았다

낯선 용어들이 많았기에, 받아들이는데 어려움이 많았다. 저자의 의도와 다른 부분이 있을 수도 있겠지만, 우선 정리해본다.

Chapter 2.다양한 웹 로그 분석 방법론과 정확성


1. 페이지 태그와 로그 파일


  • 페이지 태그(Page Tag) : 방문자의 웹브라우저에서 데이터를 수집해 원격지에 위치한 데이터 수집 서버로 정보를 전송하고, 원격 서버에서 제공하는 리포트를 통해 고객 분석 결과를 확인하는 방식

  • 로그 파일(LogFiles) : 방문자의 브라우저와는 무관하게 웹서버가 수집하는 데이터를 의미한다. 웹서버는 자신의 활동을 텍스트파일 형태로 로컬 서버에 기록하고 고객 분석 결과는 로컬 서버를 통해 조회하는 방식이다.

1.1 페이지 태그와 로그파일의 장단점 비교


방법장점단점

페이지 태그 - 프록시 서버와 캐싱 서버를 통과할 수 있어서 정확한 세션 추적이 가능하다. 
- 클라이언트 사이드 이벤트를 추적한다.
- 환경설정 오류가 발생하면 데이터손실이 일어난다.데이터가 손실되면 재분석이 어렵다.
- 방화벽이 있으면 태그사용이 제한된다. 
- 다운로드 완료여부는 추적할 수 없다. 태그는 다운로드가 완료시점이 아닌, 페이지나 파일을 요청하는 시점에 생성된다.
로그파일 - 과거 데이터의 재처리가 용이하다. 
- 방화벽 문제가 발생하지 않는다.
- 프록시를 거치거나 캐싱되는 경우, 데이터가 부정확해진다. 페이지가 캐시되면, 웹서버에는 아무런 로그도 기록되지 않는다. 
- 이벤트 추적이 안된다.

2. 웹 로그 분석에서 쿠키의 역할


  • 쿠키(cookie) : 웹서버가 웹브라우저에게 전달하는 작은 문자메시지로 방문자의 브라우저는 이름(name)과 값(value)이 한쌍인 값이다. 로컬 하드 드라이브에 저장한다.
  • 퍼시스턴트 쿠키 : 브라우저를 닫았다고 다시 접속해도 여전히 유용
  • 세션 쿠키 : 사이트에서 방문자의 세션이 존재하는 동안에만 유지된다.
  • 웹분석에서 쿠키 사용 주요 목적 : 사용자를 식별하여, 개인화된 웹페이지를 구현할 수 있게 함

3. 웹 로그 분석의 데이터의 정확성


웹 로그 분석 데이터는 결코 100% 정확할 수 없고 오차의 측정조차 쉽지 않음.
따라서, 동일한 비교 척도를 적용하여 방문자의 추세를 확인 할 수 있음 

ex 1) 웹사이트의 트래픽의 30%는 검색엔진에서 발생한다. 
ex 2) 이메일 광고를 통한 구독 전환 비율이 지난주 대비 약 20% 정도 증가하였다.

3.1 로그 파일에서 방문자 데이터에 영향을 미치는 요인


  • 동적으로 할당된 IP 주소
  • 클라이언트 사이드의 캐시 페이지 : 이전에 방문한 페이지를 방문자의 컴퓨터에 저장해두는 방법으로, 이 방문은 웹서버에 기록되지 않는다.
  • 웹로복의 방문 수 :스파이더나 웹크롤러 같은 웹 로봇은 실제 방문자가 아니지만, 로그 파일 솔루션은 이를 구별하지 못함. 따라서 로봇 활동으로 인한 데이터까지 모두 포함해 보여줌으로써 웹 로그 분석에 영향을 미친다.

3.2 페이지 태그에서 방문자 데이터에 영향을 미치는 요인


  • 태그를 누락없이 설치하는 것이 중요
  • 페이지 로딩을 방해하는 자바 스크립트 에러 : 자바스크립트가 동작할 수 있어야 페이지 태그도 잘 동작
  • 페이지 태그를 차단하는 방화벽 : 거부된 방문자를 측정하지 않는 등, 데이터 처리의 일관성을 유지하는 것이 중요하다.
  • 기존 모바일 사용자 추적

3.3 쿠키를 사용할 때 방문자 데이터에 영향을 미치는 요인


  • 방문자의 쿠키 거부 또는 삭제
  • 사용자가 여러대의 컴퓨터를 소유하거나 공유
  • 다수의 컴퓨터를 사용하는 동일 사용자
  • 같은 컴퓨터를 사용하는 다수 사용자
  • 부정확성의 여지를 남기는 지연 시간
  • 데이터 수집을 왜곡하는 오프라인 방문 : 고가 제품은 보통 온라인에서 먼저 조사한 후 실제 구매는 오프라인에서 이뤄지는 형태. 따라서 현재로서는 온라인 바우처 개념을 사용하는 것이 제약사항을 극복할 수 있는 가장 좋은 방법임.

3.4 (페이지 태그)벤더 사이의 데이터 비교


페이지 태그를 사용하는 벤더들 간의 비교 역시 불가능하다. 
벤더간의 지표차이를 유발하는 원인은 다음과 같다.

  • 1사 쿠키 대 3사 쿠키
  • 페이지 태그 위치
  • 태그 누락
  • 페이지 뷰(방문과 방문자) : 페이지 뷰에 대한 벤더의 추적 방식은 유사하나 각기 다른 알고리즘을 사용하고 있어 결과값이 다르므로, 방문과 방문자를 구별하는 것이 매우 중요하다.
  • 쿠키 타임 아웃 : 타임아웃 이란 방문자가 웹페이지에서 활동없이 있는 시간에 따라 사이트를 떠난 것으로 볼 것인가를 결정하는 기간으로 벤더마다 다르다.
  • 페이지 태그 코드 보안
  • 데이터 샘플링
  • PDF 파일에서 고려할 사항 : 다운로드 완료가 아니라 PDF 파일 클릭에 대한 방문자수를 보고함.
  • 전자상거래(반품처리) : 웹로그 분석 리포트에서는 반품에 대한 계산을 간과함
  • 필터 설정(잠재적 문제 해결)
  • 시간 계산 : 마지막으로 호출된 페이지를 어떻게 방문시간을 계산할 것인지가 곤란한 부분임. 왜냐하면 열어놓고 다른일 할 수도 있고 등등.. 구글 애널리틱스는 방문자 세션에서 마지막 페이지는 무시한다.
  • 처리 빈도 : 구글은 일단위로 24시간 동안의 모든 데이터를 수집하여 재처리. 따라서 현재 날짜에서 발생한 불일치에 너무 집중하지 않는 것이 중요하다.
  • 목표 전환과 페이지뷰의 비교(일관성 수립) : 방문자의 웹사이트 이동 흐름 측정 시, 일관성을 주어야한다.

4. 웹 로그 분석 데이터의 정확성 향상


  • 웹 로그 분석이 100% 정확한 것은 아니기에, 정확한 수치보다 추세를 보는데 집중하는 것이 필요하다. 

    ex 1) 방문자 수가 증가하고 있는가? 
    ex 2) 방문자가 증가 혹은 감소하는 비율은 어떠한가? 

5. 웹 로그 분석에서 개인정보 보호에 대한 고찰


  • 비 개인식별 정보 : 익명으로 수집된 데이터로써 인구통계학적 정보를 식별하거나 유추할 수 없는 데이터이다. 사용자 경험 향상 목적이라면, 해당 정보 수집이 괜찮다고 말하고 있다.
  • 개인식별 정보 : 방문자에게 개인 식별 정보를 공유할 것인지 물어봐야 한다.
반응형