구글 애널리틱스(웹 로그 분석의 시작과 끝), (브라이언 클리프튼 지음) 책을 읽고 정리, 요약해보았다
낯선 용어들이 많았기에, 받아들이는데 어려움이 많았다. 저자의 의도와 다른 부분이 있을 수도 있겠지만, 우선 정리해본다.
Chapter 2.다양한 웹 로그 분석 방법론과 정확성
1. 페이지 태그와 로그 파일
-
페이지 태그(Page Tag) : 방문자의 웹브라우저에서 데이터를 수집해 원격지에 위치한 데이터 수집 서버로 정보를 전송하고, 원격 서버에서 제공하는 리포트를 통해 고객 분석 결과를 확인하는 방식
-
로그 파일(LogFiles) : 방문자의 브라우저와는 무관하게 웹서버가 수집하는 데이터를 의미한다. 웹서버는 자신의 활동을 텍스트파일 형태로 로컬 서버에 기록하고 고객 분석 결과는 로컬 서버를 통해 조회하는 방식이다.
1.1 페이지 태그와 로그파일의 장단점 비교
방법장점단점
| 페이지 태그 |
- 프록시 서버와 캐싱 서버를 통과할 수 있어서 정확한 세션 추적이 가능하다. - 클라이언트 사이드 이벤트를 추적한다. |
- 환경설정 오류가 발생하면 데이터손실이 일어난다.데이터가 손실되면 재분석이 어렵다. - 방화벽이 있으면 태그사용이 제한된다. - 다운로드 완료여부는 추적할 수 없다. 태그는 다운로드가 완료시점이 아닌, 페이지나 파일을 요청하는 시점에 생성된다. |
| 로그파일 |
- 과거 데이터의 재처리가 용이하다. - 방화벽 문제가 발생하지 않는다. |
- 프록시를 거치거나 캐싱되는 경우, 데이터가 부정확해진다. 페이지가 캐시되면, 웹서버에는 아무런 로그도 기록되지 않는다. - 이벤트 추적이 안된다. |
2. 웹 로그 분석에서 쿠키의 역할
- 쿠키(cookie) : 웹서버가 웹브라우저에게 전달하는 작은 문자메시지로 방문자의 브라우저는 이름(name)과 값(value)이 한쌍인 값이다. 로컬 하드 드라이브에 저장한다.
- 퍼시스턴트 쿠키 : 브라우저를 닫았다고 다시 접속해도 여전히 유용
- 세션 쿠키 : 사이트에서 방문자의 세션이 존재하는 동안에만 유지된다.
- 웹분석에서 쿠키 사용 주요 목적 : 사용자를 식별하여, 개인화된 웹페이지를 구현할 수 있게 함
3. 웹 로그 분석의 데이터의 정확성
웹 로그 분석 데이터는 결코 100% 정확할 수 없고 오차의 측정조차 쉽지 않음.
따라서, 동일한 비교 척도를 적용하여 방문자의 추세를 확인 할 수 있음
ex 1) 웹사이트의 트래픽의 30%는 검색엔진에서 발생한다.
ex 2) 이메일 광고를 통한 구독 전환 비율이 지난주 대비 약 20% 정도 증가하였다.
3.1 로그 파일에서 방문자 데이터에 영향을 미치는 요인
- 동적으로 할당된 IP 주소
- 클라이언트 사이드의 캐시 페이지 : 이전에 방문한 페이지를 방문자의 컴퓨터에 저장해두는 방법으로, 이 방문은 웹서버에 기록되지 않는다.
- 웹로복의 방문 수 :스파이더나 웹크롤러 같은 웹 로봇은 실제 방문자가 아니지만, 로그 파일 솔루션은 이를 구별하지 못함. 따라서 로봇 활동으로 인한 데이터까지 모두 포함해 보여줌으로써 웹 로그 분석에 영향을 미친다.
3.2 페이지 태그에서 방문자 데이터에 영향을 미치는 요인
- 태그를 누락없이 설치하는 것이 중요
- 페이지 로딩을 방해하는 자바 스크립트 에러 : 자바스크립트가 동작할 수 있어야 페이지 태그도 잘 동작
- 페이지 태그를 차단하는 방화벽 : 거부된 방문자를 측정하지 않는 등, 데이터 처리의 일관성을 유지하는 것이 중요하다.
- 기존 모바일 사용자 추적
3.3 쿠키를 사용할 때 방문자 데이터에 영향을 미치는 요인
- 방문자의 쿠키 거부 또는 삭제
- 사용자가 여러대의 컴퓨터를 소유하거나 공유
- 다수의 컴퓨터를 사용하는 동일 사용자
- 같은 컴퓨터를 사용하는 다수 사용자
- 부정확성의 여지를 남기는 지연 시간
- 데이터 수집을 왜곡하는 오프라인 방문 : 고가 제품은 보통 온라인에서 먼저 조사한 후 실제 구매는 오프라인에서 이뤄지는 형태. 따라서 현재로서는 온라인 바우처 개념을 사용하는 것이 제약사항을 극복할 수 있는 가장 좋은 방법임.
3.4 (페이지 태그)벤더 사이의 데이터 비교
페이지 태그를 사용하는 벤더들 간의 비교 역시 불가능하다.
벤더간의 지표차이를 유발하는 원인은 다음과 같다.
- 1사 쿠키 대 3사 쿠키
- 페이지 태그 위치
- 태그 누락
- 페이지 뷰(방문과 방문자) : 페이지 뷰에 대한 벤더의 추적 방식은 유사하나 각기 다른 알고리즘을 사용하고 있어 결과값이 다르므로, 방문과 방문자를 구별하는 것이 매우 중요하다.
- 쿠키 타임 아웃 : 타임아웃 이란 방문자가 웹페이지에서 활동없이 있는 시간에 따라 사이트를 떠난 것으로 볼 것인가를 결정하는 기간으로 벤더마다 다르다.
- 페이지 태그 코드 보안
- 데이터 샘플링
- PDF 파일에서 고려할 사항 : 다운로드 완료가 아니라 PDF 파일 클릭에 대한 방문자수를 보고함.
- 전자상거래(반품처리) : 웹로그 분석 리포트에서는 반품에 대한 계산을 간과함
- 필터 설정(잠재적 문제 해결)
- 시간 계산 : 마지막으로 호출된 페이지를 어떻게 방문시간을 계산할 것인지가 곤란한 부분임. 왜냐하면 열어놓고 다른일 할 수도 있고 등등.. 구글 애널리틱스는 방문자 세션에서 마지막 페이지는 무시한다.
- 처리 빈도 : 구글은 일단위로 24시간 동안의 모든 데이터를 수집하여 재처리. 따라서 현재 날짜에서 발생한 불일치에 너무 집중하지 않는 것이 중요하다.
- 목표 전환과 페이지뷰의 비교(일관성 수립) : 방문자의 웹사이트 이동 흐름 측정 시, 일관성을 주어야한다.
4. 웹 로그 분석 데이터의 정확성 향상
- 웹 로그 분석이 100% 정확한 것은 아니기에, 정확한 수치보다 추세를 보는데 집중하는 것이 필요하다.
ex 1) 방문자 수가 증가하고 있는가?
ex 2) 방문자가 증가 혹은 감소하는 비율은 어떠한가?
5. 웹 로그 분석에서 개인정보 보호에 대한 고찰
- 비 개인식별 정보 : 익명으로 수집된 데이터로써 인구통계학적 정보를 식별하거나 유추할 수 없는 데이터이다. 사용자 경험 향상 목적이라면, 해당 정보 수집이 괜찮다고 말하고 있다.
- 개인식별 정보 : 방문자에게 개인 식별 정보를 공유할 것인지 물어봐야 한다.