빅쿼리란 무엇이며 어디에 사용하는 것인가요?

//빅쿼리란 무엇이며 어디에 사용하는 것인가요?

빅쿼리란 무엇이며 어디에 사용하는 것인가요?

2020년 구글 클라우드 리전(region)에 한국이 추가가 되었습니다.


기존에 A사와 M사의 클라우드 서비스를 쓰던 기업들도 구글의 클라우드 서비스 중 빅쿼리에 관심이 아주 많아져서 많은 문의를 하고 계시며 실제로 빅쿼리를 쓰는 대기업들이
빠른 속도로 증가중입니다. 특히 구글 아날리틱스(Google Analytics)를 사용하고 계시던 고객들은 클릭 몇 번으로 빅쿼리와 자동 연동되기 때문에 관심을 가질 수 밖에 없는
상황입니다.

이렇다 보니 빅쿼리(BigQuery)에 대해 알려고 하는 분들이 많아서

  1. 빅쿼리가 무엇이고
  2. 왜 많은 기업들이 쓰고 있거나 쓰려고 하고,
  3. 마지막으로 어떻게 활용할 수 있는지 소개하겠습니다.

빅쿼리

구글 빅쿼리 로고

2018년도 구글의 어느 워크샵에서 4TB 위키피디아 퍼블릭 데이터를 쿼리하는 시연을 했습니다. 그때 40초 정도 걸렸던 걸로 기억합니다.
2020년 6월 구글의 워크샵에서 같은 쿼리를 또 돌렸는데 이번에 27초 걸렸습니다. 4테라바이트의 데이터를 쿼리하는데 27초 밖에 걸리지 않았다는 건 대단한 것 같습니다.
빅쿼리는 성능이 뛰어나기 때문에 사람들이 찾습니다. 페타급 데이터를 쉽게 처리합니다.

보통 ‘데이터 웨어하우스’를 직접 운영하는 기업들은 냉방, 전력, 하드웨어, 소프트웨어 업그레이드, OS 패치, 수명관리 등의 서버 관리부터 시작하여
데이터 웨어하우스를 구축, 운영, 관리하는데 수많은 인적 자원과 물적 자원을 사용하게 됩니다. 막상 데이터 분석을 하려고 데이터 웨어하우스를 사용하는데
실제 데이터 분석에 투자하는 시간은 업무시간의 15% 밖에 없다는 통계도 본 적이 있습니다.

점점 관심이 증가하는 클라우드 서비스

 빅쿼리는 한 문장으로 설명하면, “구글이 관리해 주는 데이터웨어 하우스”입니다.


우리는 그저 사용한 만큼만 요금을 지불하면 됩니다. 데이터분석에 100% 시간을 할애할 수 있습니다.
쿼리를 보고 쿼리 복잡도와 쿼리 사이즈를 분석해서 최적화하는 하는 작업은 구글이 맡아서 해줍니다. 연산에 필요한 슬롯(slot)이 쿼리에 따라 동적 할당됩니다.
Dremel 구조로 되어있는 빅쿼리는 연산 속도를 빠르게 해줍니다. 그리고 데이터는 안전하게 복제되어 저장되고, 저장된 데이터는 당연히 암호화되며, 전송시에도 암호화됩니다.
데이터만 15년 이상 연구해 온 구글이 관리를 해주니 믿고 맡기면 됩니다. 구글은 현재까지 많은 연구원들이 계속해서 빅데이터 분야에서 논문을 발표하고,
연구한 내용을 오픈소스로 공개하고, 사용자들이 쉽게 사용할 수 있도록 구글 클라우드 서비스로 제공합니다.
이러한 내공이 쌓여서 나온 게 빅쿼리라 다른 업체들이 쉽게 따라올 수 없는 구글만의 넘사벽 제품이라고 저는 생각합니다.

데이터 센터 내부 모습

빅쿼리는 CSV, AVRO, JSON, Parguqet 타입의 데이터를 쉽게 적재(load) 할 수 있습니다. 그리고 구글 GCP 콘솔 UI에서 클릭만으로 다른 데이터 소스와 쉽게 연결할 수 있게
계속해서 새로운 커넥터가 생겨나고 있습니다.

빅쿼리에 데이터를 저장하고 무엇을 할까요?

단순히 장기 저장소로 쓰기에는 Cloud Storage가 훨씬 더 저렴합니다. 빅쿼리에 저장한 후 SQL을 사용하여 쿼리할 수 있습니다. 데이터를 가공/변환/정제 후에 다른 빅쿼리 테이블에 저장할 수도 있습니다. 예를 들어 빅쿼리에 쌓인 원시 데이터를 transform 하여 부산 지사에서 사용할 데이터마트, 서울 지사에서 사용할 데이터 마트 이런식으로 활용할 수도 있고,
마켓팀에서 사용할 데이터, BI팀에서 사용할 데이터, 재무팀에서 사용할 데이터 등으로 변환하여 다시 빅쿼리에 적재 가능합니다.

제 개인적으로는 GCP 서비스의 가장 유명한 2 서비스는 빅쿼리와 ML입니다. 이미 알파고를 통해 구글의 AI 기술력은 세계적으로 알려져 있습니다. 빅쿼리에 저장한 데이터를
사용해서 머신러닝 훈련을 하여 머신러닝 모델을 만들 수 있습니다. 구글에서는 크게 3가지의 머신러닝 서비스를 제공합니다.

데이터 센터

데이터 센터 내부 모습

AutoML 처럼 코딩이나 머신러닝의 지식 없이도 자신의 데이터로 머신러닝 모델을 만들 수 있습니다. 또한 빅쿼리 콘솔 UI에서 SQL 구문만으로도 머신러닝을 훈련시키고, 평가하여
예측할 수 있습니다. 이를 BQML이라고 부릅니다. 마지막으로 AI Platform (CloudML Engine)을 사용하여 머신러닝을 사용할 수 있습니다.

실제로 많은 기업들이 빅쿼리에 저장된 데이터에 머신러닝을 적용해 insight를 도출하려고 하고 있습니다. 구글 GCP에서는 빅쿼리와 머신러닝을 활용한 파이프라인을
쉽게 구축할 수 있습니다. 이 파이프라인의 심장이 바로 빅쿼리입니다. 구글 코리아 직원과 함께 팀으로 발표를 한 적이 있었는데요. 발표가 끝나고 미슐랭 식당에서 밥을 얻어 먹으면서 들은 말이 생각납니다.


빅쿼리가 세상의 중심이여~~” 

By |2021-01-21T13:58:14+09:001월 21st, 2021|Categories: 빅데이터|0 Comments

About the Author:

Leave A Comment

Big Data Social Analytics Service

소셜 빅데이터 분석 솔루션인 스마트크런처(Smart Cruncher)는 사용자 반응 지표 데이터를 수집 및 분석하여 효과적인 디지털 마케팅 실행을 위한 시장ᆞ고객분석, 홍보·마케팅 전략수립, 신사업ᆞ신상품 개발 전략 수립, VOCᆞ위기 모니터링 등의 서비스를 제공합니다.

Google Analytics Service

국내의 대기업 및 관공서는 물론 태국, 인도네시아등 해외 구축사례의 경험은골든프래닛의 노하우를 느끼실 수 있습니다. 아래의 구글 애널리틱스 기능을 통해 고객사의 요구사항에 맞는 컨설팅 업무를 진행 합니다.

Marketing Automation

골든플래닛의 디지털 마케팅이란 고객의 니즈가 발생한 시점을 정확히 알고, 고객의 니즈를 정확히 파악하여 고객이 필요로 하는 상품을 전달하는 과정이라고 할 수 있으며, 소비자들과의 커뮤니케이션을 통해 ‘고객 경로 맵(Customer Journey Map)’을 파악하는 것이 중요합니다.