# Đồng bộ dữ liệu với Bigquery

## Google BigQuery là gì?

**Google BigQuery** là một kho dữ liệu (data warehouse) trên nền tảng điện toán đám mây của Google (Google Cloud) cho phép bạn chạy các truy vấn siêu nhanh trên các tập dữ liệu lớn. BigQuery hoạt động dưới dạng nền tảng là một dịch vụ (Platform as a Service – PaaS) trên hạ tầng của Google nên được thừa hưởng nhiều công nghệ hiện đại và tiên tiến. BigQuery hiện nay đã trở thành một trong những data warehouse được sử dụng nhiều nhất trên thế giới

## Các bước thao tác Sync Data lên Google BigQuery

### **Bước 1:** Tạo Connect Big Query

* Vào Module Console
* Chọn Database
* Chọn GCP BigQuery

<figure><img src="/files/BU35nVLmhH6XfPofJeHq" alt=""><figcaption></figcaption></figure>

<figure><img src="/files/tWRbsVexAfr3qnPCgd2b" alt=""><figcaption></figcaption></figure>

### **Bước 2:** Thiết lập thông tin kết nối và kiểm tra dữ liệu

* Vào Module Console
* Chọn Connection
* Chọn Database
* Chọn Manage và kênh BigQuery
* Tạo Table và điền thông tin
* Để kiểm tra dữ liệu đã được sync lên Google BQ thì truy cập vào [link](https://console.cloud.google.com/bigquery)

<figure><img src="/files/ZqIWviv5fATJQCcVvTze" alt=""><figcaption></figcaption></figure>

<figure><img src="/files/g9qOVcikYXjnRURpkqxm" alt=""><figcaption></figcaption></figure>

<figure><img src="/files/PCPDdxRXETJSkqqtxtCh" alt=""><figcaption></figcaption></figure>

<figure><img src="/files/u7KjjlarPC83vfYSZJFg" alt=""><figcaption></figcaption></figure>

| Trường thông tin  | Mô tả                                                           |                                                                                                                                                                                                                                                                                                                   |
| ----------------- | --------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Data type         | chọn Data Model muốn push lên GG BigQuery                       |                                                                                                                                                                                                                                                                                                                   |
| Table name        | sẽ tự sinh ra sau khi chọn Data type                            |                                                                                                                                                                                                                                                                                                                   |
| Version           | chọn Version BigQuery Pango                                     | <ul><li>Version 1: tất cả các customField sẽ được gôm và nằm trong cùng 1 Field. Sau khi Push lên GG BQ sẽ dùng công thức tách chuỗi ra từng Field</li><li>Version 2: tất cả các customField trên Data Model sẽ được giữ nguyên riêng biệt sau khi đẩy lên GG BQ và không cần dùng công thức tách chuỗi</li></ul> |
| Custom Table Name | dùng để đặt tên bảng table trên GG BQ sau khi dữ liệu được push |                                                                                                                                                                                                                                                                                                                   |

<figure><img src="/files/6tZTHE8UF4MGTT3ODAyv" alt=""><figcaption></figcaption></figure>

| Trường thông tin              | Mô tả                                                                                                                                |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |
| ----------------------------- | ------------------------------------------------------------------------------------------------------------------------------------ | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| (1) **Feed data to BigQuery** |                                                                                                                                      |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |
| Data type                     | Data Model được chọn để push lên GG BigQuery                                                                                         | Mặc định hiển thị tự động                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |
| Table name                    | sẽ tự sinh ra sau khi chọn Data type                                                                                                 | Mặc định hiển thị tự động                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |
| Job description               | mô tả về dataset                                                                                                                     |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |
| Batch Loading                 | dùng để đẩy theo từng Batch Data (phân tách thành nhiều phần và Push data lên Google BQ, thường áp dụng cho push data số lượng lớn). | Google BQ thì các Batch được push lên sẽ không có cập nhật thông tin để người dùng biết nên ít khi dùng chức năng này.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
| More filters                  | thêm điều kiện lọc về data muốn feed vào dataset (các field đã tạo ở Data model)                                                     |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |
| Trigger                       | chọn thời gian để push dữ liệu                                                                                                       | <ul><li>Instance: Chọn khoảng thời gian cụ thể và feed data lên dataset BigQuery ngay lập tức</li><li>Schedule: Đặt lịch, chọn khoảng thời gian cụ thể cho hệ thống tự động feed data lên Bigquery ( trường hợp dưới đây là feed data mỗi giờ, ví dụ: 3:00, 4:00,…) </li></ul>                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
| Look back time                | là tổng khoảng thời gian mà hệ thống sẽ lấy mỗi khi bắt đầu chạy auto feed data                                                      | <p>Ví dụ khi chúng ta chọn khoảng thời gian mà hệ thống sẽ tự động feed data là mỗi giờ vào lúc :00’ thì đúng khi bước qua giờ mới hệ thống sẽ chạy quét dữ liệu từ giờ trước đó ( 3h-4h thì sẽ là dữ liệu từ 03:00 - 04:00 là 60’) nhưng từ đoạn thời gian bắt đầu quét và push lên Bigquery thì sẽ tốn một khoảng thời gian tuỳ thuộc vào lượng data(ví dụ trong trường hợp này là 5’) nên thay vì chúng ta quét 60’ thì chúng ta sẽ quét 65’ để có thể hold được lượng data bị miss trong khoảng thời gian mà hệ thống xử lý lượng data từ giờ trước đó</p><p></p><p>Sẽ có một số mốc thời gian để có thể dễ hình dung</p><p></p><p>Mỗi giờ: 65’</p><p>Mỗi ngày: 25h</p><p></p><p>Và đây sẽ là 2 khoảng thời gian thường gặp nhất</p> |
| (2) **View task**             | view lại những task đã chạy trước đó ( feed now hoặc feed schedule)                                                                  |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |
| (3) **Check sum**             | Kiểm tra lại lượng dữ liệu trong model Pango và lượng dữ liệu đã push lên Bigquery                                                   |                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |

<figure><img src="/files/8UQzrsk1alcJ8pP51u1I" alt=""><figcaption></figcaption></figure>

<figure><img src="/files/utbZsFIAB3jQLxzZWTND" alt=""><figcaption></figcaption></figure>

{% hint style="info" %}
**Warning:** Thường thì khi feed data lên Bigquery thì sẽ feed all data đang có sẵn cho lần đầu tiên để đảm bảo đầy đủ. Sau lần đầu sẽ dùng schedule - đặt lịch feed định kỳ.
{% endhint %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://help.pangocdp.com/user-guide/module-console/connections/database/dong-bo-du-lieu-voi-bigquery.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
