Import data từ Google Drive

Tài liệu hướng dẫn bạn nắm thao tác cách import một danh sách các files từ 1 tệp có trên Google Drive vào hệ thống PangoCDP.

Bước 1: Tạo một kết nối đến Google Drive

Tạo theo doc hướng dẫn

Bước 2: Tạo 1 dataset

2.1/ Tạo một Dataset trên PangoCDP theo các bước:

  • Truy cập Module CDP

  • Chọn Data Ingestion, nhấn vào tab Dataset, chọn File Form Your Cloud

  • Chọn Model mà user cần đẩy data vào

  • Chọn “Select a file”

  • Chọn Cloud Storage Service Provider là Google Drive

  • Chọn kết nối mong muốn

  • Chọn file sẽ được đẩy data vào model và sync data để Pango CDP cập nhật data trên Google Drive nếu ở đó chưa có records nào

  • Chọn “Select” để chọn file; Lưu ý để file được hệ thống đọc được thì phải có định dạng như: *.xlsx và *.csv

  • Chọn “View Sample” để xem data mẫu có trong file nếu đã đúng chọn “Next”

  • Điền những thông tin cần thiết rồi chọn “Create & Close”

  • Mapping những trường data tương ứng giữa file và model bằng cách chọn icon

2.2/ Ingest data vào Pango CDP từ Clould Folder (Google Drive)

  • Chọn "Ingest data form a folder into CDP"

  • Chọn folder trên Drive

  • Chọn cloud storage

  • Chọn kết nối

  • Chọn folder chứa files

  • Chọn tên file theo cấu trúc

  • Cấu hình tiếp tục những mục đánh số rồi Save lại

  • Đặt lịch sync Schedual (Now & Schedule)

Trường thông tin
Ý nghĩa

Matching file name

Tên file đã có đề cập ở trên

To lines - Total x lines

Số dòng tối đa hệ thống sẽ sync về model; Nếu lấy tất cả record thì chọn “-1” ở đó

Id Field

Ref ID dùng để import vào mode có thể chọn 1 trường của dataset (lưu ý trường này phải là duy nhất ở các record) hoặc chọn cho hệ thống tự tạo refID bằng cách check “Auto generate”

Tags

Tags quản lý

Data source

Tên nguồn data

Priority

Mức độ ưu tiên khi có job import vào model; có 3 mức: cao, vừa và thấp, thường sẽ chọn mức Medium

Update Strategy

Chọn loại cập nhật, có 4 loại:

  • Ignore if exist: bỏ qua những records đã có refID tồn tại trong model và import những records mới

  • Override: cho phép ghi đè toàn bộ trường từ bảng data import vào model nếu có cùng refID

  • Update if New Value has Value: Chỉ cập nhật records nếu trường từ bảng data import có giá trị mới so với giá trị cũ nếu records đó có cùng refID

  • Update if Old Value no Value: Chỉ cập nhật records nếu trường từ bảng Model cũ (Model được import) không có giá trị nếu records đó có cùng refID

  • Chọn Trigger Now: sync lần đầu tiên và ngay lập tức tại thời điểm sync

  • Chọn Trigger Schedule: đặt lịch thời gian sync cố định theo yêu cầu

Chọn look back time rồi chọn “Config Schedule” để cấu hình lịch chạy

Vd: User cấu hình mỗi ngày hệ thống sẽ lấy data import vào 8:00 và 20:00 vào mỗi ngày và có look back là 13 tiếng để đảm bảo không sót file nào khi chạy

Valid Range Time là thời gian hiệu lực của timer vừa cấu hình. Nếu qua thời gian chọn thì cấu hình này không còn hiệu lực nữa.

2.3/ Kiểm tra và xem lại file dữ liệu đã sync

  • Chọn View Task

  • Chọn History

Last updated

Was this helpful?