Hive指令操作測試

 



Setup Hive and Bee

使用來自 Docker Hub 的 Hive 進行此實驗。
通過運行以下命令將 Hive 映像拉取到您的系統中。
docker pull apache/hive:4.0.0-alpha-1

現在,將在端口 10002 上運行 hive 伺服器。
將Server instance命名為 myhiveserver。
我們將把本地數據文件夾掛載到 hive 伺服器上,名稱為 hive_custom_data。
這意味著您在本地創建的整個數據文件夾,以及在數據文件夾中添加的任何內容,都會複製到容器的 hive_custom_data 目錄下。

docker run -d -p 10000:10000 -p 10002:10002 --env SERVICE_NAME=hiveserver2 -v /home/project/data:/hive_custom_data --name myhiveserver apache/hive:4.0.0-alpha-1

可以打開並查看Hive伺服器的圖形用戶介面。
打開HiveServer2圖形用戶介面
https://chousml-10002.theiadockernext-1-labs-prod-theiak8s-4-tor01.proxy.cognitiveclass.ai/
運行以下命令,允許訪問 beeline。
這是一個 SQL 命令行界面,可以在其中創建、修改、刪除表格,並訪問表格中的數據。
docker exec -it myhiveserver beeline -u 'jdbc:hive2://localhost:10000/'


Create table, add and view data

創建一個新的表格 Employee,包含三個欄位, csv 中的 em_id、emp_name 和 salary,請運行以下命令。

create table Employee(emp_id string, emp_name string, salary  int)  row format delimited fields terminated by ',' ;

show tables;
確認創建好的table


現在透過執行以下命令從 csv 檔案將數據載入表格中。

LOAD DATA INPATH '/hive_custom_data/emp.csv' INTO TABLE Employee;


運行以下命令以列出表中的所有row資料,以檢查數據是否已從 CSV 加載。


可以在 HiveServer2 GUI 中查看命令的詳細信息和結果。

要跳出beeline 就打Ctrl+D即可

Hive 在內部使用 MapReduce 來處理和分析數據。當我們執行 Hive 查詢時,它會生成在 Hadoop 集群上運行的 MapReduce 工作。

















留言

這個網誌中的熱門文章

何謂淨重(Net Weight)、皮重(Tare Weight)與毛重(Gross Weight)

經得起原始碼資安弱點掃描的程式設計習慣培養(五)_Missing HSTS Header

Architecture(架構) 和 Framework(框架) 有何不同?_軟體設計前的事前規劃的藍圖概念