csv to parquet in duckdb. 使用 duckdb将csv文件转为 parquet.

使用 copy to 语句即可:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
copy (SELECT * FROM read_csv('E:\BigData\fqstockmin2016-2020.csv', 
header=true, columns={
'stockcode': 'VARCHAR',
'contractname': 'VARCHAR',
'datestr': 'VARCHAR',
'startprice': 'DOUBLE',
'maxprice': 'DOUBLE',
'minprice': 'DOUBLE',
'endprice': 'DOUBLE',
'volume': 'DOUBLE',
'trademoney': 'DOUBLE',
'id': 'BIGINT',
'lastdate': 'VARCHAR',
'profit': 'DOUBLE',
'lastendprice': 'DOUBLE'
})) to
'E:\BigData\fqstockmin2016-2020.parquet' (format 'parquet');

注意时间最好用字符串存, 否则为datetime类型的话spark读取会出现一些错误的时间结果