Hugging face的重要模块
from transformers import pipeline
translator = pipeline('translator', model="some language")
translator('....')
gpt-2的数据来自于海量的reddit的用户评论。图片相关的模型都是基于Imagenet上的数据集训练的,该dataset提供1000个标签,用于图片分类,但是基于Imagenet训练的模型有一个问题,他都是基于美国和欧洲的图片训练的。 Bert是基于维基百科和11000本没有发布的书训练的。
Transformer
│
┌──────────────┼──────────────┐
│ │ │
Encoder-only Decoder-only Encoder–Decoder
(BERT family) (GPT) (T5)
│ │ │
理解任务 生成任务 理解+生成任务
│ │ │
┌────┴─────┐ │ ┌────┴─────────────┐
│ │ │ │ │
情感分析 抽取QA 文本生成 翻译/摘要/QA 任何 NLP 任务
分类 填空 对话 (text-to-text)
列存储的优势,每个列一个文件,且可以做数据压缩(如RLE,差分编码,字典索引等),所以在写少读多,且有聚合的场景下性能比行数据库强很多
Parquet是一种Big data领域经常使用到的列存储格式
Parquet File
├── RowGroup 1
│ ├── ColumnChunk(id)
│ │ └── Page 1: Delta Encoding
│ │ Data: [1, +1, +1]
│ │
│ ├── ColumnChunk(name)
│ │ ├── Dictionary Page:
│ │ │ ["Alice", "Bob", "Carol"]
│ │ └── Data Page:
│ │ Data: [0, 1, 2]
│ │
│ └── ColumnChunk(age)
│ └── Page 1: Delta Encoding
│ Data: [20, +1, +1]
│
└── File Footer(元数据:schema、编码方式、统计信息)