本仓库包含了 Python pickle 格式和 Rasa NLU JSON 格式(https://rasa.com/docs/nlu/dataformat/#json-format)的 ATIS Dataset(数据集),并提供了读取脚本和示例代码。
   0:         flight: BOS i want to fly from boston at 838 am and arrive in denver at 1110 in the morning EOS
                              BOS                                        O
                                i                                        O
                             want                                        O
                               to                                        O
                              fly                                        O
                             from                                        O
                           boston                      B-fromloc.city_name
                               at                                        O
                              838                       B-depart_time.time
                               am                       I-depart_time.time
                              and                                        O
                           arrive                                        O
                               in                                        O
                           denver                        B-toloc.city_name
                               at                                        O
                             1110                       B-arrive_time.time
                               in                                        O
                              the                                        O
                          morning              B-arrive_time.period_of_day
                              EOS                                        O
{
    "rasa_nlu_data": {
        "common_examples": [
            {
                "text": "i would like to find a flight from charlotte to las vegas that makes a stop in st. louis",
                "intent": "flight",
                "entities": [
                    {
                        "start": 35,
                        "end": 44,
                        "value": "charlotte",
                        "entity": "fromloc.city_name"
                    },
                    {
                        "start": 48,
                        "end": 57,
                        "value": "las vegas",
                        "entity": "toloc.city_name"
                    },
                    {
                        "start": 79,
                        "end": 88,
                        "value": "st. louis",
                        "entity": "stoploc.city_name"
                    }
                ]
            },
            ...
        ]
    }
}| 样本数 | 词汇数 | 实体数 | 意图数 | 
|---|---|---|---|
| 4978(训练集)+893(测试集) | 943 | 129 | 26 | 
summary_data.py 中包含了读取原始数据的代码,用户可以参考该代码,实现从原始文件读取数据。
| 数据格式 | 训练集 | 测试集 | 
|---|---|---|
| Python 3 Pickle 格式 | atis.train.pkl | atis.test.pkl | 
| Rasa NLU JSON 格式 | train.json | test.json | 
- 本项目的原始数据集来自 ATIS DataSet by siddhadev,部分代码亦来自此处。
- NOTE: 
ATIS DataSet by siddhadev数据集则来自于 MicroSoft CNTK Examples 
 - NOTE: 
 
- https://github.com/mesnilgr/is13 也提供了 ATIS 数据集,但该数据集只有实体数据没有意图数据。