-
Notifications
You must be signed in to change notification settings - Fork 34
Az.Tokens
Kind: global namespace
-
Az :
object-
.Tokens
- new Tokens([text], [config])
- .append(text, [config])
-
.done([filter], [exclude]) ⇒
Array.<Token> -
.count([filter], [exclude]) ⇒
Number -
.nextToken(moveIndex, [filter], [exclude]) ⇒
Token|null -
.punctAhead() ⇒
Token|False -
.prevToken(moveIndex, [filter], [exclude]) ⇒
Token|null -
.punctBehind() ⇒
Token|False -
.hasTokensAhead([filter], [exclude]) ⇒
boolean -
.hasTokensBehind([filter], [exclude]) ⇒
boolean
-
.Tokens
Kind: static class of Az
Playground: var Az = require('az');
var tokens = Az.Tokens('Текст (от лат. textus — «ткань; сплетение, связь, паутина, сочетание») — зафиксированная на каком-либо материальном носителе человеческая мысль; в общем плане связная и полная последовательность символов.');
tokens.done();
-
.Tokens
- new Tokens([text], [config])
- .append(text, [config])
-
.done([filter], [exclude]) ⇒
Array.<Token> -
.count([filter], [exclude]) ⇒
Number -
.nextToken(moveIndex, [filter], [exclude]) ⇒
Token|null -
.punctAhead() ⇒
Token|False -
.prevToken(moveIndex, [filter], [exclude]) ⇒
Token|null -
.punctBehind() ⇒
Token|False -
.hasTokensAhead([filter], [exclude]) ⇒
boolean -
.hasTokensBehind([filter], [exclude]) ⇒
boolean
Создает токенизатор текста с заданными опциями.
| Param | Type | Default | Description |
|---|---|---|---|
| [text] | string |
Строка для разбивки на токены. | |
| [config] | Object |
Опции, применяемые при разбивке. | |
| [config.html] | boolean |
False |
Распознавать и выделять в отдельные токены (типа TAG) HTML-теги. Кроме того, содержимое тегов <style> и <script> будет размечено как единый токен типа CONTENT. |
| [config.wiki] | boolean |
False |
Распознавать и выделять в отдельные токены элементы вики-разметки. |
| [config.markdown] | boolean |
False |
Распознавать и выделять в отдельные токены элементы Markdown-разметки. |
| [config.hashtags] | boolean |
True |
Распознавать и выделять в отдельные токены хэштеги (строки, начинающиеся с символа «#»). |
| [config.mentions] | boolean |
True |
Распознавать и выделять в отдельные токены упоминания (строки, начинающиеся с символа «@»). |
| [config.emails] | boolean |
True |
Распознавать и выделять в отдельные токены е-мейлы (нет, распознавание всех корректных по RFC адресов не гарантируется). |
| [config.links] | Object |
Настройки распознавания ссылок. False, чтобы не распознавать ссылки совсем. | |
| [config.links.protocols] | boolean |
True |
Распознавать и выделять в отдельные токены ссылки с указанным протоколом (http://, https:// и вообще любым другим). |
| [config.links.www] | boolean |
False |
Распознавать и выделять в отдельные токены ссылки, начинающиеся с «www.». |
| [config.links.tlds] | Object |
Объект, в котором ключами должны быть домены верхнего уровня, в которых будут распознаваться ссылки. По умолчанию текущий список всех таких доменов. |
Отправляет ещё один кусок текста на токенизацию. Таким образом вполне допустимо обрабатывать большие документы частями, многократно вызывая этот метод. При этом токен может начаться в одной части и продолжиться в следующей (а закончиться в ещё одной).
Kind: instance method of Tokens
See: Tokens
| Param | Type | Description |
|---|---|---|
| text | string |
Строка для разбивки на токены. |
| [config] | Object |
Опции, применяемые при разбивке. Перекрывают опции, заданные в конструкторе токенизатора. |
Завершает токенизацию, возвращая список токенов.
Kind: instance method of Tokens
Returns: Array.<Token> - Список токенов после фильтрации.
| Param | Type | Default | Description |
|---|---|---|---|
| [filter] | Array.<String> |
Список типов токенов, по которым нужно отфильтровать результат. | |
| [exclude] | boolean |
False |
Инвертирует фильтр, т.е. возвращаются токены со всеми типами, за исключением перечисленных в filter. |
Подсчитывает текущее количество токенов.
Kind: instance method of Tokens
Returns: Number - Число токенов после фильтрации.
| Param | Type | Default | Description |
|---|---|---|---|
| [filter] | Array.<String> |
Список типов токенов, по которым нужно отфильтровать результат. | |
| [exclude] | boolean |
False |
Инвертирует фильтр, т.е. подсчитываются токены со всеми типами, за исключением перечисленных в filter. |
Получает следующий токен относительно текущей позиции.
Kind: instance method of Tokens
Returns: Token | null - Следующий токен или null, если подходящих токенов
впереди нет.
| Param | Type | Default | Description |
|---|---|---|---|
| moveIndex | boolean |
Следует ли переместить указатель к следующему токену (в противном случае следующий вызов nextToken вернет тот же результат) | |
| [filter] | Array.<String> |
Список типов токенов, по которым нужно итерироваться. | |
| [exclude] | boolean |
False |
Инвертирует фильтр, т.е. возвращаются токены со всеми типами, за исключением перечисленных в filter. |
Проверяет, является ли следующий (за исключением пробелов) токен знаком препинания или нет.
Kind: instance method of Tokens
Returns: Token | False - False, если следующий токен не является знаком
препинания, либо сам токен в противном случае.
Получает предыдущий токен относительно текущей позиции.
Kind: instance method of Tokens
Returns: Token | null - Предыдущий токен или null, если подходящих токенов
позади нет.
| Param | Type | Default | Description |
|---|---|---|---|
| moveIndex | boolean |
Следует ли переместить указатель к предыдущему токену (в противном случае следующий вызов prevToken вернет тот же результат) | |
| [filter] | Array.<String> |
Список типов токенов, по которым нужно итерироваться. | |
| [exclude] | boolean |
False |
Инвертирует фильтр, т.е. возвращаются токены со всеми типами, за исключением перечисленных в filter. |
Проверяет, является ли предыдущий (за исключением пробелов) токен знаком препинания или нет.
Kind: instance method of Tokens
Returns: Token | False - False, если предыдущий токен не является знаком
препинания, либо сам токен в противном случае.
Проверяет, есть ли впереди текущей позиции токены, удовлетворяющие фильтру.
Kind: instance method of Tokens
Returns: boolean - True если впереди есть хотя бы один подходящий токен,
и False в противном случае.
| Param | Type | Default | Description |
|---|---|---|---|
| [filter] | Array.<String> |
Список типов токенов, по которым нужно итерироваться. | |
| [exclude] | boolean |
False |
Инвертирует фильтр, т.е. учитываются токены со всеми типами, за исключением перечисленных в filter. |
Проверяет, есть ли позади текущей позиции токены, удовлетворяющие фильтру.
Kind: instance method of Tokens
Returns: boolean - True если позади есть хотя бы один подходящий токен,
и False в противном случае.
| Param | Type | Default | Description |
|---|---|---|---|
| [filter] | Array.<String> |
Список типов токенов, по которым нужно итерироваться. | |
| [exclude] | boolean |
False |
Инвертирует фильтр, т.е. учитываются токены со всеми типами, за исключением перечисленных в filter. |