Skip to content

When adjacent lexical words are both marked up #168

@DavidHaslam

Description

@DavidHaslam

Some languages have writing systems in which to a large extent, there are no spaces between words.

Examples include:

  1. Thai
  2. Lao
  3. Khmer
  4. Burmese (Myanmar)

Until the Middle Ages, most languages in Europe were similar, as Scriptio Continua was standard practice before the origins of Silent Reading and the invention of the printing press by Gutenberg.

When adding bold markup algorithmically to lexical names in Thai text, I came across an example in which two adjacent Thai words were names, and as there was no space between them, this is the result:

Hosea 1:7: แต่เราจะมีความเมตตาต่อวงศ์วานของ**ยูดาห์** และจะช่วยพวกเขาให้รอดพ้นโดย**พระเยโฮวาห์****พระเจ้า**ของพวกเขา และจะไม่ช่วยพวกเขาให้รอดพ้นโดยคันธนู หรือโดยดาบ หรือโดยการสู้รบ โดยม้าทั้งหลาย หรือโดยเหล่าทหารม้า”

which displays as follows:

Hosea 1:7: แต่เราจะมีความเมตตาต่อวงศ์วานของยูดาห์ และจะช่วยพวกเขาให้รอดพ้นโดยพระเยโฮวาห์****พระเจ้าของพวกเขา และจะไม่ช่วยพวกเขาให้รอดพ้นโดยคันธนู หรือโดยดาบ หรือโดยการสู้รบ โดยม้าทั้งหลาย หรือโดยเหล่าทหารม้า”

This could be due to a software bug in MarkdownViewer++ or maybe it's a weakness in the specification for Markdown itself. The fact that GitHub does the same suggests that it's the latter.

Either way, the result is not what is required when the markup is applied individually for two or more adjacent words with no intervening space.

A workaround meanwhile is to place a ZWSP between the words prior to adding the Markdown asterisks.

For further details, please see this link to my ongoing conversation with Grok.

Background reading:

  1. https://en.wikipedia.org/wiki/Scriptio_continua
  2. https://amzn.eu/d/1cbeGkD

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions