<html><head><style type='text/css'>p { margin: 0; }</style></head><body><div style='font-family: Times New Roman; font-size: 12pt; color: #000000'>Hi Peter --<br><br>If I'm reading your post correctly...  You're saying that simply invoking a locale-specific collating sequence during publishing (i.e., with no additional collating clues provided) may produce results acceptable to each locale? <br><br>Unless anyone knows otherwise, it sounds like that hypothesis is worth testing: select/create a source document with enough collating edge conditions, format locale-specific versions, and have the results reviewed by locale-skilled readers.<br><br>If it works, obviously it's a lot easier than building a new solution...<br><br>Thanks --<br><br>Fred<br><br><br><hr id="zwchr"><blockquote style="border-left: 2px solid rgb(16, 16, 255); margin-left: 5px; padding-left: 5px; color: rgb(0, 0, 0); font-weight: normal; font-style: normal; text-decoration: none; font-family: Helvetica,Arial,sans-serif; font-size: 12pt;">On Tue, Jan 31, 2012 at 06:45:12PM +1100, I wrote:<br><br>> Apparently, the mapping from a string of Kanji to its pronunciation<br>> (ordering) isn't even a deterministic operation, at least for proper<br>> names.<br><br>(Of course I meant "proper nouns".  Actual non-determinism might even be<br>limited to proper nouns, though I'm not sure that that changes anything<br>from a coding point of view.)<br><br>> Thus, the solution would have to involve supplying pronunciations somehow<br>> for at least some glossary entries.<br><br>More precisely, it follows that sorting Kanji entries by pronunciation<br>would in general require supplying pronunciations for some entries.<br><br>However, I don't want my unclear wording to contribute to wrong<br>conclusions about what Publican actually requires: I'm not in a position<br>to say whether Publican requires index or glossary entries involving<br>Kanji to be sorted by contextually-correct pronunciation.  All I've<br>learnt over the past couple of days is that *outside of* a book index or<br>glossary, Kanji are sorted sometimes by contextually-correct<br>pronunciation and sometimes by some other order (and I think there's more<br>than one alternative, even).<br><br>If anyone wants a concrete sample for an "is this output acceptable"<br>question (and if not using software just for japanese sorting, like<br>Lingua::JA::Sort::JIS), then I suggest making sure that the collation<br>function is tailored for a Japanese locale (e.g. using<br>Unicode::Collate::Locale->new(locale => 'ja-JP')): without that,<br>collation software is unlikely to try to use a specifically-japanese<br>ordering of Kanji characters or intersperse Katakana with Hiragana.<br><br>In particular, the documentation for plain Unicode::Collate is explicit<br>that it doesn't intersperse Katakana with Hiragana, and that its Kanji<br>ordering is simply by unicode block & code point rather than by a JIS<br>ordering.<br><br>So I think the easiest thing to do that has a good chance of getting a<br>"yes, this is acceptable" answer would be to switch from Unicode::Collate<br>to Unicode::Collate::Locale and pass locale => $LANG to the constructor<br>(where $LANG is the Publican language like en-US or ja-JP).<br><br><br>Effect on other languages:<br><br>Switching to a locale-sensitive collator might also make for a better<br>collation of Indic languages (handling of virama, and some related<br>reordering rules).<br><br>Whereas if applied to Spanish for indexes, note that it might move<br>entries like chkconfig from near the beginning of the C entries to just<br>before D; it's not clear to me whether that's a good or bad thing for a<br>word like chkconfig that isn't even spanish and thus arguably isn't using<br>the Spanish ch digraph.<br><br>(In both cases, I haven't actually tested the behaviour, nor have I asked<br>a native speaker for their preferences for index/glossary sorting in<br>technical documentation.)<br><br>pjrm.<br><br>_______________________________________________<br>publican-list mailing list<br>publican-list@redhat.com<br>https://www.redhat.com/mailman/listinfo/publican-list<br>Wiki: https://fedorahosted.org/publican<br></blockquote><br></div></body></html>