Unicodeどうしてる? PHPから見たUnicode対応と他言語での対応についてのお伺い by てきめん

BuriKaigi 2026
レギュラー

Unicodeどうしてる? PHPから見たUnicode対応と他言語での対応についてのお伺い

youkidearitai てきめん youkidearitai

PHPのコミッターをしています。
主にUnicode周り(intl、grapheme関数)、レガシー文字エンコーディング周り(mbstring)のメンテナンスを行っています。

最近、PHPでgrapheme関数という、Unicodeで言う拡張書記素クラスター(以下、書記素クラスター)に対応した関数を作成しています。
RubyでString.grapheme_clustersの性質を持ったgrapheme_str_split関数、
書記素クラスター単位で2文字列間のレーベンシュタイン距離を測るgrapheme_levenshtein関数などを作ってきました。

JavaScriptでIntl.Segmenterのようなものもアイデアとしてありますが、
他言語での書記素クラスターの対応はどうなっているのでしょうというのを伺いたいと思い、本プロポーザルに応募いたします。

想定する参加者としましては、Unicodeで文字が読み書きできるのであればどなたでもよく、
またPHPを使っている方でも、そうでない方でも歓迎します。
ただし、レーベンシュタイン距離と言ったように、少し技術的に難しかったり、Unicodeについてマニアックな内容も含まれているかと思われます。