照合元データが中国語になっている!

こんにちは。営業のNです。
今回もXMLデータを作っているときに遭遇したトラブルについてご案内いたします。

タイトル見て、なんだそれ?と思われたかもしれません。
私もそうです。
流行りの陰謀論でいったらPMDAが中国にのっとられたのかと思いましたよ。
事前にいっておきますがもちろんそんなことはないですよ。

事象を説明します。

ある先発医薬品でXMLの改訂作業をすすめていました。
校了日が近づいてきて、照合元データが公開されたので照合元データをとりこみます。
その後、校正のためXML新旧比較ツールで改訂前と改訂後とを比べました。

右と左とで比較しています。 通常ここまできたらもう違いはほぼないです。

ところが差分が検知されました。なんだろうと思ってみてみたら、「示」や「血」が違うと検知されています。
ただ、ぱっとみたところ、左右に差分があるようにみえません。

あれ?おかしいな、と思ってもっとよくみてみました。微妙に字形が違いませんか?

照合元データをテキストエディタで開いて拡大してみます。
よくみたら、いつものものと若干字形が違います。

になっています。

これはなんでしょうか?

こちらの文字コードが何かを調べるツールにいれてみます。

普通に使う「示」はUnicodeでは、u793Aが割り当てられています。

こちらの

は、u2F70でした。

同じく、普通に使う「血」はUnicodeではu8840です。

こちらの

は、u2F8Eでした。

しらべてみたら、康煕部首というものでした。

康熙字典の文字214部首が収録されているUnicodeのブロックだそうで。
無味乾燥な添付文書が急に文学の香りがしてきました。

こういうときは、どうしたらいいのでしょうか?

2つやりかたがあります。

  1. 気にせずこのまま届け出。
    そうすると自動受理されます。事なかれ主義感がありますが、前回ブログでも書きましたが照合元データにあわせていくのが基本なのでこちらが無難ではあります。
  2. やはり気になる。通常コードに変えて届け出。
    そうなると手動受理になるため、少し時間がかかります。ただ受理がされないことはないと思います。

なぜ康煕部首が急にでてくるのでしょうか?

こればっかりはどういう処理をして照合元データを作っているのかがわからないのでなんともいえません。
私も今回知ったのですが康煕部首に変わってしまうバグはちょこちょこあるようです。

このあたりご参照ください。

PPTで漢字を5文字以上並べると中国語に変わる」というバグもあるんですね。

私の環境ではみごとに中国語フォントにかわったので驚きました。 みなさんの環境ではいかがですか?

詳しいことは私の手にはおえませんが、やはりオフィスというのはもともと1バイト文字が前提で作られました。
2バイト文字を扱おうと思うといろいろな不都合があるんでしょうね。

さいごに
最後になりますが本ブログは特定の製品などを誹謗する目的ではなく、皆様のXML作成を手助けし、ひいては製薬業界の情報提供活動に寄与する目的で記載しております。

関連記事

  1. 新記載要領の改訂記号の付し方について2

  2. 一変承認の照合元データは承認後

  3. 医薬品添付文書のXML【その他の副作用について】

  4. ジェネリック薬品メーカー様!新記載要領を進めていきましょう!…

  5. 新記載要領の改訂記号の付し方について1

  6. 添付文書用XML解析 7. 組成性状