シリーズ判定最適化前線
https://amakan.net/ では書籍のシリーズ判定に日夜取り組んでおり、ここで最近追加された変更を紹介します。
シリーズ判定とは
先にシリーズ判定の課題について説明しておくと、まず書籍タイトルからシリーズ名を抽出したいという問題があります。似たような本の集合を見つけるのは簡単ですが、集合に名前が付けられて、かつルールが明確であることが求められます。そこで、シリーズ名を集合の名前かつ検索キーワードとして利用することでこれを解決します。
また、巻ごとに表記揺れした書籍タイトルからも同じシリーズ名を抽出したいという問題があります。ミスった場合、同じシリーズ名が抽出されず、別のシリーズが作成され、複数のシリーズに分割されてしまうという問題があります。書籍名はバイトが表紙を見ながら手入力しているのではないかという精度なので、大体表記揺れしています。
以前 「Kyoto.なんか #2」というイベントで、amakanにおける書籍のシリーズ判定方法について話しました - ✘╹◡╹✘ という記事も書いたのでこちらもご覧ください。判定されたシリーズの活用例として amakanでKindle Unlimitedの上位100件を集めた - ✘╹◡╹✘ などがあります。
CHANGELOG
- 第N版に対応: JavaScript 第6版 など
- Lv.N に対応: ネトゲの嫁は女の子じゃないと思った? Lv.2 など
- 一部では完全に失敗しており「パパLv1」が「パパ」シリーズに
- 角括弧を丸括弧に正規化: 「IS<インフィニット・ストラトス> 1」→「IS (インフィニット・ストラトス) 」
- Volume Nに対応: ヤマノススメ volume 3 など
- 鍵括弧を巻数判定から除外: 俺がお嬢様学校に「庶民サンプル」として拉致られた件 など
- ハイフンで囲われた部分を丸括弧に正規化: 艦隊これくしょん -艦これ- など
- 末尾以外の括弧は巻数らしくなければ外さないように変更: 「To LOVEる -とらぶる- ダークネス」など
- "-"を2箇所含むタイトルの誤判定に対応: BLOOD‐C (1) (角川コミックス・エース 162-9) など
- 巻数の小数表記に対応: 俺がお嬢様学校に「庶民サンプル」として拉致られた件7.5 など
- Vol. 表記に対応: WEB+DB PRESS Vol.34 など
#N
表記に対応: 終末なにしてますか? もう一度だけ、会えますか?#01 など- 上巻下巻前編中編後編に対応: 魔法少女育成計画limited(前)など
- YYYY年MM月号に対応: アフタヌーン 2014年12月号 など
- 役割名付きの一部の著者表記に対応: (原作・イラスト)Cygames など
- 著者表記の役割名パターンの追加: (キャラクター原案)ハラカズヒロ など
- "!"と"」"の間の空白を削除: まおゆう魔王勇者 「この我のものとなれ、勇者よ」「断る! 」 など
- 巻数の前に","を入れる海外版表記に対応: Buso Renkin, Vol. 5 など
詳しくは https://github.com/amakan/amakanize をご覧ください。直近では「第六大陸」などと戦っています (末尾の陸が漢数字の六なのでミスって削り取られている)。