目次

テキストのクレンジング

概要

  • 文字列型の列を選択肢、分析に適した形に整えることができます。
  • 選択肢から適用する処理を選択することもできます。
    • 改行コードを除去
    • URLを除去
    • 電話番号を除去
    • 数値を0に置換
    • HTMLタグを除去
    • すべて小文字にする
    • すべて大文字にする
    • 正規表現で指定(置換ルールを設定できます)
  • 自動で適用される処理については、補足を参照ください。

入出力

入力

  • データ

出力

  • データ

仕様補足

以下、自動で適用される処理。

  • 全角英数字は半角に置換
  • 半角カタカナは全角に置換
  • ハイフン・マイナスに似た文字はハイフンマイナスに置換
  • 長音記号に似た文字は全角長音記号に置換
  • 1回以上連続する長音記号は1回に置換
  • チルダに似た文字は削除
  • 以下の全角記号は半角に置換
    • /!”#$%&’()*+,−./:;<>?@[¥]^_`{|}
  • 以下の半角記号は全角に置換
    • 。、・=「」
  • 全角スペースは半角スペースに置換
  • 1つ以上の半角スペースは1つに置換
  • 文字列の先頭と末尾のスペースは除去
  • 「ひらがな・全角カタカナ・半角カタカナ・漢字・全角記号」間に含まれる半角スペースは削除
    • 検索 エンジン 自作 入門 を 買い ました !!! => 検索エンジン自作入門を買いました!!!
    • Coding the Matrix => Coding the Matrix
  • 「ひらがな・全角カタカナ・半角カタカナ・漢字・全角記号」と「半角英数字」の間に含まれる半角スペースは削除
    • アルゴリズム C => アルゴリズムC
    • Algorithm C => Algorithm C
この記事は役に立ちましたか?
はい いいえ
この記事は役に立ちましたか?
はい いいえ