言語処理向けクレンジング
概要
- 文字列型の列を選択肢、分析に適した形に整えることができます。
- 自動で適用される処理については、補足を参照ください。
- 選択肢から適用する処理を選択することもできます。
- 電話番号を除去
- 数値を0に置換
入出力
入力
- データ
出力
- データ
仕様補足
以下、自動で適用される処理。
- 全角英数字は半角に置換
- 半角カタカナは全角に置換
- ハイフン・マイナスに似た文字はハイフンマイナスに置換
- 長音記号に似た文字は全角長音記号に置換
- 1回以上連続する長音記号は1回に置換
- チルダに似た文字は削除
- 以下の全角記号は半角に置換
- /!”#$%&’()*+,−./:;<>?@[¥]^_`{|}
- 以下の半角記号は全角に置換
- 。、・=「」
- 全角スペースは半角スペースに置換
- 1つ以上の半角スペースは1つに置換
- 文字列の先頭と末尾のスペースは除去
- 「ひらがな・全角カタカナ・半角カタカナ・漢字・全角記号」間に含まれる半角スペースは削除
- 検索 エンジン 自作 入門 を 買い ました !!! => 検索エンジン自作入門を買いました!!!
- Coding the Matrix => Coding the Matrix
- 「ひらがな・全角カタカナ・半角カタカナ・漢字・全角記号」と「半角英数字」の間に含まれる半角スペースは削除
- アルゴリズム C => アルゴリズムC
- Algorithm C => Algorithm C