Skip to the content.

DS検定トップ > 郵便番号の正規表現とは?電話番号との違いで理解する【DS検定】

まず結論

正規表現は「文字列の形式」を確認する道具であり、「意味の正しさ」までは保証しません。 DS検定では、“何を保証していて、何を保証していないか”を判断できるかが問われます。


直感的な説明

これまで、

  • 電話番号
  • 郵便番号
  • 日付
  • メールアドレス

を通して学んできました。

共通しているのは、

正規表現は「形」を見ているだけ

ということです。

実務でも、正規表現は入力チェックやデータ前処理で使われますが、 「妥当性」や「実在性」までは確認しません。

DS検定では、この“限界”を理解しているかどうかが重要です。


定義・仕組み

ここで、よく出る記号を整理します。

  • ^ :先頭
  • $ :末尾
  • . :任意の1文字
  • . :ドットそのもの
  • \d :数字1文字
  • {n} :ちょうどn回
  • {n,} :n回以上
  • ? :0回または1回
    • :1回以上
    • :0回以上
  • [] :いずれか1文字

重要なのは、

記号の意味を“日本語で説明できるか”どうかです。

DS検定では「この記号の意味として正しいものはどれか」と問われることがあります。


どんな場面で使う?

使う場面

  • 入力値の形式チェック
  • ログデータ抽出
  • データ前処理
  • 不正データの除外

使うと誤解しやすい場面

  • 正しい日付のみを抽出できると思う
  • 実在するメールアドレスだけを抽出できると思う
  • 完全一致かどうかを確認していない

DS検定では、 「完全一致である」と書かれていたら ^ と $ を探します。


よくある誤解・混同

① . を数字だと誤解する

. は「任意の1文字」です。


② 形式=妥当性だと誤解する

正規表現は範囲チェックまでは保証しません。


③ + と * の違いを曖昧にする

    • :1回以上
    • :0回以上

0回を許すかどうかは重要な違いです。


④ ^ と $ を見落とす

これが最も多いひっかけです。

部分一致と完全一致の違いを必ず確認します。


まとめ(試験直前用)

  • 正規表現は「形式チェック」
  • 形式と妥当性は別
  • . は任意の1文字
    • と * の違いを区別する
  • 完全一致かどうかは ^ と $ を見る

DS検定では、 「その正規表現は何を保証していないか?」を考えると正解に近づきます。


対応スキル項目(データエンジニアリング力シート)

データ収集・加工

データ前処理

★ データの前処理(クレンジング・加工)ができる

🔗 関連記事


🏠 DS検定トップに戻る