Skip to the content.

DS検定トップ > 正規表現のひっかけ総整理(試験直前チートシート)【DS検定】

まず結論

正規表現は「文字列の形式」を確認する道具であり、「意味の正しさ」までは保証しません。 DS検定では、“何を保証していて、何を保証していないか”を判断できるかが問われます。

直感的な説明

これまで、

電話番号

郵便番号

日付

メールアドレス

を通して学んできました。

共通しているのは、

正規表現は「形」を見ているだけ

ということです。

実務でも、正規表現は入力チェックやデータ前処理で使われますが、 「妥当性」や「実在性」までは確認しません。

DS検定では、この“限界”を理解しているかどうかが重要です。

定義・仕組み

ここで、よく出る記号を整理します。

^ :先頭

$ :末尾

. :任意の1文字

. :ドットそのもの

\d :数字1文字

{n} :ちょうどn回

{n,} :n回以上

? :0回または1回

:1回以上

:0回以上

[] :いずれか1文字

重要なのは、

記号の意味を“日本語で説明できるか”どうかです。

DS検定では「この記号の意味として正しいものはどれか」と問われることがあります。

どんな場面で使う?

使う場面

入力値の形式チェック

ログデータ抽出

データ前処理

不正データの除外

使うと誤解しやすい場面

正しい日付のみを抽出できると思う

実在するメールアドレスだけを抽出できると思う

完全一致かどうかを確認していない

DS検定では、 「完全一致である」と書かれていたら ^ と $ を探します。

よくある誤解・混同

① . を数字だと誤解する

. は「任意の1文字」です。

② 形式=妥当性だと誤解する

正規表現は範囲チェックまでは保証しません。

③ + と * の違いを曖昧にする

:1回以上

:0回以上

0回を許すかどうかは重要な違いです。

④ ^ と $ を見落とす

これが最も多いひっかけです。

部分一致と完全一致の違いを必ず確認します。

まとめ(試験直前用)

正規表現は「形式チェック」

形式と妥当性は別

. は任意の1文字

と * の違いを区別する

完全一致かどうかは ^ と $ を見る

DS検定では、 「その正規表現は何を保証していないか?」を考えると正解に近づきます。

対応スキル項目(データエンジニアリング力シート)

データ収集・加工

データ前処理

★ データの前処理(クレンジング・加工)ができる

🔗 関連記事


🏠 DS検定トップに戻る