ds unstructured-data design
まず結論
係り受け解析とは、文の中で「どの語がどの語にかかっているか」という関係(構造)を解析する処理です。
DS検定では、形態素解析との違いを正しく切り分けられるか が問われます。
直感的な説明
例文:
私は昨日映画を見ました。
形態素解析では、
「私 / は / 昨日 / 映画 / を / 見 / ました」
のように単語に分けます。
一方、係り受け解析では、
- 「昨日」→「見ました」にかかる
- 「映画を」→「見ました」にかかる
- 「私は」→「見ました」にかかる
というように、文の構造(どれがどれに関係しているか) を明らかにします。
DS検定では、
単語に分けるのか?
それとも文の構造を調べるのか?
ここを判断させる問題がよく出ます。
定義・仕組み
■ 定義
係り受け解析とは、
文中の語句同士の依存関係(どの語がどの語を修飾しているか)を解析する処理
です。
日本語では、
- 修飾語 → 被修飾語
- 主語 → 述語
- 目的語 → 動詞
といった関係を見つけます。
■ 有名な係り受け解析ツール
-
CaboCha(カボチャ)
日本語係り受け解析の代表的ツール。内部でMeCabを使うことが多い。 -
KNP
京都大学発の構文解析ツール。 -
GiNZA
spaCyベースの日本語構文解析ツール。
■ 位置づけ
自然言語処理の流れとしては:
- 形態素解析(単語に分ける)
- 係り受け解析(構造を理解する)
- 意味解析・分類・感情分析など
という順番になります。
どんな場面で使う?
■ 使う場面
- 要約
- 質問応答システム
- 文の意味関係の分析
- 主語・述語の抽出
例えば、レビュー分析で
「この商品は価格は安いが性能は悪い」
という文があった場合、
何が良くて何が悪いのかを構造で理解する必要があります。
ここで係り受け解析が活きます。
■ 使うと誤解しやすい場面
係り受け解析をすれば「意味理解」まで完全にできるわけではありません。
あくまで、
文の構造を整理する段階
です。
意味判断はその後のモデルが行います。
よくある誤解・混同
❌ CaboChaは形態素解析ツールである
→ 主目的は係り受け解析
❌ MeCabは係り受け解析もできる
→ 基本は形態素解析ツール
❌ TensorFlowは自然言語処理ツールだから正解
→ これは機械学習フレームワーク
DS検定では、
「日本語の形態素解析を行うツールはどれか」
と
「係り受け解析を行うツールはどれか」
を混同させてきます。
選択肢に
- MeCab → 形態素解析
- CaboCha → 係り受け解析
と整理できれば、ほぼ正解できます。
まとめ(試験直前用)
- 係り受け解析は「文の構造」を調べる処理
- 形態素解析は「単語に分ける」処理
- CaboChaは係り受け解析
- MeCabは形態素解析
- 「単語分割か?構造解析か?」で判断する
DS検定では
処理の段階を理解しているか が問われます。
対応スキル項目(AI利活用スキルシート)
- AIの基礎理解
- 自然言語処理の基礎
- ★ 自然言語処理の基本的な流れを理解している
- ★ テキストデータの前処理の概要を理解している
🔗 関連記事
- アクセス制御リスト(ACL)とは?ファイル権限の基本を整理【DS検定】
- 中間層で使用される活性化関数とは?(ReLU・シグモイド・ソフトマックスの違い)【DS検定】
- アジャイル開発とは?ウォーターフォール開発との違いを整理【DS検定】
- 分析アプローチ設計とは?(分析プロジェクトを成功させる設計プロセス)【DS検定】
- 必要なデータ・分析手法・可視化を適切に選択する力とは?【DS検定】