問題
問15
ビッグデータ分析の前段階として、非構造化データを構造化データに加工する処理を記述している事例はどれか。
- 関係データベースに蓄積された大量の財務データから必要な条件に合致するデータを抽出し、利用者が扱いやすい表計算ソフトウェアデータに加工する。
- 個人情報を含むビッグデータを更に利活用するために、特定の個人を識別することができないように匿名化加工する。
- 住所データ項目の中にある、“ヶ”と“が”の混在や、丁目地の表記不統一を、標準化された表記へ統一するために加工する。
- ソーシャルメディアの口コミを機械学習によって単語ごとに分解し、要約を作り、分析可能なデータに加工し、関係データベースに保管する。
[出典:基本情報技術者試験 令和6年度(科目A) 問15]
正解
正解は「エ」です。
解説
この問題は、ビッグデータ分析における「前処理」の理解が問われています。特に「非構造化データを構造化データに加工する」作業がどれかを判断する問題です。
正解の「エ」は、「ソーシャルメディアの口コミを機械学習によって単語ごとに分解し、要約を作り、分析可能なデータに加工し、関係データベースに保管する」という内容です。ソーシャルメディアの投稿は、文章や自然言語で構成されており、明確な項目分けがされていない「非構造化データ」の代表例です。
このような非構造化データを処理するには、形態素解析などの自然言語処理を用いて、文章を単語単位に分解し、感情分析や要約、キーワード抽出などの処理を行います。そして、得られた情報を「日時」「発言者」「キーワード」「感情値」などの項目に分けて保存することで、「構造化データ」となり、統計処理や機械学習などの分析に利用しやすくなります。
日常の例でいえば、大量のアンケートの自由記述欄から共通する意見を抽出して、「要望件数」や「肯定・否定の分類」などにまとめるような作業がこれに該当します。元の文章はバラバラでも、整理すれば表にまとめて扱いやすくなるというイメージです。
このような「構造化」の工程は、ビッグデータを活用する際に不可欠であり、特にIoTやSNSから得られる膨大な非構造化情報を扱う場合に重視されます。
ア(関係データベースに蓄積された…):
これはすでに構造化された財務データを、ユーザが扱いやすい形式に加工する処理であり、「非構造化データの構造化」ではありません。
イ(個人情報を含むビッグデータを…):
これは匿名加工(マスキング)処理であり、構造化か非構造化かには関係ありません。プライバシー保護の話です。
ウ(住所データ項目の中にある、“ヶ”と“が”…):
これはデータクリーニングや標準化処理の一種であり、元データはすでに項目化された構造化データなので、構造化への加工ではありません。
難易度
この問題は、非構造化データと構造化データの違いをしっかり理解していれば、消去法でも正解にたどり着けるため、初学者でも比較的取り組みやすい内容です。ただし、実務経験がないとイメージしにくい選択肢もあるため、用語の理解が必要です。
用語補足
非構造化データ:
表や項目で管理されていない自由な形式のデータ。例としては文章、画像、音声、動画などがあります。SNSの投稿などもこれに該当します。
構造化データ:
データベースなどで管理しやすいように、項目や列に整理されたデータです。表形式やCSVなどが代表例です。
自然言語処理:
人間の言葉(自然言語)をコンピュータで理解・処理する技術。例としては音声アシスタントや文章の自動要約などがあります。
対策
ビッグデータに関する問題では、非構造化データと構造化データの違いと、その変換方法を理解しておくことが重要です。SNSや画像データのような自由形式の情報が、どうやって分析に使われるかをイメージできるようにしておくと、本問のような選択肢の判断がしやすくなります。