ChatGPTのAdvanced Data Analysis(Code Interpreter)でデータ分析する方法【統計苦手でも大丈夫】
自社のビジネスやサイトに関するデータ分析をExcelでやろうとしていませんか?
Excelは大変すぐれたアプリでデータの整理から分析まで幅広く対応できますが、慣れていないと使い方がやや複雑であり、使いこなすには統計についての知識も必要です。
分厚いマニュアル本を買ってはみたものの、なかなか手が出せずそのままになっていたりしないでしょうか?
そんなデータ分析に高いハードルを感じている人におすすめなのが、ChatGPTの「Code Interpreter(Advanced Data Analysis)」という機能です。有料版のChatGPT Plusの追加機能として提供されています。
これを使えば、統計の知識に自信がない人でもデータ分析が行える凄いツールです。
統計の知識はあった方がいいです。統計を知っていると、Code Interpreter(Advanced Data Analysis)をより深く使いこなすことができるでしょう。
本記事では、ChatGPTのCode Interpreter(Advanced Data Analysis)を使ったデータ分析の方法を実例をお見せしながらご紹介します。
ぜひ最後までお読みください。
Code Interpreter(Advanced Data Analysis)の何がすごい?
無料版のChatGPTと比べて、Code Interpreter(Advanced Data Analysis)のすごいところは以下の2点です。
- ファイルがアップロードできる
- 自然言語で、プログラミング言語「Python」による操作が行える
これにより、膨大な量のデータを読み込んで分析することが可能になりました。
他にもいろいろできるのですが、本記事ではデータ分析にフォーカスします。おそらく、Code Interpreter(Advanced Data Analysis)のすごさが一番わかりやすいのがデータ分析です。
Code Interpreter(Advanced Data Analysis)でやってみること
今回行うのは、Excelファイルにまとめたデータの分析です。
取り上げるのは、内閣府が発表している「県民経済計算(平成23年度 - 令和2年度)」の中から、「県内総生産(生産側、名目)」というデータ。
※内閣府のホームページからダウンロードできます。
このファイルには「実数」と「増加率」の2つのシートがあります。それぞれを読み込んだ上で、以下の3点を行います。
- 全体の傾向を把握
- 気になるところを深掘り
- 実数と増加率に関係があるか検討
非常にふんわりとした方針で分析を行いますが、Code Interpreter(Advanced Data Analysis)なら大丈夫です。
Code Interpreter(Advanced Data Analysis)を使う準備
Code Interpreter(Advanced Data Analysis)を使い始める前に、プロンプトを入れる枠の左端に「+」があるかチェックしましょう。
「+」が出ていたら、Code Interpreter(Advanced Data Analysis)が使えます。
「+」が出ていなかったら、以下の2つを確認してください。
Settingsで「Advanced data analysis」をONにする
左側メニュー下部の「・・・」から「Settings & Beta」をクリック。
以下のようなポップアップが出るので、
①「Beta features」を選択し、
②「Advanced data analysis」のトグルをONにします。
以上で準備完了です。
Code Interpreter(Advanced Data Analysis)でデータ分析を行う手順
Code Interpreter(Advanced Data Analysis)でデータ分析を行う手順をシンプルに言うと以下のとおりです。
- データをアップロードして読み込ませる
- 知りたいことを質問する
「〇〇が知りたいから、まずは△△分析からだ!」という知識は必要ありません。そういうことはChatGPTがわかっているので、あなたは知りたいことを質問するだけでOKです。
実際にCode Interpreter(Advanced Data Analysis)でデータ分析を行ってみたので、これを振り返りつつ手順を紹介します。
データを読み込ませる
まずはデータの読み込みからです。
ファイルは、プロンプト枠の「+」からアップロードします。
今回は、ファイルの中に2つシートがあることと、それぞれの一部だけを読み込むようにプロンプトを書きました。
プロンプト
このファイルに2つのシートがあります。それぞれの平成28年度から令和2年度までのデータを読み込んでください。
少し細かく指示を出したのは、読み込みを失敗するケースがあるからです。
無駄なところを省いたほうが読み込みが成功しやすくなります。
策を講じたにもかかわらず、データ読み込みに失敗してしまいました。
しかし、Code Interpreter(Advanced Data Analysis)が自分で問題点を見つけて改善してくれたおかげで、無事ファイルが読み込まれました。
不要な行を手動で特定して削除するアプローチが取られたようです。
全体の傾向を把握する
では分析を行っていきます。
まずは全体の傾向について聞いてみました。
プロンプト
データの解析を始めてください。全体の傾向が知りたいです。
Excelで同じことをするなら、全体の傾向を知るために何を計算すべきかがわかっていなければなりません。
ChatGPTなら、何を計算すれば全体の傾向がわかるのかさえも教えてくれます。
データに欠損値や、数値以外の文字列が含まれていると分析ができません。
分析の障害になりそうな要因も、ChatGPTが自ら発見し前処理してくれます。
恐ろしく優秀です。
データの前処理を行った上で、総生産と増加率について、基本的な統計量が算出されました。
さらに、次のステップとして「全体のトレンドの観察」を提案してくれています。
これもやってもらいましょう!
プロンプトは「お願いします」でOKです。あとはAIがやってくれます。
全体のトレンド観察の結果が以下の折れ線グラフです。
グラフから読み取れるトレンドについても説明されています。
次のステップとして、各年度で総生産や増加率がもっとも高い/低い都道府県の特定が提案されました。
これもやってもらい、以下のような結果となりました。
背景要因の考察は苦手
ChatGPTは、2021年9月までの情報で学習が行われています。今回は2020年までのデータを扱っているので、傾向の背景要因も分析してくれるのでは?と思い、質問してみました。
プロンプト
総生産の高低に影響を与えた要因(社会的背景など)は考えられますか?
結論として、この試みは失敗でした。ChatGPTの回答は一般的な内容に終始しています。 しかし、考察の切り口としては使える内容でした。
データ分析のポイント
- まずは全体の傾向を聞く。あとはChatGPTの提案にしたがって進めればOK。
- 背景要因の考察は苦手。考察の切り口を与えてくれる。
気になるところを深掘りする
全体の傾向が掴めたら、気になるところを深掘りします。
今回は「地方別で比較したらどうなるか?」を聞いてみました。
Excelだと、新たに地方ごとにまとめたシートを作らねばなりませんが、ChatGPTはデータの成形もやってくれます。もちろんどの県がどの地方に属するのかもわかっているので、全部お任せです。
プロンプト
東北、関東など地方別の傾向が知りたいです。
地方ごとに総生産と増加率について、平均を出してくれました。
これについては一般的な内容ながら、簡単な考察もしてくれています。
データ分析のポイント
- 深掘りしたいことも、「何が知りたいか」を質問するだけでOK
- データの成形はやらなくていい。Code Interpreterがやってくれる
実数と増加率に関係があるか検討する
二つの変数に関係があるかどうかを検討するには相関係数を求めますが、どうやって求めるのかわからない人がほとんどかと思います。
私もよくわかりません。
そんな人でも、Code Interpreterを搭載したChatGPTがあれば、あっという間に相関の有無がわかります。
「相関係数」という言葉さえ知らなくてもかまいません。
プロンプト
県別の総生産と増加率に関係はありますか?
こんなざっくりとしたプロンプトに対して、散布図と相関係数を示し、総生産と増加率に明らかな関係はないことが示されました。
グラフはカスタマイズ可能
総生産と増加率に明らかな関係はないという結果でしたが、「地方によって傾向があるのでは?」と思ったので、散布図のプロットを色分けしてもらうことにしました。
プロンプト
上の散布図を地方ごとに色分けできますか?
その結果、注文通りプロットが地方別に色分けされました。
これをみる限り、地方別で比べても関係らしいものは見出せません。
日本語表示にはフォントのファイルが必要
散布図の色分けはできましたが、凡例が文字化けしており、どの色がどの地方を表すのかがわかりません。
こういうときは、日本語フォントのファイルをアップロードして使ってもらいます。
今回はGoogleフォントからダウンロードした「Noto Sans Japanese」を使用しました。
プロンプト
こちらのファイルで日本語フォントを表示させてみてください。
また、文字が全体的に薄くて見づらいので、濃く表示してもらえますか?
文字の大きさも全体的に少し大きくしてください。
グラフの文字化けが直り、見やすくなりました。
ただし、グラフはExcelの方がきれいに作れるかもしれません。Code Interpreterでいろいろ作ってみて、よかったものを改めてExcelで作り直すといいでしょう。
データ分析のポイント
- グラフはカスタマイズが可能。色を変えたり線を引いたりできる
- 文字化けは日本語フォントのアップロードで対応可能
- 日本語フォントはGoogleフォントで入手できる
- グラフをきれいに作るならExcelで作り直すのがベター
Code Interpreter(Advanced Data Analysis)はいきなり結論から聞いてもいい
今回は全体の傾向をみた上で分析を進めるやり方でしたが、はじめから知りたいことがわかっているなら、ストレートにデータと質問をぶつけた方が早いです。
例えば、自社のサイトデータを読み込ませた上で、「今後、PV数とUU数、およびCV数を増やしていきたいのですが、どのように運用するのがいいでしょうか」という聞き方をしても、Code Interpreter(Advanced Data Analysis)は分析の手順を組み立て、依頼者の意向を伺いつつ、結論を導き出してくれるでしょう。
ただし、本記事にもあった通り、考察は苦手なようです。結論は出せても、一般的な内容に止まることが多いです。データを分析するところはCode Interpreter(Advanced Data Analysis)に任せて、結論は自分で考えるなりチームで話し合うなりするのがいいでしょう。
まとめ
以上、Code Interpreterでデータ分析をする方法について解説しました。
Code Interpreter(Advanced Data Analysis)でデータ分析ができることはわかっていましたが、実際にやってみるまで「分析はExcelでやればいいのでは?」と思っていました。今はCode Interpreter(Advanced Data Analysis)の便利さを知ってしまい、ちょっとExcelに戻るのが難しいくらいです。
とにかくデータをアップロードして、知りたいことを質問すれば、誰にでも分析ができてしまうのがCode Interpreter(Advanced Data Analysis)です。統計の知識があればより深い使い方ができるでしょう。ぜひ、あなたの業務の効率化にご活用ください。
この記事を書いた人
クーシーブログ編集部
1999年に設立したweb制作会社。「ラクスル」「SUUMO」「スタディサプリ」など様々なサービスの立ち上げを支援。10,000ページ以上の大規模サイトの制作・運用や、年間約600件以上のプロジェクトに従事。クーシーブログ編集部では、数々のプロジェクトを成功に導いたメンバーが、Web制作・Webサービスに関するノウハウやハウツーを発信中。
お問い合わせはこちらから
Web制作デザイン、丸ごとお任せ
お問い合わせする
テキスト:加藤久佳 デザイン:大坂間琴美