Minkyのよもやま日記：SSブログ

	ブログをはじめるログイン

2021年02月02日｜ 2021年02月03日｜2021年02月04日ブログトップ

jupyter notebookを使って機械学習のモデルを作成したい　 [データサイエンス、統計モデル]

ようやく、jupyter notebookで機械学習をするための環境が整いました。

初めてのPython入門みたいな書物は多いですが、入門すぎて読んでも使えなかった。
いくつか、つまずいたポイントを備忘録としてメモ。

1. データの準備
練習用のお試しだと、ローカルのcsvファイルを読み込んで、それを分析してという流れになりますが、企業のデータは、csvファイルを使っているわけではない。
おそらく、多くのデータは、データベース（google big queryなど）に入っています。
そこで、データベースから、ローカルマシンにデータを持ってくる必要があるのですが、セキュリティ認証の設定とか、そもそものPythonコードの書き方をどうするの？問題がありました。

2. ディレクトリの構成
sqlをPythonの中にベタ書きするのではなく、sqlなどのフォルダを作ってそこに書いておく。
そして、Pythonからクエリを読み込み、実行してデータを取得する、という自然な流れなのですが、ここも、少々面倒くさい。

MacにBigQueryAPIクライアントライブラリをインストールその4 pandas-gbqをインストールする
https://skellington.blog.ss-blog.jp/2021-01-28
↑
query_1 = read_query('/sqls/test.sql')
read_queryでsqlを変数に取り込んで、

data_frame = pd.read_gbq(query_1, PROJECT_ID)
read_gbqで実行する。

3. クラス定数の設定とか、初期化スクリプトの実行とか
このあたりの設定は、慣れると簡単ですが、最初は、何をどう設定すれば良いのか、？？？状態でした。ｗ

2021-02-03 23:59 nice!(3) コメント(0)
共通テーマ：日記・雑感

2021年02月02日｜ 2021年02月03日｜2021年02月04日ブログトップ