SSブログ

jupyter notebookを使って機械学習のモデルを作成したい [データサイエンス、統計モデル]

ようやく、jupyter notebookで機械学習をするための環境が整いました。

初めてのPython入門みたいな書物は多いですが、入門すぎて読んでも使えなかった。
いくつか、つまずいたポイントを備忘録としてメモ。

1. データの準備
練習用のお試しだと、ローカルのcsvファイルを読み込んで、それを分析してという流れになりますが、企業のデータは、csvファイルを使っているわけではない。
おそらく、多くのデータは、データベース(google big queryなど)に入っています。
そこで、データベースから、ローカルマシンにデータを持ってくる必要があるのですが、セキュリティ認証の設定とか、そもそものPythonコードの書き方をどうするの?問題がありました。

2. ディレクトリの構成
sqlをPythonの中にベタ書きするのではなく、sqlなどのフォルダを作ってそこに書いておく。
そして、Pythonからクエリを読み込み、実行してデータを取得する、という自然な流れなのですが、ここも、少々面倒くさい。

MacにBigQueryAPIクライアントライブラリをインストール その4 pandas-gbqをインストールする
https://skellington.blog.ss-blog.jp/2021-01-28

query_1 = read_query('/sqls/test.sql')
read_queryでsqlを変数に取り込んで、

data_frame = pd.read_gbq(query_1, PROJECT_ID)
read_gbqで実行する。

3. クラス定数の設定とか、初期化スクリプトの実行とか
このあたりの設定は、慣れると簡単ですが、最初は、何をどう設定すれば良いのか、???状態でした。w

nice!(3)  コメント(0) 
共通テーマ:日記・雑感