【Python】pandasでHTMLテーブルなどを超簡単にスクレイピング

NO IMAGE

以前pandasでのexcelをDataFrameとして取り込む方法を記事(関心がある方はこちら)にしたが、今回はウェブページ上のHTMLテーブルやCSVファイルをスクレイピングする方法をまとめてみたいと思います。 beautifulsoupやseleniumを使ったスクレイピングほど細かいことはできないものの、その手のスクレイピング方法が難しく感じた方でも、簡単にウェブページ上に落ちている情報を […]

【Python】pandasでエクセルをDataFrameとして読み込む方法

今回はpandasを使ってエクセルファイルの指定データをpandas DataFrameに変換し読み込む方法をまとめる。 基本的なエクセルファイルの読込み まずは、エクセルファイルを取込むうえでの基本を確認します。 エクセルファイルをDataFrameに変換する場合の基本は以上のコードだけです。ただし、このpandas.read_excel()は拡張子.xlsのエクセルファイルのみに対応しているた […]

【Python】cufflinksで作った2軸グラフの軸タイトルを変更する方法

今回はplotly.subplots.make_subplotsを使わずにcufflinksとdataframe.iplot()を使って作った2軸グラフのタイトルを変更する方法を紹介します。 エラー例の確認 まず今回はmake_subplotsを使わずに作った2軸グラフに編集を加えるため、make_subplotsで作られたことを前提とした編集方法を使うことができません。 データ取得から順に例を使 […]

【Python】webbrowserで複数URLを一括表示する

Pythonのライブラリ、webbbrowserを使って複数URLを一括表示する方法を紹介します。 表示したサイトを操作、情報をスクレイピングするといったことはしません。ただ、複数のURLをただ開らくだけのコードです。 webbrowserの使い方 URLをデフォルトブラウザで表示するコードは非常に簡単です。ループ処理で複数URLを開いてみます。 以上のように、ループとwebbrowser.ope […]

【Python】scipy.statsを使って株や為替の統計データを取得・分析する

pandas-datareaderを使って株価・為替データを取得、それを使って統計データの分析をする。 今回は、S&P 500 ETF、Google(Alphabet)、USDJPY、EURUSDのデータを使うことにする。 ライブラリのインポートとデータ取得 利用するライブラリのインポート、pandas-datareaderを使ってyahoo financeからターゲット・データを取得。 […]

【Python】Numpyで一様分布や正規分布、二項分布、ポアソン分布に従う乱数を発生させる

pythonのnumpyを使うことで統計分析に使える様々な種類の乱数を発生させることができる。 その一覧をまとめておきたいと思う。 numpyの乱数出力設定 シード値の固定と出力桁数の固定は以下の通りです。 一様分布 (Uniform distribution) 一様分布:全ての事象が発生する確率が等しい事象の分布 np.random.rand()は0~1の範囲で乱数を生成する。 np.rando […]

【Python】openpyxlを使ったエクセルの操作方法 |セル取得・ループ処理

Pythonのopenpyxlを使ったエクセルのセルや列等の指定方法、ループ処理について解説します。 ブック、シートの取得方法 細かい操作に入る前に操作するファイル、シートの指定する。 一般的なブック(ファイル)、シートの取得方法 関数の値を取得する場合のブックの取得 上記の一般的なブックの取得方法でブックを開き、後述するセルの値取得をすると、セル内の関数式の取得となってしまう。 もし関数式の結果 […]

Plotlyでグループ化された積上げ棒グラフを作る方法

EIAの原油データをまとめている際にグループ化された積上げ棒グラフ(Grouped and Stacked Bar Chart)や積上げ面グラフ(Stacked Area Chart)などを作ってみたため、その方法記録しておく。 グループ棒グラフ (Grouped Bar Chart) 積上げ棒グラフの前にシンプルなグループ棒グラフから始める。 今回使うデータはEIAの「短期エネルギー見通し」(S […]

【Python】Plotly で複数のpandasデータフレームをサブプロットする方法考察

ここのところ経済関連の時系列データを取得し、グラフにしたい、それも関連データに関しては一つのFigureにサブプロットしたいと思うことが多く、色々試してみたのでそのまとめておきたいと思います。 まず前提として、Plotly expressのファセットプロットでは、あるデータフレーム内の要素を使ってサブプロットすることはできるが、複数のデータフレームの情報からグラフを作ることができない(難しい)ため […]

【Python】 世界銀行のTCdata360 APIからデータ取得

TCdata360は世界銀行が提供しているデータベースであり、様々な情報源から貿易や競争力などに関するデータをまとめて提供してくれる。 世界銀行のデータベースからのデータ取得はpandas-datareaderを使えば簡単に行えるが、世界銀行のTCdata360が提供するデータの取得はできない。 そこでPythonでTCdata360のAPIからデータを取得する方法を記録しておく。 クロスセクショ […]

1 20 21