データ操作– category –
Dataの入手から加工までお役立ちノウハウをご紹介します。
-
【SQL】集計結果の絞り込みはHAVING句!WHEREとの違いも解説
SQLの条件抽出構文としてWHEREがありますが、GROUP BYを用いてCOUNT,SUMなどの集計関数で算出した値をWHEREで絞り込むと意図した値になりません。GROUP BYで集計した結果にたいして条件指定で絞り込みたい場合はHAVING句を利用しないと適切に条件を抽出す... -
SQLのDISTINCTとGROUP BYの違いが最もわかる例
SQLには重複を排除する「DISTINCT」というキーワードがあります。一方、COUNTやSUMなどの集計関数で用いる「GROUP BY」でも重複を省くことができます。それなら「DISTINCT」は必要なく、全部「GROUP BY」でいいじゃないか?余計なものを覚えたくないよ。と... -
Pythonでコサイン類似度を実装するためのコード紹介
PythonでCOS類似度を利用してテキスト間のCOS距離がどのくらい離れているかを算出します。PythonでCOS類似度を出すにはライブラリを使えば簡単に出すこともできますが、今回ご紹介するコードで書くとスピード早く処理できます。 機械学習でよく使われるCOS... -
Sudachiがおすすめ!Pythonで日本語の自然言語処理
機械学習や文字の類似度を求める場合に、自然言語処理をすると思いますが、mecabやsudachiなど様々な自然言語処理を簡単にしてくれるライブラリがあります。その中で精度がよく、継続的に辞書メンテナンスされているsudachiをご紹介いたします。 mecabと比... -
階層指定クラスタリングのPythonコード紹介と活用例
クラスタリングとは、元データから特定のルールでグループに分類する手段です。階層型クラスタリングとは、最下層のグループとは別に近しいグループで階層があるものです。 Pythonのクラスタリングは機械学習の教師なし学習で、ライブラリのk-meansなどを... -
Pythonローカル環境JupyterとGCPのBigqueryデータ連携と実行
ローカルPCとGoogle Cloud Platform(GCP)の両環境データをシームレス連携して自動化を促進したいと困っていませんか?手作業が入ると自動化メリットが軽減されるので、一気通貫で自動化したい。ボタン押すだけやbat処理も楽です。私自身はローカルPCにPy... -
SQLで条件岐はCASE式!サンプルでエクセルif文と比較解説
条件分岐をするためにエクセルやプログラムで使われるIF文はSQLではCASE式を使います。条件抽出のWHEREと違うのは、CASE式で作成した条件で新しいカラムを追加できることです。SQLのCASE式(条件分岐)は構文が長くなってしまうデメリットがあるものの処理... -
SQLの副問い合わせはWITH句!複数条件でも一時テーブル保存で簡単
SQLの中にSQLを作成するサブクエリ(副問い合わせ)はWITH構文を利用するのが簡単です。結合テーブル数が増えるほど、SQLは複雑になりますが、WITHを使うことで非常にわかりやすくなります。第3者が見た時は久しぶりに自分のコードを見た時に理解が早いの... -
Pandasデータの縦横変換pivotとmeltの使用例
PandasのDataFrameで特定の項目だけを縦横変換したい場合の説明です。※内容も変わる転置の説明ではありません。 意外と忘れやすい方法でもあるので、イメージが伝わりやすいように実際のデータを活用して変換例を解説いたします。 DataFrameの縦横変換 横... -
Pythonでcsvやエクセルファイルを分割するプログラム
1つのファイルから目的別の複数ファイルに分割したい。例えば、エクセル1BOOKに10万行データがあって、宛先毎にエクセルファイルを分けたいケースです。宛先件数が多いほど、別BOOKに保存する作業は大変なので、自動化したい作業です。 本記事では、約...