Python– category –
プログラミング言語Pythonを利用したノウハウ記事の一覧です。
-
Pythonでコサイン類似度を実装するためのコード紹介
PythonでCOS類似度を利用してテキスト間のCOS距離がどのくらい離れているかを算出します。PythonでCOS類似度を出すにはライブラリを使えば簡単に出すこともできますが、今回ご紹介するコードで書くとスピード早く処理できます。 機械学習でよく使われるCOS... -
Sudachiがおすすめ!Pythonで日本語の自然言語処理
機械学習や文字の類似度を求める場合に、自然言語処理をすると思いますが、mecabやsudachiなど様々な自然言語処理を簡単にしてくれるライブラリがあります。その中で精度がよく、継続的に辞書メンテナンスされているsudachiをご紹介いたします。 mecabと比... -
階層指定クラスタリングのPythonコード紹介と活用例
クラスタリングとは、元データから特定のルールでグループに分類する手段です。階層型クラスタリングとは、最下層のグループとは別に近しいグループで階層があるものです。 Pythonのクラスタリングは機械学習の教師なし学習で、ライブラリのk-meansなどを... -
Pythonローカル環境JupyterとGCPのBigqueryデータ連携と実行
ローカルPCとGoogle Cloud Platform(GCP)の両環境データをシームレス連携して自動化を促進したいと困っていませんか?手作業が入ると自動化メリットが軽減されるので、一気通貫で自動化したい。ボタン押すだけやbat処理も楽です。私自身はローカルPCにPy... -
Pandasデータの縦横変換pivotとmeltの使用例
PandasのDataFrameで特定の項目だけを縦横変換したい場合の説明です。※内容も変わる転置の説明ではありません。 意外と忘れやすい方法でもあるので、イメージが伝わりやすいように実際のデータを活用して変換例を解説いたします。 DataFrameの縦横変換 横... -
Pythonでcsvやエクセルファイルを分割するプログラム
1つのファイルから目的別の複数ファイルに分割したい。例えば、エクセル1BOOKに10万行データがあって、宛先毎にエクセルファイルを分けたいケースです。宛先件数が多いほど、別BOOKに保存する作業は大変なので、自動化したい作業です。 本記事では、約... -
Pandasのマルチインデックス(マルチカラム)解除方法
Pandasのピボットテーブルなどのデータ加工をするとマルチインデックス(マルチカラム)になる時があります。データ加工難易度を下げるために、マルチインデックスを解除しデータを連結しながら進めていくことが多いと思います。 本記事では、意図せずマル... -
Pythonの画像類似度判定で同一画像や近い画像を検知する
目視チェックが大変な画像をPythonを利用して、同一画像や類似画像を検索する方法のご紹介です。 画像類似度の抽出方法がわかれば、似たような画像をグループとしてまとめる方法も可能です。参考に階層指定クラスタリングのPythonコード紹介と活用例の記事... -
グループの名称から区切り文字で同一キーワードをPytyhonで抽出
カテゴリ毎に名称があるリストで、同一名称を抜き出したいニーズがあります。例えば、カテゴリと名称の組み合わせがあるデータ(左図)を元に、categolyをkeyにnameと同じ名称を抽出しました(右図) 元データ categolyname12tsutech プログラム講座 les... -
Pythonで距離計算!レーベンシュタインでテキスト類似度判定
レーベンシュタイン距離というアルゴリズムを利用すると、2文章間の距離がどのくらい離れているか算出でき、テキスト類似度判定に使えます。 テキストの類似度判定手法は自然言語解析後のコサイン類似度などいくつかの方法がありますが、使い方によっては...
12