Python: TensorFlow/Keras で Word2Vec の SGNS を実装してみる

TensorFlow NLP 機械学習

以前のエントリで、Word2Vec の CBOW (ContinuousBagOfWords) モデルを TensorFlow/Keras で実装した。 CBOW は、コンテキスト (周辺語) からターゲット (入力語) を推定する多値分類のタスクが考え方のベースになっている。 blog.amedama.jp 今回扱うのは、…

2021-02-04

Python: TensorFlow/Keras で Word2Vec の CBOW を実装してみる

TensorFlow Keras NLP NeuralNetwork 機械学習 macOS

(2021-02-04 追記): ニューラルネットワークのアーキテクチャで、出力側の Embedding が誤って Dense になっていた部分を修正した。 Word2Vec の CBOW (Continuous Bag-of-Words) は、単語の分散表現 (Word Embedding) を得るために用いられるニューラルネッ…

2021-02-01

Python: 正の相互情報量 (PPMI) と特異値分解 (SVD) を使った単語の分散表現

Python NLP scikit-learn NumPy 機械学習統計 macOS

(2021-02-02 追記): 共起行列の計算を NumPy の Integer array indexing を使った実装にしたオライリーの「ゼロから作るDeep Learning ❷ ――自然言語処理編」を読んでいる。この中に、カウントベースで計算する初歩的な単語の分散表現が紹介されていて、な…

2020-05-16

Python: gensim の FAST_VERSION 定数の意味について

NLP gensim Python 機械学習 macOS

Python の gensim には自然言語処理 (NLP) に関する様々な実装がある。そして、その中のいくつかのモジュールには FAST_VERSION という定数が定義されている。この定数は環境によって異なる値を取って、値によってパフォーマンスが大きく異なる場合がある…

2020-05-11

Python: gensim を使った Word Embedding の内省的評価について

NLP gensim 機械学習 Python

以下の書籍では、Word Embedding の評価方法として内省的評価 (intrinsic evaluation) と外省的評価 (extrinsic evaluation) という 2 つのやり方が紹介されている。内省的評価では、人間が判断した単語間の類似度や、単語の持つ意味を使ったアナロジーを、…

2020-05-01

Word2Vec 形式のファイルフォーマットについて

Python NLP 機械学習 gensim macOS

Word2Vec では、Skip-gram や CBOW といったタスクを学習させたニューラルネットワークの隠れ層の重みを使って単語を特徴ベクトルにエンコードする。つまり、Word2Vec で成果物として得られるのは、コーパスの各単語に対応する特徴ベクトルになる。今回は…

2020-04-09

Python: gensim で学習済み単語ベクトル表現を扱ってみる

NLP Python NeuralNetwork 機械学習 gensim

Python で自然言語処理を扱うためのパッケージのひとつに gensim がある。今回は、gensim で学習済み単語ベクトル表現 (Pre-trained Word Vectors) を使った Word Embedding を試してみた。 Word Embedding というのは単語 (Word) をベクトル表現の特徴量に…

CUBE SUGAR CONTAINER

技術系のこと書きます。

NLP