「第4回 Apache Hivemall Meetup」に登壇した
- 「第4回 Apache Hivemall Meetup」に登壇した
- イベントページ
- 参加登壇の経緯
- 業務で少しTreasureDataを触っていた
- 個人的な興味でTreasureData上でHivemallを触り会社のブログにまとめた
- これが油井さんの目に止まり登壇させて頂く運びとなった
- 発表内容
- 当日のスライド
- ネタ探しに苦労した
- ニュース記事の類似記事抽出を行った
- 処理概要
- 前処理 はhive
- 分かち書きは、hivemall でのkuromoji
- tf/idf/tf-idfは、hivemall の組み込み関数
- 類似度は、OkapiBM25 を実装した
- ElasticsearchのMore Like Thisで実装したものと比較した
- 処理概要
- 感想
- 参加者がデータサイエンティストや機械学習エンジニアの方が多かった模様
- そのためか、自身のアプリ視点からの発表はあまりウケなかった
以上です。
(2018.11.28追記)
その後、2018/11になりHivemallにBM25ベースのスコアリングが実装されたとのこと。ドキュメント。
https://twitter.com/ApacheHivemall/status/1058310606413979649