GitHub Python數據科學聚焦:AutoML、NLP、可視化、ML工作流

點擊上方關注,All in AI中國

溫馨小貼士:這篇文章包括廣泛的數據科學項目,所有這些項目都是開源的,並且存在於GitHub存儲庫中。

話不多說,直接放上你們最關注的分享內容,開源Python數據科學項目。

GitHub Python數據科學聚焦:AutoML、NLP、可視化、ML工作流

1. Auto-Keras - 這是一個自動化的機器學習(AutoML)包

存儲庫:https://github.com/jhfjhfj1/autokeras

文檔:http://autokeras.com

入門:https://autokeras.com/#example

Auto-Keras是一個用於自動化機器學習(AutoML)的開源軟件庫。 AutoML的最終目標是允許具有有限數據科學或機器學習背景的領域專家輕鬆訪問深度學習模型。 Auto-Keras提供了自動搜索深度學習模型的架構和超參數的功能。

2. Finetune - Scikit-Learn風格的NLP微調(Fine Tuning)模塊

存儲庫:https://github.com/IndicoDataSolutions/finetune

文檔:https://finetune.indico.io

入門:https://finetune.indico.io

Finetune提供了一個預先訓練的語言模型,該模型來自“通過生成預訓練提高語言理解力”,並建立了OpenAI /微調語言模型庫。

3. GluonNLP - NLP很容易做

存儲庫:https://github.com/dmlc/gluon-nlp

文檔:http://gluon-nlp.mxnet.io

入門:https://github.com/dmlc/gluon-nlp#quick-start-guide

GluonNLP是一個工具包,可以輕鬆進行文本預處理、數據集加載和神經模型構建,以幫助您加速自然語言處理(NLP)研究。

4. animatplot - 一個用於在matplotlib上構建動畫圖的python包

存儲庫:https://github.com/t-makaro/animatplot

文檔:https://animatplot.readthedocs.io/en/latest

入門:https://animatplot.readthedocs.io/en/latest/tutorial/getting_started.html

注意:從這個項目中引用引號的文檔很少,所以這裡有一些更合適的東西,考慮到所有因素:

GitHub Python數據科學聚焦:AutoML、NLP、可視化、ML工作流

5. MLflow - 機器學習生命週期的開源平臺

存儲庫:https://github.com/mlflow/mlflow

文檔:https://mlflow.org/docs/latest/index.html

入門:https://mlflow.org/docs/latest/quickstart.html

MLflow是一個用於管理端到端機器學習生命週期的開源平臺。它解決了三個主要功能:

  • 跟蹤實驗以記錄和比較參數和結果(MLflow跟蹤)。
  • 以可重複使用、可重複的形式包裝ML代碼,以便與其他數據科學家共享或轉移到生產(MLflow項目)。
  • 管理和部署各種ML庫中的模型到各種模型服務和推理平臺(MLflow模型)。

MLflow與庫無關。您可以將它與任何機器學習庫以及任何編程語言一起使用,因為所有功能都可以通過REST API和CLI訪問。為方便起見,該項目還包括一個Python API。

GitHub Python數據科學聚焦:AutoML、NLP、可視化、ML工作流

GitHub Python數據科學聚焦:AutoML、NLP、可視化、ML工作流


分享到:


相關文章: