texthero

GitHub
2.9k 237 非常简单 1 次阅读 6天前MIT数据工具语言模型开发框架
AI 解读 由 AI 自动生成,仅供参考

Texthero 是一款专为快速处理文本数据而设计的 Python 工具包,旨在让开发者无需深厚的语言学背景也能轻松驾驭自然语言处理任务。它无缝集成于 Pandas 之上,继承了其简洁高效的风格,让用户仅需几行代码即可完成从文本预处理、向量化表示到可视化分析的全流程。

面对非结构化的文本数据,传统方法往往难以快速提取洞察,而 Texthero 正是为了解决这一痛点而生。它将复杂的 NLP 流程标准化,帮助用户迅速理解数据背后的核心概念。无论是清洗文本、提取关键词与命名实体,还是利用 TF-IDF 进行特征表示,亦或是通过 K-means、DBSCAN 等算法进行聚类分析和主题建模,Texthero 都提供了开箱即用的解决方案,同时保留了足够的灵活性以支持自定义需求。

这款工具特别适合希望高效探索文本数据集的程序员、数据科学家以及 NLP 初学者。其独特的亮点在于极低的入门门槛与完善的文档支持,让现代开发者能专注于业务逻辑而非繁琐的技术细节。此外,Texthero 作为一个开源社区驱动的项目,正积极拓展多语言支持,欢迎全球开发者共同参与建设。如果你正在寻找一个既能提升效率又能深化理解的文本分析助手,Texthero 值得尝试。

使用场景

某电商数据分析师需要快速从数万条用户评论中提取核心诉求并可视化分布,以辅助产品迭代决策。

没有 texthero 时

  • 需手动串联 NLTK、SpaCy 和 Scikit-learn 等多个库,编写大量样板代码进行清洗和向量化,环境配置繁琐且易出错。
  • 缺乏统一的预处理流水线,每次尝试不同的去停用词或词干提取策略时,都要重构整个数据处理逻辑。
  • 难以直观理解高维文本数据,需要额外编写复杂的 Matplotlib 或 Plotly 代码才能将聚类结果映射为可视化的向量空间图。
  • 对非 NLP 专业的开发者门槛极高,调试分词错误或向量维度不匹配问题耗费了大部分分析时间。

使用 texthero 后

  • 仅需几行基于 Pandas 风格的代码,即可一键完成从文本清洗、TF-IDF 向量化到 K-means 聚类的全流程,大幅降低开发复杂度。
  • 利用内置的模块化管道,灵活切换预处理方案(如自定义停止词或提取关键短语),无需重写底层逻辑即可对比效果。
  • 调用内置可视化函数,直接生成直观的向量空间散点图或主题分布图,瞬间洞察评论数据的潜在结构和异常点。
  • 让业务人员也能轻松上手,将精力从繁琐的代码调试转移到解读数据背后的业务含义,显著缩短从数据到洞察的周期。

texthero 通过将复杂的 NLP 流程封装为简洁的 Pandas 风格操作,让文本数据分析真正实现了从“从零开始”到“游刃有余”的跨越。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该工具目前处于 Beta 版本,未来版本(2.0)可能会有重大变更(如预处理函数将要求输入已分词的文本)。安装时 pip 会自动处理依赖库,无需单独安装。为了获得更快的性能,请确保 SpaCy 版本大于等于 2.2。
python建议最新版本 (recent version)
Gensim
NLTK
SpaCy>=2.2
scikit-learn
Pandas
texthero hero image

快速开始

GitHub 星标 pip 包 pip 下载量 GitHub 问题 GitHub 许可证

从零到英雄:文本预处理、表示与可视化。

从零到英雄安装入门示例API常见问题解答贡献

从零到英雄

Texthero 是一个 Python 工具包,旨在快速且轻松地处理基于文本的数据集。Texthero 非常易于学习,并专为在 Pandas 基础之上使用而设计。它具备与 Pandas 同样的表达能力和强大功能,并且文档非常详尽。Texthero 具有现代感,专为 2020 年代的程序员打造,即使他们对语言学知识了解不多甚至完全没有。

你可以将 Texthero 看作是帮助你理解和处理文本数据集的工具。对于表格型数据集来说,很容易就能把握其核心概念;然而,对于文本数据集而言,要迅速洞察其背后的数据则相对困难。借助 Texthero,只需几行代码即可完成文本数据的预处理、将其映射为向量,以及可视化得到的向量空间。

Texthero 包含以下工具:

  • 文本数据预处理:既提供开箱即用的解决方案,也支持自定义方案。
  • 自然语言处理:关键短语和关键词提取,以及命名实体识别。
  • 文本表示:TF-IDF、词频,以及自定义词嵌入(开发中)。
  • 向量空间分析:聚类(K-means、Meanshift、DBSCAN 和层次聚类)、主题建模(开发中)及结果解释。
  • 文本可视化:向量空间可视化、地图上的位置定位(开发中)。

Texthero 是免费的开源工具,并且文档完善——这也是我们最喜欢的地方!

我们希望你在使用 Texthero 的过程中能像我们在开发时一样,感受到其中的乐趣。

你会说西班牙语吗?你会说印地语吗?你会说日语吗?

Texthero 是为整个 NLP 社区开发的。我们知道,面对各种 NLP 工具(NLTK、SpaCy、Gensim、TextBlob、Scikit-learn)是多么令人头疼;因此,我们开发了 Texthero 来简化这一过程。

接下来的主要目标是提供多语言支持,而为了实现这一重要一步,我们需要大家的帮助。你会说西班牙语吗?你会说德语吗?你会说中文吗?你会说日语吗?你会说葡萄牙语吗?你会说意大利语吗?你会说俄语吗?如果你会以上任何一种语言,或者会其他未提及的语言,那么你就可以帮助我们开发多语言支持!即使你之前从未做过贡献,或者刚刚开始接触 NLP,也请联系我们或在 GitHub 上提交一个问题,因为总会有第一次的 :) 我们保证你会学到很多东西,而且……谁知道呢?这也许能帮你找到一份 NLP 开发者的工作!

为了改进这个 Python 工具包并提供更好的体验,你的帮助和反馈至关重要。如果你有任何问题或建议,请在 GitHub 上提交一个问题,我们将非常乐意为你提供支持并协助解决。

测试版

Texthero 的社区正在迅速壮大。不过,Texthero 目前仍处于测试版阶段;很快,一个更快、更好的版本将会发布,并带来一些重大变化。

例如,为了更精细地控制数据处理流程,从下一个版本开始,所有的 preprocessing 函数都将要求输入已经分词后的文本。这将是一项重大变更。

一旦稳定版(Texthero 2.0)发布,将保持向后兼容性。在此之前,虽然也会有一定的向后兼容性,但会相对较弱。

如果你想参与到这场快速发展的浪潮中,千万不要犹豫,立即贡献吧:CONTRIBUTING

安装

通过 pip 安装 Texthero:

pip install texthero

☝️ 在底层,Texthero 使用了多个 NLP 和机器学习工具包,如 Gensim、NLTK、SpaCy 和 scikit-learn。你无需单独安装这些工具,pip 会自动处理。

为了获得更好的性能,确保你已安装 SpaCy 2.2 或更高版本。同时,建议使用较新的 Python 版本,版本越高越好。

入门

学习 Texthero 的最佳方式是阅读入门文档

如果你是一位高级 Python 用户,那么直接使用 help(texthero) 也应该足够了。

示例

1. 文本清洗、TF-IDF 表示及可视化

import texthero as hero
import pandas as pd

df = pd.read_csv(
   "https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)

df['pca'] = (
   df['text']
   .pipe(hero.clean)
   .pipe(hero.tfidf)
   .pipe(hero.pca)
)
hero.scatterplot(df, 'pca', color='topic', title="BBC Sport 新闻的 PCA 可视化")

2. 文本预处理、TF-IDF、K-means 聚类及可视化

import texthero as hero
import pandas as pd

df = pd.read_csv(
    "https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)

df['tfidf'] = (
    df['text']
    .pipe(hero.clean)
    .pipe(hero.tfidf)
)

df['kmeans_labels'] = (
    df['tfidf']
    .pipe(hero.kmeans, n_clusters=5)
    .astype(str)
)

df['pca'] = df['tfidf'].pipe(hero.pca)

hero.scatterplot(df, 'pca', color='kmeans_labels', title="BBC Sport 新闻的 K-means 聚类可视化")

3. 简单的文本清洗流水线

>>> import texthero as hero
>>> import pandas as pd
>>> text = "This sèntencé    (123 /) needs to [OK!] be cleaned!   "
>>> s = pd.Series(text)
>>> s
0    This sèntencé    (123 /) needs to [OK!] be cleane...
dtype: object

移除所有数字:

>>> s = hero.remove_digits(s)
>>> s
0    This sèntencé    (  /) needs to [OK!] be cleaned!
dtype: object

移除数字功能仅替换连续的数字块。例如,字符串“hello123”中的数字不会被移除。如果需要移除所有数字,则需将参数only_blocks设置为False

移除所有类型的括号及其内容。

>>> s = hero.remove_brackets(s)
>>> s 
0    This sèntencé    needs to  be cleaned!
dtype: object

移除变音符号。

>>> s = hero.remove_diacritics(s)
>>> s 
0    This sentence    needs to  be cleaned!
dtype: object

移除标点符号。

>>> s = hero.remove_punctuation(s)
>>> s 
0    This sentence    needs to  be cleaned
dtype: object

移除多余的空格。

>>> s = hero.remove_whitespace(s)
>>> s 
0    This sentence needs to be cleaned
dtype: object

有时我们还想去除停用词。

>>> s = hero.remove_stopwords(s)
>>> s
0    This sentence needs cleaned
dtype: object

API

Texthero由四个模块组成:preprocessing.pynlp.pyrepresentation.pyvisualization.py

1. 预处理

范围:为后续分析准备文本数据。

完整文档:预处理

2. 自然语言处理

**范围:**提供经典自然语言处理工具,如named_entitynoun_phrases

完整文档:NLP

2. 表征

**范围:**将文本数据映射为向量,并进行降维。

支持的表征算法:

  1. 词频(count
  2. 词频-逆文档频率(tfidf

支持的聚类算法:

  1. K均值(kmeans
  2. 基于密度的空间聚类算法(dbscan
  3. 均值漂移(meanshift

支持的降维算法:

  1. 主成分分析(pca
  2. t分布随机邻域嵌入(tsne
  3. 非负矩阵分解(nmf

完整文档:表征

3. 可视化

**范围:**总结文本数据的主要特征并进行可视化。该模块具有一定的主观性。对于需要快速在屏幕上可视化文本数据的人来说非常实用,例如在文本探索性数据分析(EDA)过程中。

支持的功能:

  • 文本散点图(scatterplot
  • 最常见词汇(top_words

完整文档:可视化

常见问题解答

为什么叫Texthero?

有时候我们就是希望事情能快速搞定,对吧?Texthero正是为此而生。它让工作更简单,让开发者有更多时间专注于自己的定制需求。我们认为,清理文本只需一分钟就够了。找到文本中最关键的部分以及对其进行表征也同样如此。

从非常务实的角度来看,Texthero只有一个目标:为开发者节省时间。处理文本数据往往很繁琐,但在大多数情况下,使用默认流程就已经足够好了。之后随时可以回过头来优化和完善。

贡献

“Texthero是由NLP社区的一员为整个NLP社区开发的”

Texthero属于我们所有NLP开发者,并且能够持续发展离不开社区的宝贵贡献。

无论你对Python和NLP的掌握程度如何,任何人都可以提供帮助,也热烈欢迎所有人参与贡献!

你是NLP专家吗?

  • 提交一个问题告诉我们你对Texthero的看法,哪些地方你喜欢,哪些地方不喜欢,以及我们可以如何改进!

你擅长创建网站吗?

网站很快将从Docusaurus迁移到Sphinx平台:请参阅那里的开放问题。好消息是:网站外观将保持不变 :) 普通消息是:我们需要进行一些网页开发,以使这个Sphinx模板适应我们的需求。你能帮我们吗?

你擅长写作吗?

目前Texthero最缺乏的就是更多的教程和“入门指南”。

如果你擅长写作,就可以帮助我们!为什么不先从为网站添加FAQ页面开始,或者解释一下如何创建自定义管道呢?需要帮助吗?我们随时为你提供支持。

你精通Python吗?

针对技术型人才,有许多开放的问题。你会选择哪一个呢?

如果你还有其他问题或咨询,请发送邮件至jonathanbesomi__AT__gmail.com

贡献者(按时间顺序)

许可证

MIT 许可证(MIT)

版权所有 © 2020 Texthero

特此授予任何人免费获取本软件及相关文档文件(以下简称“软件”)副本的权利,允许其在不受限制的情况下处理软件,包括但不限于以下权利:使用、复制、修改、合并、发布、分发、再许可及出售软件副本,并允许向任何接收方提供软件以供使用,但须遵守以下条件:

上述版权声明及本许可声明应包含在软件的所有副本或实质性部分中。

软件按“原样”提供,不提供任何形式的明示或暗示担保,包括但不限于适销性、特定用途适用性和非侵权性。在任何情况下,作者或版权所有者均不对因合同、侵权或其他原因引起的任何索赔、损害赔偿或其他责任负责,这些责任可能源于或与软件的使用或与其他方面的交易有关。

版本历史

1.1.02021/07/01
1.0.92020/07/06
1.0.82020/06/01
1.0.42020/04/27

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|3天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

146.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|今天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|2天前
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent