re.sub error con "Cadena esperada u objeto tipo bytes"

Question

Más

Question

re.sub error con "Cadena esperada u objeto tipo bytes"

He leído varios posts sobre este error, pero todavía no puedo resolverlo. Cuando trato de bucle a través de mi función:

def fix_Plan(location):
    letters_only = re.sub("[^a-zA-Z]",  # Search for all non-letters
                          " ",          # Replace all non-letters with spaces
                          location)     # Column and row to search    

    words = letters_only.lower().split()     
    stops = set(stopwords.words("english"))      
    meaningful_words = [w for w in words if not w in stops]      
    return (" ".join(meaningful_words))    

col_Plan = fix_Plan(train["Plan"][0])    
num_responses = train["Plan"].size    
clean_Plan_responses = []

for i in range(0,num_responses):
    clean_Plan_responses.append(fix_Plan(train["Plan"][i]))

Aquí está el error:

Traceback (most recent call last):
  File "C:/Users/xxxxx/PycharmProjects/tronc/tronc2.py", line 48, in <module>
    clean_Plan_responses.append(fix_Plan(train["Plan"][i]))
  File "C:/Users/xxxxx/PycharmProjects/tronc/tronc2.py", line 22, in fix_Plan
    location)  # Column and row to search
  File "C:\Users\xxxxx\AppData\Local\Programs\Python\Python36\lib\re.py", line 191, in sub
    return _compile(pattern, flags).sub(repl, string, count)
TypeError: expected string or bytes-like object

smci

Pregunta editada 29º diciembre 2018 в 8:38

Programación

regex

python

pandas

nltk

Solution / Answer

Bilal Chandio

27º octubre 2019 в 12:46

Más

Supongo que lo mejor sería utilizar la función re.match(). Aquí hay un ejemplo que puede ayudarte.

import re
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')
sentences = word_tokenize("I love to learn NLP \n 'a :(")
#for i in range(len(sentences)):
sentences = [word.lower() for word in sentences if re.match('^[a-zA-Z]+', word)]  
sentences

0

Comunidades relacionadas 5

Python en español

10 322 usuarios

Grupo de discusión sobre el lenguaje Python en español

Abrir telegram

Sólo Python

559 usuarios

Lugar para compartir, disfrutar, aprender, etc. Y también hablar de Python. Interés: @Debian_es @tensorflow

Abrir telegram

python-docs-es

257 usuarios

Grupo de trabajo para la documentación oficial de Python en Español

Abrir telegram

Python en Español🖥

154 usuarios

Grupo creado con el fin de compartir tus conocimientos y ayudar en el lenguaje Python3, en Español

Abrir telegram

Python Español 2.0

88 usuarios

Grupo de Python en español Regla #1: No preguntes si puedes preguntar. Simplemente haz tu pregunta

Abrir telegram

Añadir pregunta

Categorías

Todo

Tecnología

Cultura / Recreación

Vida / Artes

Ciencia

Profesional

Negocios

Usuarios

Todo

Nuevo

Popular

1

Ксения Комарова

Registrado hace 2 semanas

2

Артур «Апер»

Registrado hace 1 mes

3

Viktor Malyutin

Registrado hace 2 meses

4

Viktor Malyutin

Registrado hace 2 meses

5

Syahputra Zhedenk

Registrado hace 2 meses

¿Tiene alguna pregunta? Añádela en el sitio y obtén una respuesta al instante

es.kzen.dev

abccd · Accepted Answer · 2017-05-01T23:08:27+00:00

Como has dicho en los comentarios, algunos de los valores parecen ser flotantes, no cadenas. Tendrás que cambiarlos a cadenas antes de pasarlos a re.sub. La forma más sencilla es cambiar location por str(location) al utilizar re.sub. No estaría de más hacerlo de todos modos aunque ya sea una str.

letters_only = re.sub("[^a-zA-Z]",  # Search for all non-letters
                          " ",          # Replace all non-letters with spaces
                          str(location))