Dividir una cadena con múltiples delimitadores en Python

Question

Más

Question

Dividir una cadena con múltiples delimitadores en Python

He encontrado algunas respuestas en Internet, pero no tengo experiencia con expresiones regulares, que creo que es lo que se necesita aquí.

Tengo una cadena que necesita ser dividida por un ';' o ', ' Es decir, tiene que ser un punto y coma o una coma seguida de un espacio. Las comas individuales sin espacios finales deben dejarse sin tocar

Ejemplo de cadena:

"b-staged divinylsiloxane-bis-benzocyclobutene [124221-30-3], mesitylene [000108-67-8]; polymerized 1,2-dihydro-2,2,4- trimethyl quinoline [026780-96-1]"

debe dividirse en una lista que contenga lo siguiente

('b-staged divinylsiloxane-bis-benzocyclobutene [124221-30-3]' , 'mesitylene [000108-67-8]', 'polymerized 1,2-dihydro-2,2,4- trimethyl quinoline [026780-96-1]')

jww

Pregunta editada 31º diciembre 2018 в 5:54

split

Solution / Answer

1º noviembre 2012 в 8:15

Más

Aquí's una forma segura para cualquier iterable de delimitadores, usando expresiones regulares:

>>> import re
>>> delimiters = "a", "...", "(c)"
>>> example = "stackoverflow (c) is awesome... isn't it?"
>>> regexPattern = '|'.join(map(re.escape, delimiters))
>>> regexPattern
'a|\\.\\.\\.|\\(c\\)'
>>> re.split(regexPattern, example)
['st', 'ckoverflow ', ' is ', 'wesome', " isn't it?"]

permite construir el patrón automáticamente y hacer que los delimitadores se escapen bien.

Aquí's esta solución como una función para su placer de copiar-pegar:

def split(delimiters, string, maxsplit=0):
    import re
    regexPattern = '|'.join(map(re.escape, delimiters))
    return re.split(regexPattern, string, maxsplit)

Si usted'va a dividir a menudo usando los mismos delimitadores, compile su expresión regular de antemano como se describe y use [RegexObject.split][split].

[escape]: http://docs.python.org/2/library/re.html#re.escape [split]: http://docs.python.org/2/library/re.html#re.RegexObject.split

Kos

Respuesta editada 28º febrero 2013 в 5:54

95

0

Paul

9º enero 2013 в 10:22

Más

En respuesta a la respuesta de Jonathan arriba, esto sólo parece funcionar para ciertos delimitadores. Por ejemplo:

>>> a='Beautiful, is; better*than\nugly'
>>> import re
>>> re.split('; |, |\*|\n',a)
['Beautiful', 'is', 'better', 'than', 'ugly']

>>> b='1999-05-03 10:37:00'
>>> re.split('- :', b)
['1999-05-03 10:37:00']

Poniendo los delimitadores entre corchetes parece funcionar más eficazmente.

>>> re.split('[- :]', b)
['1999', '05', '03', '10', '37', '00']

52

0

Jochen Ritzel

14º febrero 2011 в 11:52

Más

Así es como se ve la regex:

import re
# "semicolon or (a comma followed by a space)"
pattern = re.compile(r";|, ")

# "(semicolon or a comma) followed by a space"
pattern = re.compile(r"[;,] ")

print pattern.split(text)

27

0

Comunidades relacionadas 5

Python en español

10 322 usuarios

Grupo de discusión sobre el lenguaje Python en español

Abrir telegram

Sólo Python

559 usuarios

Lugar para compartir, disfrutar, aprender, etc. Y también hablar de Python. Interés: @Debian_es @tensorflow

Abrir telegram

python-docs-es

257 usuarios

Grupo de trabajo para la documentación oficial de Python en Español

Abrir telegram

Python en Español🖥

154 usuarios

Grupo creado con el fin de compartir tus conocimientos y ayudar en el lenguaje Python3, en Español

Abrir telegram

Python Español 2.0

88 usuarios

Grupo de Python en español Regla #1: No preguntes si puedes preguntar. Simplemente haz tu pregunta

Abrir telegram

Añadir pregunta

Categorías

Todo

Tecnología

Cultura / Recreación

Vida / Artes

Ciencia

Profesional

Negocios

Usuarios

Todo

Nuevo

Popular

1

Ксения Комарова

Registrado hace 2 semanas

2

Артур «Апер»

Registrado hace 1 mes

3

Viktor Malyutin

Registrado hace 2 meses

4

Viktor Malyutin

Registrado hace 2 meses

5

Syahputra Zhedenk

Registrado hace 2 meses

¿Tiene alguna pregunta? Añádela en el sitio y obtén una respuesta al instante

es.kzen.dev

Jonathan · Accepted Answer · 2011-02-14T23:52:24+00:00

Por suerte, Python lo tiene incorporado :)

import re
re.split('; |, ',str)

Actualización:
Siguiendo tu comentario:

>>> a='Beautiful, is; better*than\nugly'
>>> import re
>>> re.split('; |, |\*|\n',a)
['Beautiful', 'is', 'better', 'than', 'ugly']