¿Cómo tratar con SettingWithCopyWarning en Pandas?

Question

Más

Question

¿Cómo tratar con SettingWithCopyWarning en Pandas?

Background

Acabo de actualizar mi Pandas de 0.11 a 0.13.0rc1. Ahora, la aplicación está sacando muchas advertencias nuevas. Uno de ellos como este:

E:\FinReporter\FM_EXT.py:449: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
  quote_df['TVol']   = quote_df['TVol']/TVOL_SCALE

Quiero saber qué significa exactamente? ¿Tengo que cambiar algo?

¿Cómo debo suspender la advertencia si insisto en utilizar quote_df['TVol'] = quote_df['TVol']/TVOL_SCALE?

La función que da errores

def _decode_stock_quote(list_of_150_stk_str):
    """decode the webpage and return dataframe"""

    from cStringIO import StringIO

    str_of_all = "".join(list_of_150_stk_str)

    quote_df = pd.read_csv(StringIO(str_of_all), sep=',', names=list('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefg')) #dtype={'A': object, 'B': object, 'C': np.float64}
    quote_df.rename(columns={'A':'STK', 'B':'TOpen', 'C':'TPCLOSE', 'D':'TPrice', 'E':'THigh', 'F':'TLow', 'I':'TVol', 'J':'TAmt', 'e':'TDate', 'f':'TTime'}, inplace=True)
    quote_df = quote_df.ix[:,[0,3,2,1,4,5,8,9,30,31]]
    quote_df['TClose'] = quote_df['TPrice']
    quote_df['RT']     = 100 * (quote_df['TPrice']/quote_df['TPCLOSE'] - 1)
    quote_df['TVol']   = quote_df['TVol']/TVOL_SCALE
    quote_df['TAmt']   = quote_df['TAmt']/TAMT_SCALE
    quote_df['STK_ID'] = quote_df['STK'].str.slice(13,19)
    quote_df['STK_Name'] = quote_df['STK'].str.slice(21,30)#.decode('gb2312')
    quote_df['TDate']  = quote_df.TDate.map(lambda x: x[0:4]+x[5:7]+x[8:10])

    return quote_df

Más mensajes de error

E:\FinReporter\FM_EXT.py:449: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
  quote_df['TVol']   = quote_df['TVol']/TVOL_SCALE
E:\FinReporter\FM_EXT.py:450: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
  quote_df['TAmt']   = quote_df['TAmt']/TAMT_SCALE
E:\FinReporter\FM_EXT.py:453: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
  quote_df['TDate']  = quote_df.TDate.map(lambda x: x[0:4]+x[5:7]+x[8:10])

Brad Solomon

Pregunta editada 1º diciembre 2017 в 4:15

pandas

Advertencia de copia del marco de datos de Pandas

Cuando vas y haces algo como esto

quote_df = quote_df.ix[:,[0,3,2,1,4,5,8,9,30,31]]

pandas.ix en este caso devuelve un nuevo marco de datos independiente.

Cualquier valor que decida cambiar en este marco de datos, no cambiará el marco de datos original.

Esto es lo que pandas trata de advertirle.

Por qué `.ix` es una mala idea

El objeto .ix intenta hacer más de una cosa, y para cualquiera que haya leído algo sobre código limpio, esto es un fuerte olor.

Dado este dataframe:

df = pd.DataFrame({"a": [1,2,3,4], "b": [1,1,2,2]})

Dos comportamientos:

dfcopy = df.ix[:,["a"]]
dfcopy.a.ix[0] = 2

Comportamiento uno: dfcopy es ahora un marco de datos independiente. Si se cambia, no cambiará df.

df.ix[0, "a"] = 3

Comportamiento dos: Esto cambia el marco de datos original.

Utilizar `.loc` en su lugar

Los desarrolladores de pandas reconocieron que el objeto .ix era bastante apestoso [especulativamente] y por ello crearon dos nuevos objetos que ayudan en la adhesión y asignación de datos. (El otro es .iloc)

.loc es más rápido, porque no intenta crear una copia de los datos.

.loc está pensado para modificar el marco de datos existente in situ, lo que es más eficiente en cuanto a la memoria.

.loc es predecible, tiene un comportamiento.

La solución

Lo que estás haciendo en tu ejemplo de código es cargar un archivo grande con muchas columnas, y luego modificarlo para que sea más pequeño.

La función pd.read_csv puede ayudarte con mucho de esto y también hacer la carga del archivo mucho más rápida.

Así que en lugar de hacer esto

quote_df = pd.read_csv(StringIO(str_of_all), sep=',', names=list('ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefg')) #dtype={'A': object, 'B': object, 'C': np.float64}
quote_df.rename(columns={'A':'STK', 'B':'TOpen', 'C':'TPCLOSE', 'D':'TPrice', 'E':'THigh', 'F':'TLow', 'I':'TVol', 'J':'TAmt', 'e':'TDate', 'f':'TTime'}, inplace=True)
quote_df = quote_df.ix[:,[0,3,2,1,4,5,8,9,30,31]]

Haz esto

columns = ['STK', 'TPrice', 'TPCLOSE', 'TOpen', 'THigh', 'TLow', 'TVol', 'TAmt', 'TDate', 'TTime']
df = pd.read_csv(StringIO(str_of_all), sep=',', usecols=[0,3,2,1,4,5,8,9,30,31])
df.columns = columns

Esto sólo leerá las columnas que le interesan, y las nombrará correctamente. No es necesario usar el malvado objeto .ix para hacer cosas mágicas.

cs95

Respuesta editada 28º diciembre 2018 в 8:31

39

0

Comunidades relacionadas 5

Python en español

10 322 usuarios

Grupo de discusión sobre el lenguaje Python en español

Abrir telegram

Sólo Python

559 usuarios

Lugar para compartir, disfrutar, aprender, etc. Y también hablar de Python. Interés: @Debian_es @tensorflow

Abrir telegram

python-docs-es

257 usuarios

Grupo de trabajo para la documentación oficial de Python en Español

Abrir telegram

Python en Español🖥

154 usuarios

Grupo creado con el fin de compartir tus conocimientos y ayudar en el lenguaje Python3, en Español

Abrir telegram

Python Español 2.0

88 usuarios

Grupo de Python en español Regla #1: No preguntes si puedes preguntar. Simplemente haz tu pregunta

Abrir telegram

Añadir pregunta

Categorías

Todo

Tecnología

Cultura / Recreación

Vida / Artes

Ciencia

Profesional

Negocios

Usuarios

Todo

Nuevo

Popular

1

Ксения Комарова

Registrado hace 3 semanas

2

Артур «Апер»

Registrado hace 2 meses

3

Viktor Malyutin

Registrado hace 2 meses

4

Viktor Malyutin

Registrado hace 2 meses

5

Syahputra Zhedenk

Registrado hace 2 meses

¿Tiene alguna pregunta? Añádela en el sitio y obtén una respuesta al instante

es.kzen.dev

Garrett · Accepted Answer · 2013-12-17T06:20:23+00:00

El SettingWithCopyWarning fue creado para señalar asignaciones "encadenadas" potencialmente confusas, como las siguientes, que no siempre funcionan como se espera, particularmente cuando la primera selección devuelve una copia. [ver GH5390 y GH5597 para una discusión de fondo].

df[df['A'] > 2]['B'] = new_val  # new_val not set in df

La advertencia ofrece una sugerencia para reescribir como sigue:

df.loc[df['A'] > 2, 'B'] = new_val

Sin embargo, esto no se ajusta a su uso, que es equivalente a

df = df[df['A'] > 2]
df['B'] = new_val

Mientras que está claro que no te importa que las escrituras vuelvan al marco original (ya que sobrescribiste la referencia a él), desafortunadamente este patrón no puede diferenciarse del primer ejemplo de asignación encadenada, de ahí la advertencia (falso positivo). El potencial de los falsos positivos se trata en los docs on indexing, si quieres leer más. Puede desactivar con seguridad esta nueva advertencia con la siguiente asignación.

pd.options.mode.chained_assignment = None  # default='warn'

¿Cómo tratar con SettingWithCopyWarning en Pandas?

Background

La función que da errores

Más mensajes de error

Advertencia de copia del marco de datos de Pandas

Por qué .ix es una mala idea

Utilizar .loc en su lugar

La solución

Por qué `.ix` es una mala idea

Utilizar `.loc` en su lugar