Zápis pandas DataFrame do súboru CSV

Question

Viac na

Question

Zápis pandas DataFrame do súboru CSV

V programe pandas mám dátový rámec, ktorý by som chcel zapísať do súboru CSV. Robím to pomocou:

df.to_csv('out.csv')

A dostávam chybu:

UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128)

Existuje nejaký spôsob, ako to jednoducho obísť (t. j. mám v dátovom rámci znaky unicode)? A existuje spôsob, ako zapisovať do súboru s tabuľkou namiesto CSV pomocou napr. metódy 'to-tab' (ktorá podľa mňa neexistuje)?

cs95

Edited question 21 máj 2019 в 3:27

csv

pandas

Solution / Answer

18 január 2017 в 9:00

Viac na

Ak máte problémy s kódovaním do 'utf-8' a chcete postupovať po jednotlivých bunkách, môžete skúsiť nasledovné.

Python 2

(Kde "df" je váš objekt DataFrame.)

for column in df.columns:
    for idx in df[column].index:
        x = df.get_value(idx,column)
        try:
            x = unicode(x.encode('utf-8','ignore'),errors ='ignore') if type(x) == unicode else unicode(str(x),errors='ignore')
            df.set_value(idx,column,x)
        except Exception:
            print 'encoding error: {0} {1}'.format(idx,column)
            df.set_value(idx,column,'')
            continue

Potom skúste:

df.to_csv(file_name)

Kódovanie stĺpcov môžete skontrolovať pomocou:

for column in df.columns:
    print '{0} {1}'.format(str(type(df[column][0])),str(column))

Upozornenie: errors='ignore' len vynechá znak napr.

IN: unicode('Regenexx\xae',errors='ignore')
OUT: u'Regenexx'

Python 3

for column in df.columns:
    for idx in df[column].index:
        x = df.get_value(idx,column)
        try:
            x = x if type(x) == str else str(x).encode('utf-8','ignore').decode('utf-8','ignore')
            df.set_value(idx,column,x)
        except Exception:
            print('encoding error: {0} {1}'.format(idx,column))
            df.set_value(idx,column,'')
            continue

Glen Thompson

Edited answer 1 december 2017 в 5:38

16

0

Pridať otázku

Kategórie

Všetky

Technológia

Kultúra / Rekreácia

Život / Umenie

Veda

Profesionálne

Obchod

Používatelia

Všetky

New

Popular

1

Ксения Комарова

Registered pred 3 týždňami

2

Артур «Апер»

Registered pred 2 mesiacmi

3

Viktor Malyutin

Registered pred 2 mesiacmi

4

Viktor Malyutin

Registered pred 2 mesiacmi

5

Syahputra Zhedenk

Registered pred 2 mesiacmi

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

Andy Hayden · Accepted Answer · 2013-06-04T16:52:17+00:00

Na oddelenie tabulátorom môžete použiť argument sep príkazu to_csv:

df.to_csv(file_name, sep='\t')

Ak chcete použiť špecifické kódovanie (napr. 'utf-8'), použite argument encoding:

df.to_csv(file_name, sep='\t', encoding='utf-8')