Python Panda 데이터 토큰화 오류

Question

abuteau

Question

Python Panda 데이터 토큰화 오류

팬더를 사용하여 .csv 파일을 조작하려고 하는데 다음과 같은 오류가 발생합니다.

parser.parser.>파서.CParserError: 데이터를 토큰화하는 중 오류가 발생했습니다. C 오류: 3행에는 2개의 필드가 있어야 하는데 12개가 있습니다.

판다의 문서를 읽어보려고 노력했지만 아무것도 찾지 못했어요.

내 코드는 간단합니다:

path = 'GOOG Key Ratios.csv'
#print(open(path).read())
data = pd.read_csv(path)

어떻게 해결할 수 있을까요? 'csv' 모듈을 사용해야 합니까 아니면 다른 언어를 사용해야 합니까?

파일은 Morningstar에서 가져옵니다.

Ronak Shah

편집된 질문30일 12월 2017 в 3:00

프로그래밍

csv

python

pandas

Popular videos

« 이전

grisaitis

28일 10월 2014 в 2:18

이 문제가 될 수 있습니다

이 고객의 데이터 구분
첫 번째 행, @TomAugspurger 있다 "고 전했다

이를 해결하기 위해 9월 ',' 지정 및 / 또는 '헤더입니다 시도하시겠습니까 호출할 때' '인수만 read_csv'. 예를 들어,

df = pandas.read_csv(fileName, sep='delimiter', header=None)

위의 코드에서 '와' 헤더입니다 알 수 있는 '판다' 는 9월 너회의 구분 = 없음) 의 소스 데이터 주님으로부터그에게 행일 헤더도 / 열 개의 국내 타이틀을 우승하였다. 이렇게 말하는 이 문서: 헤더 파일이 포함되어 있지, 만약 &quot 행일 관심용 전달하십시오 헤더입니다 = None&quot, 명시적으로 합니다. 예를 들어, 정수 자동으로 만들어집니다.}, {0.1,2 각 분야의 지수 판다.

- 문제가 될 게 없는 docs 에 따르면 구분 한다. 이 문서 할 말이 없는 경우, 9월 &quot [지정되지 않은] this.&quot 자동으로 판별할 수 있도록 노력하겠다. 하지만 난 적이 없는 등 함께 좋은 운빨이야 대체하십시오 인스턴스들도 명백하네 구분.

grisaitis

편집된 답변5일 6월 2018 в 2:24

This API page has moved

pandas.pydata.org

77

0

Piyush S. Wanare

1일 4월 2015 в 5:42

이건 분명히 문제가 구분, csv CSV 는 9월 = & # 39 로 대부분 잡을라는데 사용하여 만든 ',', '그래서 /t& # 39 를 사용하여 시도하시겠습니까 read_csv' 탭 문자 ' (\t)' 분리자의 사용하여 '/ t'. 따라서 열려면 다음과 같은 코드를 사용하여 시도하시겠습니까 할말이다

data=pd.read_csv("File_path", sep='\t')

17

0

Robert Geiger

4일 2월 2016 в 10:16

내가 가진 것은 아마도 이 문제가 아니라 다른 이유. 나는 내 뒤에 있던 쉼표 CSV 는 약간의 열을 추가 읽으려고 판다. 하지만 다음 작품을 통해 단순히 흐름선 나쁜거라 무시합니다.

data = pd.read_csv('file1.csv', error_bad_lines=False)

추악한 흐름선 유지하려면 한 종류의 해킹 처리하는 것이 뭔가 오류가 다음과 같습니다.

line     = []
expected = []
saw      = []     
cont     = True 

while cont == True:     
    try:
        data = pd.read_csv('file1.csv',skiprows=line)
        cont = False
    except Exception as e:    
        errortype = e.message.split('.')[0].strip()                                
        if errortype == 'Error tokenizing data':                        
           cerror      = e.message.split(':')[1].strip().replace(',','')
           nums        = [n for n in cerror.split(' ') if str.isdigit(n)]
           expected.append(int(nums[0]))
           saw.append(int(nums[2]))
           line.append(int(nums[1])-1)
         else:
           cerror      = 'Unknown'
           print 'Unknown Error - 222'

if line != []:
    # Handle the errors however you want

내가 쓸 수 차례 스크립트입니다 흐름선 재장착하려면 다테프라임 꽂으십시오 이후 line& # 39, & # 39 변수에 의해 나쁜거라 흐름선 나옵니다. 위 코드입니다. Csv 판독기에서 사용하기만 하면 이 피할 수 있습니다. 향후 이 상황에 대처할 수 있는 개발자들이 쉽게 판다 기대해 본다.

16

0

Steven Rouk

8일 1월 2019 в 6:57

내가 가진 것 없이 읽을 수 있는 것은 이 문제를 어디서 CSV 반군지역 열 이름.

df = pd.read_csv(filename, header=None)

나는 열 이름을 미리 지정된 후 목록에 이름을 바로 해결 및 정보기술 (it) ',' 전달하십시오 묶습니다. # 39 열 이름을 설정할 수 없는 경우, 그냥 don& 만들 수 있는 최대 열이 많은 자리표시자 이름으로 고객의 데이터.

col_names = ["col1", "col2", "col3", ...]
df = pd.read_csv(filename, names=col_names)

11

0

lotrus28

24일 4월 2017 в 11:28

39 i& 비슷한 문제가 발생, 읽을 수 있는 테이블을 공백 탭으로 구분된 숨기지 않았다, 쉼표 및 인용:

1115794 4218    "k__Bacteria", "p__Firmicutes", "c__Bacilli", "o__Bacillales", "f__Bacillaceae", ""
1144102 3180    "k__Bacteria", "p__Firmicutes", "c__Bacilli", "o__Bacillales", "f__Bacillaceae", "g__Bacillus", ""
368444  2328    "k__Bacteria", "p__Bacteroidetes", "c__Bacteroidia", "o__Bacteroidales", "f__Bacteroidaceae", "g__Bacteroides", ""

import pandas as pd
# Same error for read_table
counts = pd.read_csv(path_counts, sep='\t', index_col=2, header=None, engine = 'c')

pandas.io.common.CParserError: Error tokenizing data. C error: out of memory

이 있다고 캜 구문 분석 엔진 (디스크입니다. 기본값입니다) 한 관련이 있다. 아마 어떤 것도 변화시킬 수 있는 한, 파이썬 변경됩니까 &lt br&gt.

counts = pd.read_table(path_counts, sep='\t', index_col=2, header=None, engine='python')

Segmentation fault (core dumped)

바로 그것이 다른 error.&lt br>; 만약 우리가 박으래도 지루려면 시도하시겠습니까 공백을 테이블에서 파이썬 engine 변경 및 오류 다시 한 번:

1115794 4218    "k__Bacteria","p__Firmicutes","c__Bacilli","o__Bacillales","f__Bacillaceae",""
1144102 3180    "k__Bacteria","p__Firmicutes","c__Bacilli","o__Bacillales","f__Bacillaceae","g__Bacillus",""
368444  2328    "k__Bacteria","p__Bacteroidetes","c__Bacteroidia","o__Bacteroidales","f__Bacteroidaceae","g__Bacteroides",""

_csv.Error: '   ' expected after '"'

문제가 있는 것은 우리의 행뿐만 구문 분석 및 it gets 선택해제합니다 판다. 내가 필요한 모든 공간 및 파이썬 engine 분석할 수 있는 테이블을 지루려면 인용 테이블 신청했다. 한편 캜 engine 포함 추락한 있는 쉼표는 행뿐만 지켰다. &lt br>; &lt br>; 내가 가진 새 파일을 생기지 않도록 교체품을 이런게야 내 테이블 등 작다. &lt br>;

from io import StringIO
with open(path_counts) as f:
    input = StringIO(f.read().replace('", ""', '').replace('"', '').replace(', ', ',').replace('\0',''))
    counts = pd.read_table(input, sep='\t', index_col=2, header=None, engine='python')

tl; dr * &lt br>; 구문 분석 엔진, 시도하시겠습니까 변경하십시오 비사양 제한되지 않은 견적 / / 공백을 방지하기 위해 쉼표 고객의 데이터.

5

0

Bhavesh Kumar

21일 11월 2018 в 1:03

사용할 수 있는 매개변수입니다 구분

pd.read_csv(filename, delimiter=",", encoding='utf-8')

It 읽습니다.

4

0

RegularlyScheduledProgram

3일 10월 2016 в 3:45

이 질문에 대한 것은 아니지만, 이 사건을 통해 압축된 데이터 오류 나타날 수도 있습니다. 값 설정 '이 문제를 명시적으로 콰리' '압축' 해결되었으므로.

result = pandas.read_csv(data_source, compression='gzip')

3

0

kepy97

23일 5월 2018 в 11:45

다음과 같은 순서로 작동됨 명령 (I 손실됩니다 첫 줄의 데이터 (= 없음 - 아니 헤더입니다 χ02 있지만, 적어도 이 로드되는지):

df = pd.read_csv (파일_이름, ' 우스콜스 = 범위 (0, 42)) 드프스콜럼너스 = [& # 39, YR& # 39, & # 39, MO& # 39, & # 39, DAY& # 39, & # 39, HR& # 39, & # 39, MIN& # 39, & # 39, & # 39, HUND& SEC& # 39, # 39;;

39, & # 39, & # 39, & # 39, ERROR& RECTYPE& LANE& # 39, & # 39,,, # 39, & # 39 CLASS& SPEED& # 39, # 39;;

39, & # 39, & # 39, & # 39, LENGTH& GVW& ESAL& # 39, & # 39,,, # 39, & # 39, & # 39, W1& S1& # 39, & # 39,,, # 39 W2& # 39 S2& # 39;

39, & # 39, & # 39, & # 39, W3& S3& W4& # 39, & # 39,,, # 39, & # 39, & # 39, S4& W5& S5& # 39, & # 39,, # 39, & # 39 S6& W6& # 39, # 39, # 39;;

39, & # 39, & # 39, & # 39, W7& S7& W8& # 39, & # 39,,, # 39, & # 39, & # 39, S8& W9& S9& # 39, & # 39,, # 39, & # 39 S10& W10& # 39, # 39, # 39;;

& # 39, W11& # 39, & # 39, S11& # 39, & # 39, W12& # 39, & # 39, S12& # 39, & # 39, W13& # 39, & # 39, & # 39, # 39 W14& S13& # 39;;;] '

다음과 같은 작동하지 않습니다.

df = pd.read_csv (파일_이름, ' 이름 = [& # 39, YR& # 39, & # 39, MO& # 39, & # 39, DAY& # 39, & # 39, HR& # 39, & # 39, MIN& # 39, & # 39, & # 39, HUND& SEC& # 39, # 39;;

39, & # 39, & # 39, & # 39, ERROR& RECTYPE& LANE& # 39, & # 39,,, # 39, & # 39 CLASS& SPEED& # 39, # 39;;

39, & # 39, & # 39, & # 39, LENGTH& GVW& ESAL& # 39, & # 39,,, # 39, & # 39, & # 39, W1& S1& # 39, & # 39,,, # 39 W2& # 39 S2& # 39;

39, & # 39, & # 39, & # 39, W3& S3& W4& # 39, & # 39,,, # 39, & # 39, & # 39, S4& W5& S5& # 39, & # 39,, # 39, & # 39 S6& W6& # 39, # 39, # 39;;

39, & # 39, & # 39, & # 39, W7& S7& W8& # 39, & # 39,,, # 39, & # 39, & # 39, S8& W9& S9& # 39, & # 39,, # 39, & # 39 S10& W10& # 39, # 39, # 39;;

& # 39, W11& # 39, & # 39, S11& # 39, & # 39, W12& # 39, & # 39, S12& # 39, & # 39, W13& # 39, & # 39, & # 39, # 39 W14& S13& # 39;;;] 우스콜스 = 범위 (0, 42)) '

스파서에로: 토큰 화 데이터 오류. 캜 오류: 걱정했던것 53 필드에 1605634 54 선 · 표면탄성파 (saw) 다음과 같은 작동하지 않습니다.

df = pd.read_csv (파일_이름, ' 헤더입니다 = 없음) '

스파서에로: 토큰 화 데이터 오류. 캜 오류: 걱정했던것 53 필드에 1605634 54 선 · 표면탄성파 (saw)

따라서 이 문제를 전달하십시오 우스콜스 = 범위 (0, 2) '' 합니다.

3

0

bcoz

26일 1월 2018 в 8:54

나는 유용할 수 있는 대안이 비슷한 문제를 다루는 모듈을 사용하여 구문 분석 오류뿐만 CSV 에 데이터를 재지정할 df 판다. 예를 들면 다음과 같습니다.

import csv
import pandas as pd
path = 'C:/FileLocation/'
file = 'filename.csv'
f = open(path+file,'rt')
reader = csv.reader(f)

#once contents are available, I then put them in a list
csv_list = []
for l in reader:
    csv_list.append(l)
f.close()
#now pandas has no problem getting into a df
df = pd.DataFrame(csv_list)

다운로드합니까 CSV 파일 등) 로 잘못 포맷됩니다 모듈을 좀 더 강력한 쉼표로 구분된 이 라우트를 문제를 해결하기 위해 이 같은 성공을 거둘 수 없었을 것이다.

2

0

Kims Sifers

15일 11월 2017 в 10:59

가끔 파이썬 갖추고 있지만, 원시 데이터를 사용하는 방법에 문제가 아니다. 내가 맡을게 오류 메시지

Error tokenizing data. C error: Expected 18 fields in line 72, saw 19.

가끔 쉼표 설명스크립트 열 것으로 드러나 있었다. 즉, CSV 파일 클리닝해야 백업하도록 또는 다른 사용되는 분리자의.

Aks4125

편집된 답변15일 11월 2017 в 12:13

2

0

Dirk

20일 8월 2019 в 9:37

다음 협력했습니다 가져다줄래요 (제가 이 질문에 내가 만약 이 문제가 있기 때문에 특별히 게시하기를 구글 콜라보라토리 노트북):

df = pd.read_csv("/path/foo.csv", delimiter=';', skiprows=0, low_memory=False)

2

0

Zstack

14일 10월 2019 в 2:54

비슷한 사람들을 위한 파이썬 3 에 리눅스 운용체계 (os) 문제를 겪고 있다.

pandas.errors.ParserError: Error tokenizing data. C error: Calling
read(nbytes) on source failed. Try engine='python'.

종료기:

df.read_csv('file.csv', encoding='utf8', engine='python')

double-beep

편집된 답변14일 10월 2019 в 3:11

2

0

Python Panda 데이터 토큰화 오류

39 이 문제를 몇 번 i&, 내 자신을 숨기지 않았다. 거의 모든 시간, 그 이유는 해당 파일이 저장된 CSV 는 열려고 시도하는 것은 내가 제대로 꼴입니다. , 내 말은 각 행은 동일한 수의 뒤를 &quot properly&quot 경식도 구분 또는 열.

39 마리의 to_csv 저장된 모든 파일을 통해 이 문제를 제대로 포맷하여 shouldn&, 될 수 없다. 하지만 대화 상자를 열면 다른 프로그램을 통해 구조를 변경할 수 있습니다.

39 i& 비슷한 문제가 발생, 읽을 수 있는 테이블을 공백 탭으로 구분된 숨기지 않았다, 쉼표 및 인용:

3 = 3 인용 csv 로 상호. 대한 quote_none 판다

39, & # 39, & # 39, & # 39, ERROR& RECTYPE& LANE& # 39, & # 39,,, # 39, & # 39 CLASS& SPEED& # 39, # 39;;

39, & # 39, & # 39, & # 39, LENGTH& GVW& ESAL& # 39, & # 39,,, # 39, & # 39, & # 39, W1& S1& # 39, & # 39,,, # 39 W2& # 39 S2& # 39;

39, & # 39, & # 39, & # 39, W3& S3& W4& # 39, & # 39,,, # 39, & # 39, & # 39, S4& W5& S5& # 39, & # 39,, # 39, & # 39 S6& W6& # 39, # 39, # 39;;

39, & # 39, & # 39, & # 39, W7& S7& W8& # 39, & # 39,,, # 39, & # 39, & # 39, S8& W9& S9& # 39, & # 39,, # 39, & # 39 S10& W10& # 39, # 39, # 39;;

39, & # 39, & # 39, & # 39, ERROR& RECTYPE& LANE& # 39, & # 39,,, # 39, & # 39 CLASS& SPEED& # 39, # 39;;

39, & # 39, & # 39, & # 39, LENGTH& GVW& ESAL& # 39, & # 39,,, # 39, & # 39, & # 39, W1& S1& # 39, & # 39,,, # 39 W2& # 39 S2& # 39;

39, & # 39, & # 39, & # 39, W3& S3& W4& # 39, & # 39,,, # 39, & # 39, & # 39, S4& W5& S5& # 39, & # 39,, # 39, & # 39 S6& W6& # 39, # 39, # 39;;

39, & # 39, & # 39, & # 39, W7& S7& W8& # 39, & # 39,,, # 39, & # 39, & # 39, S8& W9& S9& # 39, & # 39,, # 39, & # 39 S10& W10& # 39, # 39, # 39;;