これは私のコードで、本当に簡単なものです。
import csv
import json
csvfile = open('file.csv', 'r')
jsonfile = open('file.json', 'w')
fieldnames = ("FirstName","LastName","IDNumber","Message")
reader = csv.DictReader( csvfile, fieldnames)
out = json.dumps( [ row for row in reader ] )
jsonfile.write(out)
いくつかのフィールド名を宣言し、リーダーはCSVでファイルを読み、ファイル名はJSON形式でファイルをダンプするために使用します。ここで問題が・・・。
CSVファイルの各レコードは異なる行にあります。JSONの出力も同じようにしたい。問題は、1つの巨大で長い行にすべてをダンプすることです。
for line in csvfile:のようなものを使って、その下のコードを
reader = csv.DictReader( line, fieldnames)` で実行してみましたが、1行でファイル全体を処理し、別の行でファイル全体をループし・・・行数が足りなくなるまで続いています。
これを修正する方法があれば教えてください。
Edit: 明確にするために、現在、私は持っています:(1行目の各レコード)です。
[{"FirstName":"John","LastName":"Doe","IDNumber":"123","Message":"None"},{"FirstName":"George","LastName":"Washington","IDNumber":"001","Message":"Something"}]
私が探しているもの':(2行に2レコード)
{"FirstName":"John","LastName":"Doe","IDNumber":"123","Message":"None"}
{"FirstName":"George","LastName":"Washington","IDNumber":"001","Message":"Something"}
各フィールドをインデントして別行動にするのではなく、各レコードを1行にする。
サンプル入力の一部をご紹介します。
"John","Doe","001","Message1"
"George","Washington","002","Message2"
あなたの望む出力の問題は、それが有効なjson文書ではなく、json文書のストリームであることです!
しかし、その場合、出力したい文書ごとに json.dumps
を呼び出さなければならないことになります。
ドキュメントを区切るための改行がドキュメントに含まれていないため、自分で用意する必要があるのです。 そこで、json.dumpの呼び出しからループを引き出して、書かれた文書ごとに改行を挟むようにすればいいのです。
import csv
import json
csvfile = open('file.csv', 'r')
jsonfile = open('file.json', 'w')
fieldnames = ("FirstName","LastName","IDNumber","Message")
reader = csv.DictReader( csvfile, fieldnames)
for row in reader:
json.dump(row, jsonfile)
jsonfile.write('\n')
Pandas DataFrameを使用してこれを実現できます。例は次のとおりです。
import pandas as pd
csv_file = pd.DataFrame(pd.read_csv("path/to/file.csv", sep = ",", header = 0, index_col = False))
csv_file.to_json("/path/to/new/file.json", orient = "records", date_format = "epoch", double_precision = 10, force_ascii = True, date_unit = "ms", default_handler = None)
import csv
import json
file = 'csv_file_name.csv'
json_file = 'output_file_name.json'
#Read CSV File
def read_CSV(file, json_file):
csv_rows = []
with open(file) as csvfile:
reader = csv.DictReader(csvfile)
field = reader.fieldnames
for row in reader:
csv_rows.extend([{field[i]:row[field[i]] for i in range(len(field))}])
convert_write_json(csv_rows, json_file)
#Convert csv data into json
def convert_write_json(data, json_file):
with open(json_file, "w") as f:
f.write(json.dumps(data, sort_keys=False, indent=4, separators=(',', ': '))) #for pretty
f.write(json.dumps(data))
read_CSV(file,json_file)
これを試すことができます。
import csvmapper
# how does the object look
mapper = csvmapper.DictMapper([
[
{ 'name' : 'FirstName'},
{ 'name' : 'LastName' },
{ 'name' : 'IDNumber', 'type':'int' },
{ 'name' : 'Messages' }
]
])
# parser instance
parser = csvmapper.CSVParser('sample.csv', mapper)
# conversion service
converter = csvmapper.JSONConverter(parser)
print converter.doConvert(pretty=True)
編集:
より簡単なアプローチ。
import csvmapper
fields = ('FirstName', 'LastName', 'IDNumber', 'Messages')
parser = CSVParser('sample.csv', csvmapper.FieldMapper(fields))
converter = csvmapper.JSONConverter(parser)
print converter.doConvert(pretty=True)
json.dumpsに
indent` パラメータを追加する。
data = {'this': ['has', 'some', 'things'],
'in': {'it': 'with', 'some': 'more'}}
print(json.dumps(data, indent=4))
また、json.dump
を jsonfile
を開いて使用することも可能です:
json.dump(data, jsonfile)
Pandasを使用してcsvファイルをDataFrame(pd.read_csv)に読み、必要に応じて列を操作(削除または値の更新)し、最後にDataFrameをJSON(pd。 DataFrame.to_json)。
注:これがどれほど効率的であるかを確認していませんが、これは間違いなく、大きなcsvを操作してjsonに変換する最も簡単な方法の1つです。
これは古いようですが、SingleNegationEliminationのコードが必要でしたが、utf-8以外の文字を含むデータに問題がありました。 これらはあまり気にならなかったフィールドに現れたので無視することにしました。 しかし、それはある程度の努力を要しました。 私はpythonに慣れていないので、試行 ⁇ 誤を重ねて動作しました。 コードは、utf-8の追加処理を伴うSingleNegationEliminationのコピーです。 私はhttps://docs.python.org/2.7/library/csv.htmlでそれを試みましたが、結局あきらめました。 以下のコードが機能しました。
import csv, json
csvfile = open('file.csv', 'r')
jsonfile = open('file.json', 'w')
fieldnames = ("Scope","Comment","OOS Code","In RMF","Code","Status","Name","Sub Code","CAT","LOB","Description","Owner","Manager","Platform Owner")
reader = csv.DictReader(csvfile , fieldnames)
code = ''
for row in reader:
try:
print('+' + row['Code'])
for key in row:
row[key] = row[key].decode('utf-8', 'ignore').encode('utf-8')
json.dump(row, jsonfile)
jsonfile.write('\n')
except:
print('-' + row['Code'])
raise
@MONTYHSの回答をわずかに改善したので、フィールド名のタップを介して反復します。
import csv
import json
csvfilename = 'filename.csv'
jsonfilename = csvfilename.split('.')[0] + '.json'
csvfile = open(csvfilename, 'r')
jsonfile = open(jsonfilename, 'w')
reader = csv.DictReader(csvfile)
fieldnames = ('FirstName', 'LastName', 'IDNumber', 'Message')
output = []
for each in reader:
row = {}
for field in fieldnames:
row[field] = each[field]
output.append(row)
json.dump(output, jsonfile, indent=2, sort_keys=True)
import csv
import json
csvfile = csv.DictReader('filename.csv', 'r'))
output =[]
for each in csvfile:
row ={}
row['FirstName'] = each['FirstName']
row['LastName'] = each['LastName']
row['IDNumber'] = each ['IDNumber']
row['Message'] = each['Message']
output.append(row)
json.dump(output,open('filename.json','w'),indent=4,sort_keys=False)