请教文本去重的方法,另外python 打印文本文档开头多了个空格


本意是想把打开的文本文件存到List里,类似以下斜体的记录有很多条,想去掉其中重复的。 用set也是一样的结果。

RT Journal Article
SR 1
A1 孔令婕;巢建国;谷巍;张莹;刘晓宁;
AD 南京中医药大学药学院;
T1 茅苍术种质资源的超低温保存
JF 南京中医药大学学报
YR 2010
IS 01
OP 56-58
K1 茅苍术;种子;茎尖;超低温保存
AB 目的:为茅苍术种质资源的保存提供一条新途径。方法:采用干冻法研究了茅苍术种子超低温保存,采用玻璃化法研究了试管苗茎尖的超低温保存。结果:采用干冻法冻存的茅苍术种子发芽率在70%以上,采用玻璃化法冻存的茅苍术试管苗茎尖,再生率在30%以上。结论:超低温保存可用于茅苍术种子及试管苗茎尖的保存,为茅苍术种质资源的长期保存提供了理论依据。
SN 1000-5005
CN 32-1247/R
LA 中文;
DS CNKI

基本上就是看了一点点基础知识再瞎搞,有点感觉我这个并不是正确的解决方法……大家有什么好方法也恳请告诉我啊

另外,我发现第一个list元素打印出来(见截图2,蓝色光标),总是有个空格,是为什么。Ubuntu下,还不太会处理图片,全图信息也丰富:)

文本

打印效果

呃,代码……如下


 python


 # _*_ coding: utf-8 _*_
# __author__ = 'Xun'
"""
这个脚本的主要功能现在是去除文件中重复的检索结果
每一条检索结果都是多行,包含不同的数据
检索结果的格式并不统一,有些带K1字段,有些没有,部分K1字段存在换行

处理的思路是先从源文本中读取每一条独立的检索结果(不止一行)
记录唯一的单条检索结果,保存为新的文本文件

"""
# 只读方式打开待处理文件
source_file = open('1.txt', 'rU')

# 输出文件
output_file = open('t2.txt', 'wb')
output_reform_file = open('t2_1.txt', 'wb')

# 将文件放入 string
op_text = source_file.read()
# 拆分文本,放入list go_text
go_text = op_text.split('DS CNKI\n\n')

# 插入计数器
count = 0
recount = 0

for i in go_text:
    output_file.write(i + 'DS CNKI\n\n')
    count += 1
# print count
# print len(go_text)
'''
print go_text[0],
print go_text[1],
print go_text[-3]
'''
reset_list = []

for k in go_text:
    if k not in reset_list:
        k.strip()
        reset_list.append(k)


# print len(reset_list)

for g in reset_list:
    output_reform_file.write(g + 'DS CNKI\n\n')
    recount += 1
# print recount

print reset_list[0]

source_file.close()
output_file.close()
output_reform_file.close()

待处理的文本格式(部分,我的代码解决不了这里的重复:( 。-——-。)

RT Journal Article
SR 1
A1 孔令婕;巢建国;谷巍;张莹;刘晓宁;
AD 南京中医药大学药学院;
T1 茅苍术种质资源的超低温保存
JF 南京中医药大学学报
YR 2010
IS 01
OP 56-58
K1 茅苍术;种子;茎尖;超低温保存

AB 目的:为茅苍术种质资源的保存提供一条新途径。方法:采用干冻法研究了茅苍术种子超低温保存,采用玻璃化法研究了试管苗茎尖的超低温保存。结果:采用干冻法冻存的茅苍术种子发芽率在70%以上,采用玻璃化法冻存的茅苍术试管苗茎尖,再生率在30%以上。结论:超低温保存可用于茅苍术种子及试管苗茎尖的保存,为茅苍术种质资源的长期保存提供了理论依据。
SN 1000-5005
CN 32-1247/R
LA 中文;
DS CNKI

RT Journal Article
SR 1
A1 南洋;贾凌云;李倩;孙启时;
AD 沈阳药科大学中药资源教研室;
T1 RP-HPLC法同时测定苍术中苍术素和白术内酯Ⅱ的含量
JF 药物分析杂志
YR 2010
IS 01
OP 17-20
K1 高效液相色谱;苍术素;白术内酯Ⅱ;苍术
HPLC;atractylodin;atractylenolide Ⅱ;Rhizoma Atractylodis

AB 目的:建立HPLC法同时测定苍术中苍术素、白术内酯Ⅱ两组分含量。方法:采用Phenomenex C18(250 mm×4.6 mm,5μm)色谱柱,以乙腈-水为流动相,梯度洗脱(0~9 min,乙腈-水比例60∶40;9~10 min,乙腈-水比例由60∶40→72∶28;10~20 min,乙腈-水比例72∶28),流速1.0 mL.min-1,检测波长276 nm,柱温24℃。结果:苍术素、白术内酯Ⅱ两组分的检测范围分别为0.00625~0.1875 mg.mL-1(r=0.9997)和0.0044~0.176 mg.mL-1(r=0.9994),平均回收率(n=9)分别为98.3%和97.8%。结论:本法操作简单,结果准确,重现性好,为全面评价不同产地苍术的质量提供了可靠的分析方法。
SN 0254-1793
CN 11-2224/R
LA 中文;
DS CNKI

RT Journal Article
SR 1
A1 丁乡;
AD 黑龙江省哈尔滨市阿城区和平街龙涤集团;
T1 北苍术减产价升——东北地区苍术产新调查
JF 特种经济动植物
YR 2010
IS 02
OP 18-19
K1 北苍术;传统中药材;大宗品种;供应市场;茅苍术;多年生草本;资源普查统计;野生药材;九圣散;扎赉特;

AB <正>苍术为菊科多年生草本植物茅苍术或北苍术的根茎,是我国传统中药材,属常用大宗品种,供应市场的货源主要依靠野生北苍术。内蒙古、辽宁、吉林、黑龙江四省区为北苍术(以下简称苍术)主要产区之一,年产量占全国苍术总产量的90%以上,其中内蒙古占
SN 1001-4713
CN 22-1155/S
LA 中文;
DS CNKI

RT Journal Article
SR 1
A1 孔令婕;巢建国;谷巍;张莹;刘晓宁;
AD 南京中医药大学药学院;
T1 茅苍术种质资源的超低温保存
JF 南京中医药大学学报
YR 2010
IS 01
OP 56-58
K1 茅苍术;种子;茎尖;超低温保存

AB 目的:为茅苍术种质资源的保存提供一条新途径。方法:采用干冻法研究了茅苍术种子超低温保存,采用玻璃化法研究了试管苗茎尖的超低温保存。结果:采用干冻法冻存的茅苍术种子发芽率在70%以上,采用玻璃化法冻存的茅苍术试管苗茎尖,再生率在30%以上。结论:超低温保存可用于茅苍术种子及试管苗茎尖的保存,为茅苍术种质资源的长期保存提供了理论依据。
SN 1000-5005
CN 32-1247/R
LA 中文;
DS CNKI

RT Journal Article
SR 1
A1 南洋;贾凌云;李倩;孙启时;
AD 沈阳药科大学中药资源教研室;
T1 RP-HPLC法同时测定苍术中苍术素和白术内酯Ⅱ的含量
JF 药物分析杂志
YR 2010
IS 01
OP 17-20
K1 高效液相色谱;苍术素;白术内酯Ⅱ;苍术
HPLC;atractylodin;atractylenolide Ⅱ;Rhizoma Atractylodis

AB 目的:建立HPLC法同时测定苍术中苍术素、白术内酯Ⅱ两组分含量。方法:采用Phenomenex C18(250 mm×4.6 mm,5μm)色谱柱,以乙腈-水为流动相,梯度洗脱(0~9 min,乙腈-水比例60∶40;9~10 min,乙腈-水比例由60∶40→72∶28;10~20 min,乙腈-水比例72∶28),流速1.0 mL.min-1,检测波长276 nm,柱温24℃。结果:苍术素、白术内酯Ⅱ两组分的检测范围分别为0.00625~0.1875 mg.mL-1(r=0.9997)和0.0044~0.176 mg.mL-1(r=0.9994),平均回收率(n=9)分别为98.3%和97.8%。结论:本法操作简单,结果准确,重现性好,为全面评价不同产地苍术的质量提供了可靠的分析方法。
SN 0254-1793
CN 11-2224/R
LA 中文;
DS CNKI

python list 去重

艾尔曼陀斯 9 years, 4 months ago

你的问题描述太多了,没细看,但如果只是想list去重,下面这种方式是可以的:


 python


 unique_list = list(set(your_list))

PS: 如果只有去重需求,推荐放弃python,直接使用shell下的命令即可:


 bash


 # sort -u your_file

二小姐的⑨ answered 9 years, 4 months ago

Your Answer