阿姨学资料整理小组招募 & 免费获取会员资格的方法

本活动长期有效

活动目的

  1. 由于阿姨目前使用的史料有很多都是不能直接复制或搜索的pdf文件,所以需要用OCR(文字识别技术)和人工校对将这些文件文字化,以节省阿姨的时间。
  2. 提供一种免费获取文稿站会员资格的渠道。只要细心负责,就可以免费获得文稿站会员。(只要会用word文档,细心负责就可以,不需要购买或学习任何其他软件。)

若想参加本整理小组,请先接受质量考核

考核方法如下:

  1. 下载下面链接当中的文件。
    http://www.mediafire.com/file/g56gdoksx38cace/file
    (如果只想接受简体整理工作,则只编辑压缩包里面的简体文件即可;繁体亦然。若简繁都想做的话,则简体和繁体的两份文件都需要编辑。)
  2. 仔细阅读工作手册,按照工作手册当中的要求修改word文件。
  3. 将修改好的word文件发送至admin@luminasociety.org,并在邮件中说明:擅长简体还是繁体,想做何种难度(关于难度的说明请见下面),大概每周能完成多少字的工作量。
  4. 审核条件为:文档中错字小于或等于2处,且格式方面符合工作手册标准。
  5. 若审核结果为不过关,则退回重改,直至达到审核条件为止才可加入整理小组。
    若审核结果为过关,则正式获准加入整理小组,并收到一封布置任务的邮件。

难度示例

低难度示例:

中难度示例:

高难度示例:

加入整理小组后的会员兑换计算方式

以下所有计算方式,全都建立在保证质量的前提之下。
目前需要整理的文字资料共约10亿字,所以不愁没有工作分配。质量永远是第一位的。
质量标准:每万字的错误小于或等于5处,且格式方面符合工作手册标准。
审核员在接到改过的word文档后,会随机选取文档中的任意位置进行抽查。
若不符合质量标准,文件会被退回,需要进一步改进,直至符合标准为止。

按照以下方式计算:

简体 低难度 每30,000字 时间限定为1周并且质量达标 兑换1天文稿站年度会员权限。
简体 中难度 每20,000字 时间限定为1周并且质量达标 兑换1天文稿站年度会员权限。
简体 高难度 每10,000字 时间限定为1周并且质量达标 兑换1天文稿站年度会员权限。

繁体 低难度 每10,000字 时间限定为1周并且质量达标 兑换1天文稿站年度会员权限。
繁体 中难度 每8,000字 时间限定为1周并且质量达标 兑换1天文稿站年度会员权限。
繁体 高难度 每6,000字 时间限定为1周并且质量达标 兑换1天文稿站年度会员权限。

交稿时间每超过一周,则可兑换的天数降低5%。

例如,一本203,000字的书,简体,中难度,则时间限定为11周(203,000/20,000 上取整)。
第12周第2天交稿,质量未达标,退回。
第14周第3天再次交稿,质量达标。
则可兑换的会员天数为:203,000/20,000 *[ 1- (14-11) * 5% ] = 8.63天

注1:零星天数可在未来累加。
注2:可在之后购买文稿站会员时联系灯盏社邮箱,索要等值的优惠券。

工作手册

1、(一定要注意!!)所有对于word文档的修改必须在“修订”模式下进行,否则算作无效文档。(若不了解何为“修订”模式,请自行谷歌。)

2、机器识别已经将低置信度字符(也就是说机器拿不准的字符)标蓝,方便整理人员重点关注这些字符。但是这绝不意味着没有标蓝的地方就都是正确的。在重点改完标蓝的地方后,还需要通读并校对全文。(可以保留标蓝的背景颜色,也可不保留。)

3、要保证docx的页码与pdf的页码一致。也就是说,在pdf上某页显示了什么内容,在docx的对应页码就显示什么内容。(这是为了阿姨在引用的时候直接引用word文档的页码,不用再回头去翻pdf的对应页码。)若某页pdf内容较多,在word上显示为两页而导致页码混乱,在这种情况下,应该全选本页的所有内容并整体性调小字号,使内容凑到一页中。

4、关于页码数字,如果机器未识别或识别错误,则必须在当页进行补充或修改。直接在当页正文最后加页码数字即可,不需要加在页脚当中。pdf页码数字和word文档页码数字必须一一对应。

5、遇到甲骨文、俄文、印刷模糊字符或其他不可识别字形,一律用�替代。
�代替的字符数应与原字符数相等。
注意:很多不认识的字是可以查出来的,请尽量自行查找。
例如,想要查找“勖”,则直接谷歌“左冒右力”即可找出,也可以查字典。
想要查找“阝”,则直接谷歌“左耳旁”即可找出。
若最终审核时,审核员查找到了原字的正确字形,而整理者以�替代了原字,则此处算作错误。

6、涉及脚注和尾注的部分,一律保持word文档的现有格式,不必转化为脚注和尾注格式。但是,必须保证脚注和尾注的编号正确。
为方便整理,下面罗列出1~50的circled numbers。
(注:对于50以上的数字,一律以(54)这种形式替代。)
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩
⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ ⑱ ⑲ ⑳
㉑ ㉒ ㉓ ㉔ ㉕ ㉖ ㉗ ㉘ ㉙ ㉚
㉛ ㉜ ㉝ ㉞ ㉟ ㊱ ㊲ ㊳ ㊴ ㊵
㊶ ㊷ ㊸ ㊹ ㊺ ㊻ ㊼ ㊽ ㊾ ㊿

7、若机器识别在某些字词上采用了错误格式,例如斜体、加粗或字体变大,则需要改回原始格式。

8、pdf原文若有斜体、加粗、着重加点、下划线等特殊标注,必须在word文件中进行相同的编辑。(但如果明显是后来的阅读者用pdf编辑器画的下划线,则不需要在word文件中标注。)
不要使用上标或下标。

9、在中文段落中,半角逗号,和半角句号.都要替换成全角,。

10、若原始pdf中有错字,一律以该错字为准,不得在word文件中更改。