PTB/PDTB files belonging to different genres

I. Sets used in Genre distinctions for discourse in the Penn TreeBank (ACL-IJCNLP, Singapore 2009)

Features of these sets that motivate their treatment as separate genres are given in the above paper.

essays = wsj_0022, wsj_0039, wsj_0071, wsj_0087, wsj_0108, wsj_0186, wsj_0207, wsj_0239, wsj_0257, wsj_0275, wsj_0282, wsj_0290, wsj_0296, wsj_0339, wsj_0406, wsj_0446, wsj_0447, wsj_0450, wsj_0456, wsj_0550, wsj_0562, wsj_0571, wsj_0596, wsj_0676, wsj_0764, wsj_0765, wsj_0788, wsj_0790, wsj_0794, wsj_0819, wsj_0933, wsj_0937, wsj_0944, wsj_0946, wsj_0972, wsj_0978, wsj_1120, wsj_1131, wsj_1137, wsj_1158, wsj_1163, wsj_1164, wsj_1266, wsj_1272, wsj_1284, wsj_1286, wsj_1315, wsj_1323, wsj_1327, wsj_1388, wsj_1424, wsj_1436, wsj_1450, wsj_1453, wsj_1473, wsj_1504, wsj_1507, wsj_1529, wsj_1562, wsj_1566, wsj_1567, wsj_1568, wsj_1569, wsj_1570, wsj_1572, wsj_1622, wsj_1623, wsj_1631, wsj_1635, wsj_1636, wsj_1649, wsj_1657, wsj_1695, wsj_1737, wsj_1772, wsj_1809, wsj_1831, wsj_1849, wsj_1927, wsj_1936, wsj_1939, wsj_1947, wsj_1970, wsj_1984, wsj_1986, wsj_2017, wsj_2052, wsj_2059, wsj_2064, wsj_2106, wsj_2112, wsj_2144, wsj_2149, wsj_2153, wsj_2222, wsj_2227, wsj_2229, wsj_2343, wsj_2402, wsj_2407, wsj_2412, wsj_2431, wsj_2444
highlights = wsj_0125, wsj_0137, wsj_0178, wsj_0219, wsj_0231, wsj_0271, wsj_0350, wsj_0374, wsj_0457, wsj_0476, wsj_0493, wsj_0586, wsj_0599, wsj_0602, wsj_0612, wsj_0675, wsj_0704, wsj_0770, wsj_0986, wsj_1001, wsj_1015, wsj_1043, wsj_1118, wsj_1156, wsj_1161, wsj_1187, wsj_1217, wsj_1247, wsj_1312, wsj_1337, wsj_1339, wsj_1364, wsj_1434, wsj_1441, wsj_1505, wsj_1540, wsj_1676, wsj_1723, wsj_1728, wsj_1743, wsj_1755, wsj_1781, wsj_1867, wsj_1876, wsj_1930, wsj_1950, wsj_1957, wsj_1974, wsj_2093, wsj_2230, wsj_2256, wsj_2257, wsj_2380, wsj_2399, wsj_2432
letters = wsj_0091, wsj_0094, wsj_0095, wsj_0105, wsj_0248, wsj_0266, wsj_0268, wsj_0269, wsj_0360, wsj_0411, wsj_0433, wsj_0508, wsj_0687, wsj_0694, wsj_0710, wsj_0728, wsj_0732, wsj_0747, wsj_0772, wsj_0911, wsj_0957, wsj_0980, wsj_0985, wsj_1092, wsj_1107, wsj_1116, wsj_1253, wsj_1256, wsj_1259, wsj_1262, wsj_1402, wsj_1412, wsj_1416, wsj_1571, wsj_1585, wsj_1588, wsj_1602, wsj_1605, wsj_1632, wsj_1786, wsj_1814, wsj_1935, wsj_2011, wsj_2021, wsj_2029, wsj_2108, wsj_2206, wsj_2301, wsj_2352, wsj_2377
errata = wsj_0104, wsj_0200, wsj_0211, wsj_0410, wsj_0603, wsj_0605, wsj_0608, wsj_0611, wsj_0614, wsj_0974, wsj_1070, wsj_1401, wsj_1417, wsj_1430, wsj_1745, wsj_1747, wsj_1751, wsj_1961, wsj_1964, wsj_1965, wsj_2139, wsj_2311, wsj_2374
news = wsj_0001, wsj_0003, wsj_0004, wsj_0005, wsj_0007, wsj_0008, wsj_0009, wsj_0010, wsj_0011, wsj_0012, wsj_0013, wsj_0014, wsj_0015, wsj_0016, wsj_0018, wsj_0019, wsj_0020, wsj_0021, wsj_0023, wsj_0024, wsj_0025, wsj_0026, wsj_0027, wsj_0029, wsj_0031, wsj_0033, wsj_0034, wsj_0035, wsj_0036, wsj_0037, wsj_0038, wsj_0040, wsj_0041, wsj_0043, wsj_0044, wsj_0045, wsj_0046, wsj_0047, wsj_0048, wsj_0049, wsj_0050, wsj_0051, wsj_0052, wsj_0054, wsj_0057, wsj_0059, wsj_0060, wsj_0062, wsj_0063, wsj_0064, wsj_0065, wsj_0066, wsj_0067, wsj_0068, wsj_0069, wsj_0070, wsj_0072, wsj_0073, wsj_0074, wsj_0075, wsj_0076, wsj_0077, wsj_0079, wsj_0080, wsj_0081, wsj_0082, wsj_0083, wsj_0084, wsj_0085, wsj_0086, wsj_0088, wsj_0089, wsj_0090, wsj_0092, wsj_0093, wsj_0096, wsj_0097, wsj_0098, wsj_0100, wsj_0101, wsj_0102, wsj_0103, wsj_0106, wsj_0107, wsj_0109, wsj_0111, wsj_0112, wsj_0113, wsj_0114, wsj_0115, wsj_0116, wsj_0117, wsj_0118, wsj_0119, wsj_0120, wsj_0121, wsj_0122, wsj_0123, wsj_0124, wsj_0126, wsj_0127, wsj_0128, wsj_0129, wsj_0130, wsj_0131, wsj_0132, wsj_0133, wsj_0134, wsj_0135, wsj_0136, wsj_0140, wsj_0141, wsj_0142, wsj_0143, wsj_0144, wsj_0145, wsj_0146, wsj_0147, wsj_0148, wsj_0149, wsj_0150, wsj_0151, wsj_0152, wsj_0153, wsj_0154, wsj_0155, wsj_0156, wsj_0157, wsj_0158, wsj_0159, wsj_0160, wsj_0161, wsj_0162, wsj_0163, wsj_0164, wsj_0165, wsj_0166, wsj_0167, wsj_0168, wsj_0169, wsj_0170, wsj_0171, wsj_0172, wsj_0173, wsj_0174, wsj_0175, wsj_0176, wsj_0177, wsj_0179, wsj_0180, wsj_0181, wsj_0182, wsj_0183, wsj_0184, wsj_0185, wsj_0187, wsj_0188, wsj_0189, wsj_0192, wsj_0194, wsj_0198, wsj_0199, wsj_0201, wsj_0202, wsj_0204, wsj_0208, wsj_0209, wsj_0210, wsj_0213, wsj_0214, wsj_0215, wsj_0216, wsj_0218, wsj_0220, wsj_0221, wsj_0222, wsj_0223, wsj_0224, wsj_0225, wsj_0227, wsj_0228, wsj_0229, wsj_0230, wsj_0232, wsj_0233, wsj_0235, wsj_0236, wsj_0237, wsj_0238, wsj_0240, wsj_0241, wsj_0242, wsj_0243, wsj_0244, wsj_0245, wsj_0246, wsj_0247, wsj_0250, wsj_0251, wsj_0252, wsj_0253, wsj_0254, wsj_0255, wsj_0256, wsj_0258, wsj_0259, wsj_0260, wsj_0261, wsj_0262, wsj_0263, wsj_0264, wsj_0265, wsj_0267, wsj_0270, wsj_0272, wsj_0273, wsj_0274, wsj_0276, wsj_0277, wsj_0278, wsj_0279, wsj_0280, wsj_0281, wsj_0283, wsj_0284, wsj_0286, wsj_0287, wsj_0288, wsj_0289, wsj_0291, wsj_0292, wsj_0293, wsj_0294, wsj_0295, wsj_0297, wsj_0298, wsj_0299, wsj_0300, wsj_0301, wsj_0302, wsj_0303, wsj_0304, wsj_0305, wsj_0306, wsj_0307, wsj_0308, wsj_0309, wsj_0310, wsj_0311, wsj_0313, wsj_0314, wsj_0315, wsj_0316, wsj_0317, wsj_0318, wsj_0319, wsj_0321, wsj_0322, wsj_0323, wsj_0324, wsj_0325, wsj_0326, wsj_0327, wsj_0328, wsj_0329, wsj_0331, wsj_0332, wsj_0333, wsj_0334, wsj_0335, wsj_0336, wsj_0337, wsj_0338, wsj_0340, wsj_0341, wsj_0342, wsj_0343, wsj_0344, wsj_0345, wsj_0346, wsj_0347, wsj_0348, wsj_0349, wsj_0351, wsj_0352, wsj_0353, wsj_0354, wsj_0355, wsj_0356, wsj_0357, wsj_0358, wsj_0359, wsj_0361, wsj_0362, wsj_0363, wsj_0365, wsj_0367, wsj_0368, wsj_0369, wsj_0370, wsj_0371, wsj_0372, wsj_0373, wsj_0375, wsj_0376, wsj_0377, wsj_0378, wsj_0379, wsj_0380, wsj_0400, wsj_0401, wsj_0402, wsj_0404, wsj_0405, wsj_0407, wsj_0408, wsj_0409, wsj_0412, wsj_0413, wsj_0414, wsj_0415, wsj_0416, wsj_0417, wsj_0418, wsj_0419, wsj_0420, wsj_0421, wsj_0422, wsj_0423, wsj_0424, wsj_0426, wsj_0427, wsj_0428, wsj_0429, wsj_0430, wsj_0431, wsj_0434, wsj_0435, wsj_0436, wsj_0437, wsj_0439, wsj_0440, wsj_0441, wsj_0442, wsj_0443, wsj_0444, wsj_0445, wsj_0448, wsj_0449, wsj_0451, wsj_0452, wsj_0453, wsj_0458, wsj_0460, wsj_0461, wsj_0462, wsj_0464, wsj_0465, wsj_0466, wsj_0467, wsj_0469, wsj_0470, wsj_0471, wsj_0472, wsj_0473, wsj_0474, wsj_0475, wsj_0477, wsj_0478, wsj_0479, wsj_0480, wsj_0481, wsj_0482, wsj_0483, wsj_0484, wsj_0485, wsj_0486, wsj_0487, wsj_0488, wsj_0489, wsj_0490, wsj_0491, wsj_0492, wsj_0494, wsj_0495, wsj_0496, wsj_0497, wsj_0498, wsj_0499, wsj_0500, wsj_0501, wsj_0502, wsj_0503, wsj_0504, wsj_0505, wsj_0507, wsj_0509, wsj_0510, wsj_0512, wsj_0514, wsj_0515, wsj_0516, wsj_0518, wsj_0519, wsj_0520, wsj_0521, wsj_0522, wsj_0523, wsj_0524, wsj_0525, wsj_0526, wsj_0527, wsj_0528, wsj_0529, wsj_0530, wsj_0531, wsj_0532, wsj_0533, wsj_0534, wsj_0535, wsj_0536, wsj_0537, wsj_0539, wsj_0540, wsj_0541, wsj_0542, wsj_0544, wsj_0545, wsj_0546, wsj_0547, wsj_0548, wsj_0551, wsj_0552, wsj_0553, wsj_0554, wsj_0556, wsj_0557, wsj_0558, wsj_0559, wsj_0560, wsj_0561, wsj_0563, wsj_0564, wsj_0565, wsj_0566, wsj_0567, wsj_0568, wsj_0569, wsj_0570, wsj_0572, wsj_0573, wsj_0574, wsj_0575, wsj_0576, wsj_0577, wsj_0578, wsj_0579, wsj_0580, wsj_0581, wsj_0582, wsj_0583, wsj_0584, wsj_0585, wsj_0587, wsj_0588, wsj_0589, wsj_0590, wsj_0592, wsj_0593, wsj_0595, wsj_0597, wsj_0598, wsj_0600, wsj_0601, wsj_0604, wsj_0606, wsj_0607, wsj_0609, wsj_0610, wsj_0613, wsj_0615, wsj_0616, wsj_0617, wsj_0618, wsj_0619, wsj_0621, wsj_0622, wsj_0623, wsj_0624, wsj_0625, wsj_0626, wsj_0627, wsj_0628, wsj_0629, wsj_0630, wsj_0631, wsj_0632, wsj_0633, wsj_0634, wsj_0635, wsj_0636, wsj_0637, wsj_0638, wsj_0639, wsj_0640, wsj_0641, wsj_0642, wsj_0643, wsj_0644, wsj_0645, wsj_0646, wsj_0647, wsj_0648, wsj_0649, wsj_0651, wsj_0652, wsj_0653, wsj_0654, wsj_0655, wsj_0656, wsj_0657, wsj_0658, wsj_0659, wsj_0660, wsj_0661, wsj_0662, wsj_0663, wsj_0664, wsj_0665, wsj_0666, wsj_0667, wsj_0668, wsj_0669, wsj_0670, wsj_0671, wsj_0672, wsj_0673, wsj_0674, wsj_0677, wsj_0679, wsj_0680, wsj_0681, wsj_0682, wsj_0683, wsj_0684, wsj_0686, wsj_0688, wsj_0689, wsj_0690, wsj_0692, wsj_0693, wsj_0695, wsj_0697, wsj_0700, wsj_0701, wsj_0702, wsj_0705, wsj_0706, wsj_0708, wsj_0709, wsj_0712, wsj_0713, wsj_0714, wsj_0717, wsj_0718, wsj_0719, wsj_0722, wsj_0723, wsj_0725, wsj_0726, wsj_0727, wsj_0729, wsj_0730, wsj_0731, wsj_0733, wsj_0734, wsj_0735, wsj_0736, wsj_0737, wsj_0738, wsj_0739, wsj_0740, wsj_0741, wsj_0742, wsj_0743, wsj_0744, wsj_0745, wsj_0746, wsj_0748, wsj_0750, wsj_0751, wsj_0752, wsj_0753, wsj_0754, wsj_0755, wsj_0756, wsj_0758, wsj_0759, wsj_0760, wsj_0761, wsj_0762, wsj_0763, wsj_0766, wsj_0767, wsj_0768, wsj_0769, wsj_0771, wsj_0773, wsj_0774, wsj_0775, wsj_0776, wsj_0777, wsj_0778, wsj_0779, wsj_0780, wsj_0781, wsj_0782, wsj_0783, wsj_0784, wsj_0785, wsj_0786, wsj_0787, wsj_0789, wsj_0791, wsj_0792, wsj_0793, wsj_0795, wsj_0796, wsj_0797, wsj_0798, wsj_0799, wsj_0800, wsj_0801, wsj_0802, wsj_0803, wsj_0804, wsj_0805, wsj_0806, wsj_0807, wsj_0808, wsj_0809, wsj_0810, wsj_0811, wsj_0812, wsj_0813, wsj_0814, wsj_0815, wsj_0816, wsj_0817, wsj_0818, wsj_0820, wsj_0900, wsj_0902, wsj_0903, wsj_0904, wsj_0905, wsj_0906, wsj_0907, wsj_0908, wsj_0909, wsj_0910, wsj_0912, wsj_0913, wsj_0914, wsj_0915, wsj_0916, wsj_0917, wsj_0918, wsj_0919, wsj_0922, wsj_0923, wsj_0924, wsj_0925, wsj_0926, wsj_0927, wsj_0928, wsj_0929, wsj_0930, wsj_0931, wsj_0932, wsj_0934, wsj_0935, wsj_0936, wsj_0938, wsj_0939, wsj_0940, wsj_0941, wsj_0942, wsj_0943, wsj_0945, wsj_0948, wsj_0949, wsj_0950, wsj_0952, wsj_0953, wsj_0954, wsj_0955, wsj_0956, wsj_0958, wsj_0959, wsj_0960, wsj_0961, wsj_0962, wsj_0963, wsj_0964, wsj_0965, wsj_0966, wsj_0967, wsj_0968, wsj_0969, wsj_0970, wsj_0971, wsj_0973, wsj_0975, wsj_0976, wsj_0977, wsj_0979, wsj_0981, wsj_0982, wsj_0983, wsj_0984, wsj_0987, wsj_0988, wsj_0989, wsj_0990, wsj_0991, wsj_0992, wsj_0993, wsj_0994, wsj_0995, wsj_0996, wsj_0997, wsj_0999, wsj_1000, wsj_1002, wsj_1003, wsj_1004, wsj_1005, wsj_1006, wsj_1007, wsj_1008, wsj_1010, wsj_1011, wsj_1012, wsj_1013, wsj_1014, wsj_1016, wsj_1017, wsj_1018, wsj_1019, wsj_1020, wsj_1021, wsj_1022, wsj_1023, wsj_1024, wsj_1025, wsj_1026, wsj_1027, wsj_1028, wsj_1029, wsj_1030, wsj_1031, wsj_1032, wsj_1033, wsj_1034, wsj_1035, wsj_1036, wsj_1037, wsj_1038, wsj_1039, wsj_1040, wsj_1041, wsj_1042, wsj_1044, wsj_1045, wsj_1046, wsj_1047, wsj_1048, wsj_1049, wsj_1050, wsj_1051, wsj_1052, wsj_1053, wsj_1055, wsj_1057, wsj_1058, wsj_1059, wsj_1060, wsj_1061, wsj_1062, wsj_1064, wsj_1065, wsj_1066, wsj_1068, wsj_1069, wsj_1071, wsj_1072, wsj_1073, wsj_1074, wsj_1075, wsj_1076, wsj_1078, wsj_1079, wsj_1080, wsj_1081, wsj_1082, wsj_1083, wsj_1084, wsj_1086, wsj_1089, wsj_1091, wsj_1093, wsj_1094, wsj_1095, wsj_1096, wsj_1097, wsj_1099, wsj_1100, wsj_1101, wsj_1102, wsj_1103, wsj_1105, wsj_1106, wsj_1108, wsj_1109, wsj_1110, wsj_1111, wsj_1112, wsj_1113, wsj_1117, wsj_1119, wsj_1121, wsj_1122, wsj_1123, wsj_1124, wsj_1125, wsj_1126, wsj_1127, wsj_1128, wsj_1130, wsj_1132, wsj_1133, wsj_1134, wsj_1135, wsj_1136, wsj_1138, wsj_1139, wsj_1140, wsj_1141, wsj_1142, wsj_1143, wsj_1144, wsj_1145, wsj_1146, wsj_1147, wsj_1148, wsj_1149, wsj_1150, wsj_1151, wsj_1152, wsj_1153, wsj_1154, wsj_1155, wsj_1157, wsj_1159, wsj_1160, wsj_1162, wsj_1165, wsj_1166, wsj_1167, wsj_1168, wsj_1169, wsj_1170, wsj_1171, wsj_1172, wsj_1173, wsj_1174, wsj_1175, wsj_1176, wsj_1177, wsj_1178, wsj_1179, wsj_1180, wsj_1181, wsj_1182, wsj_1183, wsj_1184, wsj_1185, wsj_1186, wsj_1188, wsj_1189, wsj_1190, wsj_1191, wsj_1192, wsj_1193, wsj_1194, wsj_1195, wsj_1196, wsj_1198, wsj_1199, wsj_1200, wsj_1201, wsj_1203, wsj_1204, wsj_1205, wsj_1206, wsj_1207, wsj_1208, wsj_1209, wsj_1210, wsj_1211, wsj_1213, wsj_1214, wsj_1215, wsj_1216, wsj_1218, wsj_1219, wsj_1220, wsj_1221, wsj_1222, wsj_1223, wsj_1224, wsj_1225, wsj_1226, wsj_1227, wsj_1229, wsj_1230, wsj_1231, wsj_1232, wsj_1233, wsj_1234, wsj_1235, wsj_1236, wsj_1237, wsj_1238, wsj_1239, wsj_1241, wsj_1242, wsj_1243, wsj_1244, wsj_1246, wsj_1248, wsj_1249, wsj_1250, wsj_1251, wsj_1254, wsj_1255, wsj_1257, wsj_1258, wsj_1260, wsj_1261, wsj_1263, wsj_1264, wsj_1265, wsj_1267, wsj_1268, wsj_1269, wsj_1270, wsj_1271, wsj_1273, wsj_1274, wsj_1275, wsj_1276, wsj_1278, wsj_1279, wsj_1280, wsj_1281, wsj_1282, wsj_1283, wsj_1285, wsj_1287, wsj_1288, wsj_1289, wsj_1290, wsj_1291, wsj_1292, wsj_1293, wsj_1294, wsj_1295, wsj_1296, wsj_1297, wsj_1298, wsj_1299, wsj_1300, wsj_1301, wsj_1302, wsj_1303, wsj_1304, wsj_1305, wsj_1306, wsj_1307, wsj_1308, wsj_1309, wsj_1310, wsj_1311, wsj_1313, wsj_1314, wsj_1316, wsj_1317, wsj_1318, wsj_1319, wsj_1320, wsj_1321, wsj_1322, wsj_1324, wsj_1325, wsj_1328, wsj_1329, wsj_1330, wsj_1331, wsj_1332, wsj_1333, wsj_1334, wsj_1335, wsj_1336, wsj_1338, wsj_1340, wsj_1341, wsj_1343, wsj_1345, wsj_1346, wsj_1347, wsj_1348, wsj_1349, wsj_1350, wsj_1351, wsj_1352, wsj_1353, wsj_1354, wsj_1355, wsj_1356, wsj_1357, wsj_1358, wsj_1359, wsj_1360, wsj_1361, wsj_1362, wsj_1363, wsj_1365, wsj_1366, wsj_1367, wsj_1368, wsj_1369, wsj_1370, wsj_1371, wsj_1372, wsj_1373, wsj_1374, wsj_1375, wsj_1376, wsj_1377, wsj_1379, wsj_1380, wsj_1381, wsj_1383, wsj_1386, wsj_1387, wsj_1389, wsj_1390, wsj_1391, wsj_1392, wsj_1394, wsj_1395, wsj_1396, wsj_1397, wsj_1399, wsj_1403, wsj_1404, wsj_1405, wsj_1407, wsj_1408, wsj_1409, wsj_1410, wsj_1411, wsj_1413, wsj_1414, wsj_1415, wsj_1418, wsj_1419, wsj_1421, wsj_1422, wsj_1423, wsj_1426, wsj_1428, wsj_1429, wsj_1431, wsj_1432, wsj_1433, wsj_1435, wsj_1437, wsj_1438, wsj_1439, wsj_1440, wsj_1442, wsj_1443, wsj_1445, wsj_1446, wsj_1447, wsj_1448, wsj_1449, wsj_1451, wsj_1452, wsj_1454, wsj_1455, wsj_1456, wsj_1457, wsj_1458, wsj_1459, wsj_1460, wsj_1461, wsj_1462, wsj_1463, wsj_1464, wsj_1465, wsj_1466, wsj_1467, wsj_1468, wsj_1469, wsj_1470, wsj_1471, wsj_1472, wsj_1474, wsj_1475, wsj_1476, wsj_1477, wsj_1478, wsj_1479, wsj_1480, wsj_1481, wsj_1483, wsj_1484, wsj_1485, wsj_1486, wsj_1487, wsj_1488, wsj_1489, wsj_1490, wsj_1491, wsj_1492, wsj_1493, wsj_1494, wsj_1495, wsj_1496, wsj_1497, wsj_1498, wsj_1499, wsj_1500, wsj_1501, wsj_1502, wsj_1503, wsj_1506, wsj_1508, wsj_1509, wsj_1510, wsj_1511, wsj_1512, wsj_1513, wsj_1514, wsj_1515, wsj_1516, wsj_1517, wsj_1518, wsj_1519, wsj_1520, wsj_1521, wsj_1522, wsj_1523, wsj_1524, wsj_1525, wsj_1526, wsj_1527, wsj_1528, wsj_1530, wsj_1531, wsj_1532, wsj_1533, wsj_1534, wsj_1535, wsj_1536, wsj_1537, wsj_1538, wsj_1539, wsj_1541, wsj_1542, wsj_1543, wsj_1544, wsj_1545, wsj_1546, wsj_1547, wsj_1548, wsj_1549, wsj_1550, wsj_1551, wsj_1552, wsj_1553, wsj_1554, wsj_1555, wsj_1556, wsj_1560, wsj_1561, wsj_1563, wsj_1564, wsj_1565, wsj_1573, wsj_1574, wsj_1575, wsj_1577, wsj_1578, wsj_1580, wsj_1581, wsj_1582, wsj_1583, wsj_1584, wsj_1586, wsj_1587, wsj_1589, wsj_1590, wsj_1591, wsj_1592, wsj_1593, wsj_1594, wsj_1595, wsj_1596, wsj_1597, wsj_1598, wsj_1599, wsj_1600, wsj_1601, wsj_1603, wsj_1604, wsj_1606, wsj_1607, wsj_1609, wsj_1610, wsj_1611, wsj_1612, wsj_1613, wsj_1614, wsj_1615, wsj_1616, wsj_1617, wsj_1618, wsj_1619, wsj_1620, wsj_1621, wsj_1624, wsj_1626, wsj_1627, wsj_1628, wsj_1629, wsj_1630, wsj_1633, wsj_1634, wsj_1637, wsj_1639, wsj_1640, wsj_1641, wsj_1642, wsj_1643, wsj_1644, wsj_1645, wsj_1646, wsj_1647, wsj_1648, wsj_1650, wsj_1651, wsj_1652, wsj_1654, wsj_1655, wsj_1656, wsj_1658, wsj_1659, wsj_1660, wsj_1661, wsj_1662, wsj_1663, wsj_1664, wsj_1665, wsj_1666, wsj_1667, wsj_1668, wsj_1669, wsj_1670, wsj_1671, wsj_1672, wsj_1673, wsj_1674, wsj_1675, wsj_1677, wsj_1678, wsj_1679, wsj_1680, wsj_1681, wsj_1682, wsj_1683, wsj_1684, wsj_1685, wsj_1686, wsj_1687, wsj_1688, wsj_1689, wsj_1690, wsj_1691, wsj_1692, wsj_1693, wsj_1694, wsj_1696, wsj_1697, wsj_1698, wsj_1699, wsj_1700, wsj_1701, wsj_1702, wsj_1703, wsj_1704, wsj_1705, wsj_1706, wsj_1707, wsj_1708, wsj_1709, wsj_1710, wsj_1711, wsj_1712, wsj_1713, wsj_1714, wsj_1715, wsj_1717, wsj_1718, wsj_1719, wsj_1720, wsj_1721, wsj_1722, wsj_1724, wsj_1725, wsj_1726, wsj_1727, wsj_1729, wsj_1730, wsj_1731, wsj_1732, wsj_1733, wsj_1734, wsj_1735, wsj_1736, wsj_1738, wsj_1739, wsj_1740, wsj_1741, wsj_1742, wsj_1744, wsj_1746, wsj_1748, wsj_1749, wsj_1750, wsj_1752, wsj_1753, wsj_1754, wsj_1756, wsj_1757, wsj_1759, wsj_1760, wsj_1761, wsj_1762, wsj_1763, wsj_1764, wsj_1765, wsj_1766, wsj_1767, wsj_1768, wsj_1769, wsj_1770, wsj_1773, wsj_1774, wsj_1775, wsj_1776, wsj_1777, wsj_1778, wsj_1779, wsj_1780, wsj_1782, wsj_1783, wsj_1784, wsj_1787, wsj_1788, wsj_1789, wsj_1790, wsj_1791, wsj_1792, wsj_1793, wsj_1794, wsj_1795, wsj_1796, wsj_1797, wsj_1799, wsj_1800, wsj_1802, wsj_1803, wsj_1804, wsj_1806, wsj_1808, wsj_1810, wsj_1811, wsj_1812, wsj_1813, wsj_1815, wsj_1816, wsj_1817, wsj_1818, wsj_1819, wsj_1820, wsj_1821, wsj_1822, wsj_1823, wsj_1824, wsj_1825, wsj_1826, wsj_1827, wsj_1828, wsj_1829, wsj_1830, wsj_1832, wsj_1833, wsj_1835, wsj_1837, wsj_1839, wsj_1840, wsj_1841, wsj_1842, wsj_1843, wsj_1844, wsj_1846, wsj_1847, wsj_1848, wsj_1850, wsj_1851, wsj_1852, wsj_1853, wsj_1854, wsj_1855, wsj_1856, wsj_1857, wsj_1858, wsj_1859, wsj_1860, wsj_1861, wsj_1862, wsj_1863, wsj_1864, wsj_1865, wsj_1866, wsj_1868, wsj_1869, wsj_1870, wsj_1872, wsj_1873, wsj_1874, wsj_1875, wsj_1877, wsj_1878, wsj_1879, wsj_1880, wsj_1881, wsj_1882, wsj_1883, wsj_1884, wsj_1885, wsj_1886, wsj_1887, wsj_1888, wsj_1889, wsj_1890, wsj_1891, wsj_1892, wsj_1893, wsj_1894, wsj_1895, wsj_1896, wsj_1897, wsj_1898, wsj_1899, wsj_1900, wsj_1901, wsj_1902, wsj_1903, wsj_1904, wsj_1905, wsj_1906, wsj_1907, wsj_1908, wsj_1909, wsj_1910, wsj_1911, wsj_1912, wsj_1913, wsj_1914, wsj_1915, wsj_1916, wsj_1917, wsj_1918, wsj_1919, wsj_1920, wsj_1921, wsj_1922, wsj_1923, wsj_1924, wsj_1925, wsj_1926, wsj_1928, wsj_1929, wsj_1931, wsj_1932, wsj_1934, wsj_1937, wsj_1938, wsj_1940, wsj_1943, wsj_1944, wsj_1945, wsj_1946, wsj_1948, wsj_1949, wsj_1951, wsj_1952, wsj_1953, wsj_1959, wsj_1960, wsj_1962, wsj_1963, wsj_1966, wsj_1967, wsj_1968, wsj_1969, wsj_1971, wsj_1972, wsj_1973, wsj_1975, wsj_1976, wsj_1977, wsj_1978, wsj_1980, wsj_1981, wsj_1982, wsj_1983, wsj_1985, wsj_1987, wsj_1988, wsj_1989, wsj_1990, wsj_1991, wsj_1992, wsj_1994, wsj_1996, wsj_1997, wsj_1998, wsj_1999, wsj_2000, wsj_2001, wsj_2002, wsj_2003, wsj_2004, wsj_2005, wsj_2006, wsj_2007, wsj_2008, wsj_2009, wsj_2010, wsj_2012, wsj_2013, wsj_2014, wsj_2015, wsj_2016, wsj_2018, wsj_2019, wsj_2020, wsj_2022, wsj_2023, wsj_2024, wsj_2025, wsj_2026, wsj_2027, wsj_2028, wsj_2030, wsj_2031, wsj_2032, wsj_2033, wsj_2034, wsj_2036, wsj_2037, wsj_2039, wsj_2040, wsj_2041, wsj_2042, wsj_2043, wsj_2044, wsj_2045, wsj_2046, wsj_2047, wsj_2048, wsj_2049, wsj_2051, wsj_2053, wsj_2054, wsj_2055, wsj_2056, wsj_2057, wsj_2058, wsj_2060, wsj_2061, wsj_2062, wsj_2063, wsj_2065, wsj_2066, wsj_2067, wsj_2068, wsj_2069, wsj_2070, wsj_2071, wsj_2072, wsj_2073, wsj_2074, wsj_2075, wsj_2076, wsj_2077, wsj_2078, wsj_2079, wsj_2080, wsj_2081, wsj_2082, wsj_2083, wsj_2084, wsj_2085, wsj_2086, wsj_2087, wsj_2088, wsj_2089, wsj_2091, wsj_2092, wsj_2094, wsj_2095, wsj_2096, wsj_2098, wsj_2099, wsj_2100, wsj_2101, wsj_2102, wsj_2103, wsj_2104, wsj_2105, wsj_2107, wsj_2109, wsj_2110, wsj_2111, wsj_2113, wsj_2115, wsj_2116, wsj_2118, wsj_2119, wsj_2120, wsj_2121, wsj_2123, wsj_2124, wsj_2125, wsj_2126, wsj_2127, wsj_2128, wsj_2129, wsj_2130, wsj_2131, wsj_2132, wsj_2133, wsj_2135, wsj_2136, wsj_2138, wsj_2140, wsj_2141, wsj_2142, wsj_2143, wsj_2145, wsj_2146, wsj_2148, wsj_2150, wsj_2151, wsj_2152, wsj_2154, wsj_2155, wsj_2156, wsj_2157, wsj_2158, wsj_2159, wsj_2160, wsj_2161, wsj_2162, wsj_2163, wsj_2164, wsj_2165, wsj_2166, wsj_2167, wsj_2168, wsj_2169, wsj_2172, wsj_2200, wsj_2201, wsj_2202, wsj_2203, wsj_2204, wsj_2205, wsj_2207, wsj_2208, wsj_2209, wsj_2210, wsj_2211, wsj_2212, wsj_2213, wsj_2214, wsj_2216, wsj_2217, wsj_2218, wsj_2219, wsj_2221, wsj_2223, wsj_2224, wsj_2225, wsj_2226, wsj_2228, wsj_2231, wsj_2232, wsj_2233, wsj_2234, wsj_2235, wsj_2237, wsj_2238, wsj_2239, wsj_2240, wsj_2241, wsj_2242, wsj_2243, wsj_2244, wsj_2245, wsj_2246, wsj_2247, wsj_2248, wsj_2249, wsj_2250, wsj_2251, wsj_2252, wsj_2253, wsj_2254, wsj_2255, wsj_2258, wsj_2259, wsj_2260, wsj_2261, wsj_2262, wsj_2264, wsj_2265, wsj_2266, wsj_2267, wsj_2268, wsj_2269, wsj_2270, wsj_2271, wsj_2272, wsj_2273, wsj_2274, wsj_2275, wsj_2276, wsj_2277, wsj_2278, wsj_2280, wsj_2281, wsj_2282, wsj_2300, wsj_2302, wsj_2303, wsj_2305, wsj_2306, wsj_2308, wsj_2309, wsj_2310, wsj_2313, wsj_2314, wsj_2315, wsj_2316, wsj_2317, wsj_2319, wsj_2320, wsj_2321, wsj_2322, wsj_2323, wsj_2324, wsj_2325, wsj_2326, wsj_2327, wsj_2328, wsj_2329, wsj_2330, wsj_2331, wsj_2332, wsj_2333, wsj_2334, wsj_2335, wsj_2336, wsj_2337, wsj_2338, wsj_2339, wsj_2340, wsj_2341, wsj_2342, wsj_2344, wsj_2345, wsj_2346, wsj_2347, wsj_2348, wsj_2350, wsj_2351, wsj_2353, wsj_2354, wsj_2355, wsj_2356, wsj_2357, wsj_2358, wsj_2359, wsj_2360, wsj_2361, wsj_2362, wsj_2363, wsj_2364, wsj_2365, wsj_2366, wsj_2367, wsj_2368, wsj_2369, wsj_2370, wsj_2371, wsj_2372, wsj_2373, wsj_2375, wsj_2376, wsj_2378, wsj_2379, wsj_2381, wsj_2382, wsj_2383, wsj_2384, wsj_2386, wsj_2387, wsj_2391, wsj_2392, wsj_2393, wsj_2394, wsj_2395, wsj_2396, wsj_2397, wsj_2398, wsj_2400, wsj_2403, wsj_2404, wsj_2405, wsj_2406, wsj_2408, wsj_2409, wsj_2410, wsj_2411, wsj_2413, wsj_2414, wsj_2415, wsj_2416, wsj_2417, wsj_2418, wsj_2419, wsj_2420, wsj_2421, wsj_2422, wsj_2423, wsj_2424, wsj_2425, wsj_2426, wsj_2427, wsj_2428, wsj_2429, wsj_2430, wsj_2433, wsj_2434, wsj_2435, wsj_2436, wsj_2437, wsj_2438, wsj_2439, wsj_2440, wsj_2441, wsj_2442, wsj_2443, wsj_2445, wsj_2446, wsj_2447, wsj_2448, wsj_2449, wsj_2450, wsj_2451, wsj_2452, wsj_2453, wsj_2454

II. Corresponding genre sets based on the meta-data found in ACL/DCI corpus

Modifications/Notes added by Barbara Plank (in red+boldface)

It is well-known that there is no meta-data in the individual files in the Penn TreeBank Wall Street Journal Corpus. However, meta-data can be found by looking at corresponding articles in the ACL/DCI corpus available from the LDC, in particular in the ACL/DCI Wall Street Journal (wsj) corpus from 1989. Each article in the corpus has a unique document number (DOCNO). The alignment between these two corpora is given in a downloadable TAR file (pennTB_tipster_wsj_map.tar) that appears in the section headed DATA in the PennTreeBank entry in the LDC catalogue. Aligned are the PTB filenames and corresponding WSJ DOCNO strings.

But even here, one will not find an explicit classification of the articles in the ACL/DCI Wall Street Journal corpus into genres. Rather, there is meta-data in the headline (HL) and IN fields that are included for many (but not all) articles. This meta-data can be used in classifying articles into different genres. I chose to consider the same set of genres as I used above, but other sub-divisions of the corpus into genres are possible as well.

In the listing below (unlike in the ACL paper), I have split the PTB/PDTB files that incorrectly contain two adjacent concatenated articles from the ACL/DCI 1989 WSJ corpus, into two files, a and b. It should be clear from the original PTB/PDTB file and the ACL/DCI alignment, where that split should be. (In the above-mentioned TAR file, these errors are listed in ptb_dual_tip.tbl)

Using the alignment of the PTB corpus with the ACL/DCI 1989 WSJ files and culling off the meta-data from the HL and IN fields, one can produce a more accurate classification of PTB/PDTB files into the same set of genres as above. (However, the above set isn't that far off.)

Letters, comprising all and only files with HL = Letters to the Editor:
wsj_0091, wsj_0094, wsj_0095, wsj_0105, wsj_0248, wsj_0266, wsj_0268, wsj_0269, wsj_0360, wsj_0411, wsj_0433, wsj_0434, wsj_0508, wsj_0576a, wsj_0687, wsj_0694, wsj_0710, wsj_0728, wsj_0732, wsj_0747, wsj_0772, wsj_0911, wsj_0957, wsj_0980, wsj_0985, wsj_0992, wsj_1092, wsj_1095, wsj_1107, wsj_1116, wsj_1253, wsj_1256, wsj_1260, wsj_1262, wsj_1402, wsj_1412, wsj_1416, wsj_1497, wsj_1529, wsj_1571, wsj_1585, wsj_1588, wsj_1602, wsj_1605, wsj_1632, wsj_1786, wsj_1814, wsj_1935, wsj_2011, wsj_2021, wsj_2029, wsj_2108, wsj_2204, wsj_2206, wsj_2301, wsj_2352, wsj_2368, wsj_2373, wsj_2377
Highlights, compising those files with
- HL = World Markets
- HL = New Securities Issues
- HL = Recent SEC Filings
- HL = Money Rates
wsj_0125, wsj_0137, wsj_0219, wsj_0231, wsj_0271, wsj_0374, wsj_0457, wsj_0476, wsj_0586, wsj_0599, wsj_0602, wsj_0612, wsj_0704, wsj_0770, wsj_0986, wsj_1001, wsj_1015, wsj_1118, wsj_1156b, wsj_1161, wsj_1187, wsj_1247, wsj_1312, wsj_1337, wsj_1339, wsj_1434, wsj_1441, wsj_1505, wsj_1676, wsj_1723, wsj_1743a, wsj_1781, wsj_1867, wsj_1876, wsj_1950, wsj_1957, wsj_1974, wsj_2230, wsj_2257, wsj_2380, wsj_2399
Essays, comprising those files with
- HL = LEISURE & ARTS
- HL = Centennial Journal: 100 Years in Business
- IN = BIOGRAPHY (BIO)
- HL = "The Outlook"
- HL = "Politics & Policy"
- HL = "International -- Washington Insight"
- HL = "Business and Urban Crime: Battles Won and Lost"
- HL includes "(Editorial)" or "(Editorial) -- Asides" or "(A Special Report)" or "Manager's Journal" or "Viewpoint"
wsj_0022, wsj_0037a, wsj_0039, wsj_0041, wsj_0045, wsj_0071, wsj_0103, wsj_0108, wsj_0126, wsj_0130, wsj_0134, wsj_0186, wsj_0207, wsj_0208, wsj_0239, wsj_0257, wsj_0267, wsj_0288, wsj_0303, wsj_0309, wsj_0314, wsj_0339, wsj_0406, wsj_0423, wsj_0426, wsj_0450, wsj_0456, wsj_0458, wsj_0461, wsj_0474, wsj_0526, wsj_0550, wsj_0553, wsj_0561, wsj_0562, wsj_0580, wsj_0590, wsj_0598, wsj_0609, wsj_0623, wsj_0655, wsj_0676, wsj_0765, wsj_0783, wsj_0787, wsj_0790, wsj_0793, wsj_0800, wsj_0808, wsj_0817, wsj_0819, wsj_0820, wsj_0933, wsj_0937, wsj_0955, wsj_0960, wsj_0964, wsj_0966, wsj_0972, wsj_0976, wsj_0984, wsj_0996, wsj_1017, wsj_1034, wsj_1053, wsj_1094, wsj_1143, wsj_1149, wsj_1152, wsj_1154a, wsj_1158, wsj_1163, wsj_1164, wsj_1189, wsj_1266, wsj_1272, wsj_1303, wsj_1307, wsj_1308, wsj_1315, wsj_1323, wsj_1327, wsj_1349, wsj_1366, wsj_1388, wsj_1389, wsj_1396, wsj_1397, wsj_1405, wsj_1411, wsj_1413, wsj_1436, wsj_1450, wsj_1457, wsj_1473, wsj_1495, wsj_1499, wsj_1504, wsj_1506, wsj_1507, wsj_1520, wsj_1562, wsj_1563, wsj_1564, wsj_1565, wsj_1566, wsj_1567, wsj_1568, wsj_1569, wsj_1570, wsj_1572, wsj_1574, wsj_1618, wsj_1623, wsj_1628, wsj_1631, wsj_1635, wsj_1636, wsj_1643, wsj_1647, wsj_1649, wsj_1655, wsj_1690, wsj_1698, wsj_1700, wsj_1737, wsj_1755, wsj_1772, wsj_1797, wsj_1809a *) note below, wsj_1818, wsj_1831, wsj_1846, wsj_1847, wsj_1849, wsj_1869, wsj_1927, wsj_1936, wsj_1947, wsj_1952, wsj_1963, wsj_1984, wsj_1986, wsj_2012, wsj_2013, wsj_2047, wsj_2053, wsj_2054, wsj_2106, wsj_2144, wsj_2149, wsj_2202, wsj_2231, wsj_2233, wsj_2237, wsj_2264, wsj_2282, wsj_2316, wsj_2343, wsj_2369, wsj_2372, wsj_2384, wsj_2397, wsj_2402, wsj_2429, wsj_2444
Errata, comprising those files with HL = Corrections & Amplifications:
wsj_0104, wsj_0200, wsj_0211, wsj_0410, wsj_0603, wsj_0605, wsj_0608, wsj_0611, wsj_0614, wsj_0974, wsj_1070, wsj_1401, wsj_1417, wsj_1430, wsj_1745, wsj_1747, wsj_1751, wsj_1871, wsj_1961, wsj_1964, wsj_1965, wsj_2014, wsj_2139, wsj_2311, wsj_2374
News, comprising the rest:
wsj_0001, wsj_0003, wsj_0004, wsj_0005, wsj_0007, wsj_0008, wsj_0009, wsj_0010, wsj_0011, wsj_0012, wsj_0013, wsj_0014, wsj_0015, wsj_0016, wsj_0018, wsj_0019, wsj_0020, wsj_0021, wsj_0023, wsj_0024, wsj_0025, wsj_0026, wsj_0027, wsj_0029, wsj_0031, wsj_0033, wsj_0034, wsj_0035, wsj_0036, wsj_0037b, wsj_0038, wsj_0040, wsj_0043, wsj_0044, wsj_0046, wsj_0047, wsj_0048, wsj_0049, wsj_0050, wsj_0051, wsj_0052, wsj_0054, wsj_0057, wsj_0059, wsj_0060, wsj_0062, wsj_0063, wsj_0064, wsj_0065, wsj_0066, wsj_0067, wsj_0068, wsj_0069, wsj_0070, wsj_0072, wsj_0073, wsj_0074, wsj_0075, wsj_0076, wsj_0077, wsj_0079, wsj_0080, wsj_0081, wsj_0082, wsj_0083, wsj_0084, wsj_0085, wsj_0086, wsj_0087, wsj_0088, wsj_0089, wsj_0090, wsj_0092, wsj_0093, wsj_0096, wsj_0097, wsj_0098, wsj_0100, wsj_0101, wsj_0102, wsj_0106, wsj_0107, wsj_0109, wsj_0111, wsj_0112, wsj_0113, wsj_0114, wsj_0115, wsj_0116, wsj_0117, ~~wsj_0118~~ (redundant; was replaced by a/b files), wsj_0118a, wsj_0118b, wsj_0119, wsj_0120, wsj_0121, wsj_0122, wsj_0123, wsj_0124, wsj_0127, wsj_0128, wsj_0129, wsj_0131, wsj_0132, wsj_0133, wsj_0135, wsj_0136, wsj_0140, wsj_0141, wsj_0142, wsj_0143, wsj_0144, wsj_0145, wsj_0146, wsj_0147, wsj_0148, wsj_0149, wsj_0150, wsj_0151, wsj_0152, wsj_0153, wsj_0154, wsj_0155, wsj_0156, wsj_0157, wsj_0158, wsj_0159, wsj_0160, wsj_0161, wsj_0162, wsj_0163, wsj_0164, wsj_0165, wsj_0166a, wsj_0166b, wsj_0167, wsj_0168, wsj_0169, wsj_0170, wsj_0171, wsj_0172, wsj_0173, wsj_0174, wsj_0175, wsj_0176, wsj_0177, wsj_0178, wsj_0179, wsj_0180, wsj_0181, wsj_0182, wsj_0183, wsj_0184, wsj_0185, wsj_0187, wsj_0188, wsj_0189, wsj_0192, wsj_0194, wsj_0198, wsj_0199, wsj_0201, wsj_0202, wsj_0204, wsj_0209, wsj_0210, wsj_0213, wsj_0214, wsj_0215, wsj_0216, wsj_0218, wsj_0220, wsj_0221, wsj_0222, wsj_0223, wsj_0224, wsj_0225, wsj_0227, wsj_0228, wsj_0229, wsj_0230, wsj_0232, wsj_0233, wsj_0235, wsj_0236, wsj_0237, wsj_0238, wsj_0240, wsj_0241, wsj_0242, wsj_0243, wsj_0244, wsj_0245, wsj_0246, wsj_0247, wsj_0250, wsj_0251, wsj_0252, wsj_0253, wsj_0254, wsj_0255, wsj_0256, wsj_0258, wsj_0259, wsj_0260, wsj_0261, wsj_0262, wsj_0263, wsj_0264, wsj_0265, wsj_0270, wsj_0272, wsj_0273, wsj_0274, wsj_0275, wsj_0276, wsj_0277, wsj_0278, wsj_0279, wsj_0280, wsj_0281, wsj_0282, wsj_0283a, wsj_0283b, wsj_0284, wsj_0286, wsj_0287, wsj_0289, wsj_0290, wsj_0291, wsj_0292, wsj_0293, wsj_0294, wsj_0295, wsj_0296, wsj_0297, wsj_0298, wsj_0299, wsj_0300, wsj_0301, wsj_0302, wsj_0304, wsj_0305, wsj_0306, wsj_0307, wsj_0308, wsj_0310, wsj_0311, wsj_0313, wsj_0315, wsj_0316, wsj_0317, wsj_0318, wsj_0319, wsj_0321, wsj_0322, wsj_0323, wsj_0324, wsj_0325, wsj_0326, wsj_0327, wsj_0328, wsj_0329, wsj_0331, wsj_0332, wsj_0333, wsj_0334, wsj_0335, wsj_0336, wsj_0337, wsj_0338, wsj_0340, wsj_0341, wsj_0342, wsj_0343, wsj_0344, wsj_0345, wsj_0346, wsj_0347, wsj_0348, wsj_0349, wsj_0350, wsj_0351, wsj_0352, wsj_0353, wsj_0354, wsj_0355, wsj_0356, wsj_0357, wsj_0358, wsj_0359, wsj_0361, wsj_0363, wsj_0365, wsj_0367, wsj_0368, wsj_0369, wsj_0370, wsj_0371, wsj_0372, wsj_0373, wsj_0375, wsj_0376, wsj_0377, wsj_0378, wsj_0379, wsj_0380, wsj_0400, wsj_0401, wsj_0402, wsj_0404, wsj_0405, wsj_0407, wsj_0408, wsj_0409, wsj_0412, wsj_0413, wsj_0414, wsj_0415, wsj_0416, wsj_0417, wsj_0418, wsj_0419, wsj_0420, wsj_0421, wsj_0422, wsj_0424, wsj_0427, wsj_0428, wsj_0429, wsj_0430, wsj_0431, wsj_0435, wsj_0436, wsj_0437, wsj_0439, wsj_0440, wsj_0441, wsj_0442, wsj_0443, wsj_0444, wsj_0445, wsj_0446, wsj_0447, wsj_0448, wsj_0449, wsj_0451, wsj_0452, wsj_0453, wsj_0460, wsj_0462, wsj_0464, wsj_0465, wsj_0466, wsj_0467, wsj_0469, wsj_0470, wsj_0471, wsj_0472, wsj_0473, wsj_0475, wsj_0477, wsj_0478, wsj_0479, wsj_0480, wsj_0481, wsj_0482, wsj_0483, wsj_0484, wsj_0485, wsj_0486, wsj_0487, wsj_0488, wsj_0489, wsj_0490, wsj_0491, wsj_0492, wsj_0493, wsj_0494, wsj_0495, wsj_0496, wsj_0497, wsj_0498, wsj_0499, wsj_0500, wsj_0501, wsj_0502, wsj_0503, wsj_0504, wsj_0505, wsj_0507, wsj_0509, wsj_0510, wsj_0512, wsj_0514, wsj_0515, wsj_0516, wsj_0518, wsj_0519, wsj_0520, wsj_0521, wsj_0522, wsj_0523, wsj_0524, wsj_0525, wsj_0527, wsj_0528, wsj_0529, wsj_0530, wsj_0531, wsj_0532, wsj_0533, wsj_0534, wsj_0535, wsj_0536, wsj_0537, wsj_0539, wsj_0540, wsj_0541, wsj_0542, wsj_0544, wsj_0545b (b is missing), wsj_0545a, wsj_0546, wsj_0547, wsj_0548, wsj_0551, wsj_0552, wsj_0554, wsj_0556, wsj_0557, wsj_0558, wsj_0559, wsj_0560, wsj_0563, wsj_0564, wsj_0565, wsj_0566, wsj_0567, wsj_0568, wsj_0569, wsj_0570, wsj_0571, wsj_0572, wsj_0573, wsj_0574, wsj_0575, wsj_0576b, wsj_0577, wsj_0578, wsj_0579, wsj_0581, wsj_0582, wsj_0583, wsj_0584, wsj_0585, wsj_0587, wsj_0588, wsj_0589, wsj_0592, wsj_0593, wsj_0595, wsj_0596, wsj_0597, wsj_0600, wsj_0601, wsj_0604, wsj_0606, wsj_0607, wsj_0610, wsj_0613, wsj_0615, wsj_0616, wsj_0617, wsj_0618, wsj_0619, wsj_0621, wsj_0622, wsj_0624, wsj_0625, wsj_0626, wsj_0627, wsj_0628, wsj_0629, wsj_0630, wsj_0631, wsj_0632, wsj_0633, wsj_0634, wsj_0635, wsj_0636, wsj_0637, wsj_0638, wsj_0639, wsj_0640, wsj_0641, wsj_0642, wsj_0643, wsj_0644, wsj_0645, wsj_0646, wsj_0647, wsj_0648, wsj_0649, wsj_0651, wsj_0652, wsj_0653, wsj_0654, wsj_0656, wsj_0657, wsj_0658, wsj_0659, wsj_0660, wsj_0661, wsj_0662, wsj_0663, wsj_0664, wsj_0665, wsj_0666, wsj_0667, wsj_0668, wsj_0669, wsj_0670, wsj_0671, wsj_0672, wsj_0673, wsj_0674, wsj_0675, wsj_0677, wsj_0679, wsj_0680, wsj_0681, wsj_0682, wsj_0683, wsj_0684, wsj_0686, wsj_0688, wsj_0689, wsj_0690, wsj_0692, wsj_0693, wsj_0695, wsj_0697, wsj_0700, wsj_0701, wsj_0702, wsj_0705, wsj_0706, wsj_0708, wsj_0709, wsj_0712, wsj_0713, wsj_0714, wsj_0717, wsj_0718, wsj_0719, wsj_0722, wsj_0723, wsj_0725, wsj_0726, wsj_0727, wsj_0729, wsj_0730, wsj_0731, wsj_0733, wsj_0734, wsj_0735, wsj_0736, wsj_0737, wsj_0738, wsj_0739, wsj_0740, wsj_0741, wsj_0742, wsj_0743, wsj_0744, wsj_0745, wsj_0746, wsj_0748, wsj_0750, wsj_0751, wsj_0752, wsj_0753, wsj_0754, wsj_0755, wsj_0756, wsj_0758, wsj_0759, wsj_0760, wsj_0761, wsj_0762, wsj_0763, wsj_0764, wsj_0766, wsj_0767, wsj_0768, wsj_0769, wsj_0771, wsj_0773, wsj_0774, wsj_0775, wsj_0776, wsj_0777, wsj_0778, wsj_0779, wsj_0780, wsj_0781, wsj_0782, wsj_0784, wsj_0785, wsj_0786, wsj_0788, wsj_0789, wsj_0791, wsj_0792, wsj_0794, wsj_0795, wsj_0796, wsj_0797, wsj_0798, wsj_0799, wsj_0801, wsj_0802, wsj_0803, wsj_0804, wsj_0805, wsj_0806, wsj_0807, wsj_0809, wsj_0810, wsj_0811, wsj_0812, wsj_0813, ~~wsj_0814~~ (should be replaced by: wsj_0814a,wsj_0814b), wsj_0815, wsj_0816, wsj_0818, wsj_0900, wsj_0902, wsj_0903, wsj_0904, wsj_0905, wsj_0906, wsj_0907, wsj_0908, wsj_0909, wsj_0910, wsj_0912, wsj_0913, wsj_0914, wsj_0915, wsj_0916, wsj_0917, wsj_0918, wsj_0919, wsj_0922, wsj_0923, wsj_0924, wsj_0925, wsj_0926, wsj_0927, wsj_0928, wsj_0929, wsj_0930, wsj_0931, wsj_0932, wsj_0934, wsj_0935, wsj_0936, wsj_0938, wsj_0939, wsj_0940, wsj_0941, wsj_0942, wsj_0943, wsj_0944, wsj_0945, wsj_0946, wsj_0948, wsj_0949, wsj_0950, wsj_0952, wsj_0953, wsj_0954, wsj_0956, wsj_0958, wsj_0959, wsj_0961, wsj_0962, wsj_0963, wsj_0965, wsj_0967, wsj_0968, wsj_0969, wsj_0970, wsj_0971, wsj_0973, wsj_0975, wsj_0977, wsj_0978, wsj_0979, wsj_0981, wsj_0982, wsj_0983, wsj_0987, wsj_0988, wsj_0989, wsj_0990a, wsj_0990b, wsj_0991, wsj_0993, wsj_0994, wsj_0995, wsj_0997, wsj_0999, wsj_1000, wsj_1002, wsj_1003, wsj_1004, wsj_1005, wsj_1006, wsj_1007, wsj_1008, wsj_1010, wsj_1011, wsj_1012, wsj_1013, wsj_1014, wsj_1016, wsj_1018, wsj_1019, wsj_1020, wsj_1021, wsj_1022, wsj_1023, wsj_1024, wsj_1025, wsj_1026, wsj_1027, wsj_1028, wsj_1029, wsj_1030, wsj_1031, wsj_1032, wsj_1033, wsj_1035, wsj_1036, wsj_1037, wsj_1038, wsj_1039, wsj_1040, wsj_1041, wsj_1042, wsj_1043, wsj_1044, wsj_1045, wsj_1046, wsj_1047, wsj_1048, wsj_1049, wsj_1050, wsj_1051, wsj_1052, wsj_1055, wsj_1057, wsj_1058, wsj_1059, wsj_1060, wsj_1061, wsj_1062, wsj_1064, wsj_1065, wsj_1066, wsj_1068, wsj_1069, wsj_1071, wsj_1072, wsj_1073, wsj_1074, wsj_1075, wsj_1076, wsj_1078, wsj_1079, wsj_1080, wsj_1081, wsj_1082, wsj_1083, wsj_1084, wsj_1086, wsj_1089, wsj_1091, wsj_1093, wsj_1096, wsj_1097, wsj_1099, wsj_1100, wsj_1101, wsj_1102, wsj_1103, wsj_1105, wsj_1106, wsj_1108, wsj_1109, wsj_1110, wsj_1111, wsj_1112, wsj_1113, wsj_1117, wsj_1119, wsj_1120, wsj_1121, wsj_1122, wsj_1123, wsj_1124, wsj_1125, wsj_1126, wsj_1127, wsj_1128, wsj_1130, wsj_1131, wsj_1132, wsj_1133, wsj_1134, wsj_1135, wsj_1136, wsj_1137, wsj_1138, wsj_1139, wsj_1140, wsj_1142, wsj_1144, wsj_1145, wsj_1146, wsj_1147, wsj_1148, wsj_1150, wsj_1151, wsj_1153, wsj_1154b, wsj_1155, wsj_1156a, wsj_1157, wsj_1159, wsj_1160, wsj_1162, wsj_1165, wsj_1166, wsj_1167, wsj_1168, wsj_1169, wsj_1170, wsj_1171, wsj_1172, wsj_1173, wsj_1174, wsj_1175, wsj_1176, wsj_1177, wsj_1178, wsj_1179, wsj_1180, wsj_1181, wsj_1182, wsj_1183, wsj_1184, wsj_1185, wsj_1186, wsj_1188, wsj_1190, wsj_1191, wsj_1192, wsj_1193, wsj_1194, wsj_1195, wsj_1196, wsj_1198, wsj_1199, wsj_1200, wsj_1201, wsj_1203, wsj_1204, wsj_1205, wsj_1206, wsj_1207, wsj_1208, wsj_1209, wsj_1210, wsj_1211, wsj_1213, wsj_1214, wsj_1215, wsj_1216, wsj_1217, wsj_1218, wsj_1219, wsj_1220, wsj_1221, wsj_1222, wsj_1223, wsj_1224, wsj_1225, wsj_1226, wsj_1227, wsj_1229, wsj_1230, wsj_1231, wsj_1232, wsj_1233, wsj_1234, wsj_1235, wsj_1236, wsj_1237, wsj_1238, wsj_1239, wsj_1241, wsj_1242, wsj_1243, wsj_1244, wsj_1246, wsj_1248, wsj_1249, wsj_1250a, wsj_1250b, wsj_1251, wsj_1254, wsj_1255, wsj_1257, wsj_1258, wsj_1259, wsj_1261, wsj_1263, wsj_1264, wsj_1265, wsj_1267, wsj_1268, wsj_1269, wsj_1270, wsj_1271, wsj_1273, wsj_1274, wsj_1275, wsj_1276, wsj_1278, wsj_1279, wsj_1280, wsj_1281, wsj_1282, wsj_1283, wsj_1284, wsj_1285, wsj_1286, wsj_1287, wsj_1288, wsj_1289, wsj_1290, wsj_1291, wsj_1292, wsj_1293, wsj_1294, wsj_1295, wsj_1296, wsj_1297, wsj_1298, wsj_1299, wsj_1300, wsj_1301, wsj_1302, wsj_1304, wsj_1305, wsj_1306, wsj_1309, wsj_1310, wsj_1311, wsj_1313, wsj_1314, wsj_1316, wsj_1317, wsj_1318, wsj_1319, wsj_1320, wsj_1321, wsj_1322, wsj_1324, wsj_1325, wsj_1328, wsj_1329, wsj_1330, wsj_1331, wsj_1332, wsj_1333, wsj_1334, wsj_1335, wsj_1336, wsj_1338, wsj_1340, wsj_1341, wsj_1343, wsj_1345, wsj_1346, wsj_1347, wsj_1348, wsj_1350, wsj_1351, wsj_1352, wsj_1353, wsj_1354, wsj_1355, wsj_1356, wsj_1357, wsj_1358, wsj_1359, wsj_1360, wsj_1361, wsj_1362, wsj_1363, wsj_1364, wsj_1365, wsj_1367, wsj_1368, wsj_1369, wsj_1370, wsj_1371, wsj_1372, wsj_1373, wsj_1374, wsj_1375, wsj_1376, wsj_1377, wsj_1379, wsj_1380, wsj_1381, wsj_1383, wsj_1386, wsj_1387, wsj_1390, wsj_1391, wsj_1392, wsj_1394, wsj_1395, wsj_1399, wsj_1403, wsj_1404, wsj_1407, wsj_1408, wsj_1409, wsj_1410, wsj_1414, wsj_1415, wsj_1418, wsj_1419, wsj_1421, wsj_1422, wsj_1423, wsj_1424, wsj_1426, wsj_1428, wsj_1429, wsj_1431, wsj_1432, wsj_1433, wsj_1435, wsj_1437, wsj_1438, wsj_1439, wsj_1440, wsj_1442, wsj_1443, wsj_1445, wsj_1446, wsj_1447, wsj_1448, wsj_1449, wsj_1451, wsj_1453, wsj_1454, wsj_1455, wsj_1456, wsj_1458, wsj_1459, wsj_1460, wsj_1461, wsj_1462, wsj_1463, wsj_1464, wsj_1465, wsj_1466, wsj_1467a, wsj_1467b, wsj_1468, wsj_1469, wsj_1470, wsj_1471, wsj_1472, wsj_1474, wsj_1475, wsj_1476, wsj_1477, wsj_1478, wsj_1479, wsj_1480, wsj_1481, wsj_1483, wsj_1484, wsj_1485, wsj_1486, wsj_1487, wsj_1488, wsj_1489, wsj_1490, wsj_1491, wsj_1492, wsj_1493, wsj_1494, wsj_1496, wsj_1498, wsj_1500, wsj_1501, wsj_1502, wsj_1503, wsj_1508, wsj_1509, wsj_1510, wsj_1511, wsj_1512, wsj_1513, wsj_1514, wsj_1515, wsj_1516, wsj_1517, wsj_1518, wsj_1519, wsj_1521, wsj_1522, wsj_1523, wsj_1524, wsj_1525, wsj_1526, wsj_1527, wsj_1528, wsj_1530, wsj_1531, wsj_1532, wsj_1533, wsj_1534, wsj_1535, wsj_1536, wsj_1537, wsj_1538, wsj_1539, wsj_1540, wsj_1541, wsj_1542, wsj_1543, wsj_1544, wsj_1545, wsj_1546, wsj_1547, wsj_1548, wsj_1549, wsj_1550, wsj_1551, wsj_1552, wsj_1553, wsj_1554, wsj_1555, wsj_1556, wsj_1560, wsj_1561, wsj_1573, wsj_1575, wsj_1577, wsj_1578, wsj_1580, wsj_1581, wsj_1582, wsj_1583, wsj_1584, wsj_1586, wsj_1587, wsj_1589, wsj_1590, wsj_1591, wsj_1592, wsj_1593, wsj_1594, wsj_1595, wsj_1596, wsj_1597, wsj_1598, wsj_1599, wsj_1600, wsj_1601, wsj_1603, wsj_1604, wsj_1606, wsj_1607, wsj_1609, wsj_1610, wsj_1611, wsj_1612, wsj_1613, wsj_1614, wsj_1615, wsj_1616, wsj_1617, wsj_1619, wsj_1620, wsj_1621, wsj_1622, wsj_1624, wsj_1626, wsj_1627, wsj_1629, wsj_1630, wsj_1633, wsj_1634, wsj_1637, wsj_1639, wsj_1640, wsj_1641, wsj_1642, wsj_1644, wsj_1645, wsj_1646, wsj_1648, wsj_1650, wsj_1651, wsj_1652, wsj_1654, wsj_1656, wsj_1657, wsj_1658, wsj_1659, wsj_1660, wsj_1661, wsj_1662, wsj_1663, wsj_1664, wsj_1665, wsj_1666, wsj_1667, wsj_1668, wsj_1669, wsj_1670, wsj_1671, wsj_1672, wsj_1673, wsj_1674, wsj_1675, wsj_1677, wsj_1678, wsj_1679, wsj_1680, wsj_1681, wsj_1682, wsj_1683, wsj_1684, wsj_1686, wsj_1687, wsj_1688, wsj_1689, wsj_1691, wsj_1692, wsj_1693, wsj_1694, wsj_1695, wsj_1696, wsj_1697, wsj_1699, wsj_1701, wsj_1702, wsj_1703, wsj_1704, wsj_1705, wsj_1706, wsj_1707, wsj_1708, wsj_1709, wsj_1710, wsj_1711, wsj_1712, wsj_1713, wsj_1714, wsj_1715, wsj_1717, wsj_1718, wsj_1719, wsj_1720, wsj_1721, wsj_1722, wsj_1724, wsj_1725, wsj_1726, wsj_1727, wsj_1728, wsj_1729, wsj_1730, wsj_1731, wsj_1732, wsj_1733, wsj_1734, wsj_1735, wsj_1736, wsj_1738, wsj_1739, wsj_1740, wsj_1741, wsj_1742, wsj_1743b, wsj_1744, wsj_1746, wsj_1748, wsj_1749, wsj_1750, wsj_1752, wsj_1753, wsj_1754, wsj_1756, wsj_1757, wsj_1759, wsj_1760, wsj_1761, wsj_1762, wsj_1763, wsj_1764, wsj_1765, wsj_1766, wsj_1767, wsj_1768, wsj_1769, wsj_1770, wsj_1773, wsj_1774, wsj_1775, wsj_1776, wsj_1777, wsj_1778, wsj_1779, wsj_1780, wsj_1782, wsj_1783, wsj_1784, wsj_1787, wsj_1788, wsj_1789, wsj_1790, wsj_1791, wsj_1792, wsj_1793, wsj_1794, wsj_1795, wsj_1796, wsj_1799, wsj_1800, wsj_1802, wsj_1803, wsj_1804, wsj_1806, wsj_1808, wsj_1810, wsj_1811, wsj_1812, wsj_1813, wsj_1815, wsj_1816, wsj_1817, wsj_1819, wsj_1820, wsj_1821, wsj_1822, wsj_1823, wsj_1824, wsj_1825, wsj_1826, wsj_1827, wsj_1828, wsj_1829, wsj_1830, wsj_1832, wsj_1833, wsj_1835, wsj_1837, wsj_1840, wsj_1841, wsj_1842, wsj_1843, wsj_1844, wsj_1848, wsj_1850, wsj_1851, wsj_1852, wsj_1853, wsj_1854, wsj_1855, wsj_1856, wsj_1857, wsj_1858, wsj_1859, wsj_1860, wsj_1861, wsj_1862, wsj_1863, wsj_1864, wsj_1865, wsj_1866, wsj_1868, wsj_1870, wsj_1872, wsj_1873, wsj_1874, wsj_1875a, wsj_1875b, wsj_1877, wsj_1878, wsj_1879, wsj_1880, wsj_1881, wsj_1882, wsj_1883, wsj_1884, wsj_1885, wsj_1886, wsj_1887, wsj_1888, wsj_1889, wsj_1890, wsj_1891, wsj_1892, wsj_1893, wsj_1894, wsj_1895, wsj_1896, wsj_1897, wsj_1898, wsj_1899, wsj_1900, wsj_1901, wsj_1902, wsj_1903, wsj_1904, wsj_1905, wsj_1906, wsj_1907, wsj_1908, wsj_1909, wsj_1910, wsj_1911, wsj_1912, wsj_1913, wsj_1914, wsj_1915, wsj_1916, wsj_1917, wsj_1918, wsj_1919, wsj_1920, wsj_1921, wsj_1922, wsj_1923, wsj_1924, wsj_1925, wsj_1926, wsj_1928, wsj_1929, wsj_1930, wsj_1931, wsj_1932, wsj_1934, wsj_1937, wsj_1938, wsj_1939, wsj_1940, wsj_1943, wsj_1944, wsj_1945, wsj_1946, wsj_1948, wsj_1949, wsj_1951, wsj_1953, wsj_1959, wsj_1960, wsj_1962, wsj_1966, wsj_1967, wsj_1968, wsj_1969, wsj_1970, wsj_1971, wsj_1972, wsj_1973, wsj_1975, wsj_1976, wsj_1977, wsj_1978, wsj_1980, wsj_1981, wsj_1982, wsj_1983, wsj_1985, wsj_1987, wsj_1988, wsj_1989, wsj_1990, wsj_1991, wsj_1992, wsj_1994, wsj_1996, wsj_1997, wsj_1998, wsj_1999, wsj_2000, wsj_2001, wsj_2002, wsj_2003, wsj_2004, wsj_2005, wsj_2006, wsj_2007, wsj_2008, wsj_2009, wsj_2010, wsj_2015, wsj_2016, wsj_2017, wsj_2018, wsj_2019, wsj_2020, wsj_2022, wsj_2023, wsj_2024, wsj_2025, wsj_2026, wsj_2027, wsj_2028, wsj_2030, wsj_2031, wsj_2032, wsj_2033, wsj_2034, wsj_2036, wsj_2037, wsj_2039, wsj_2040, wsj_2041, wsj_2042, wsj_2043, wsj_2044, wsj_2045, wsj_2046, wsj_2048, wsj_2049, wsj_2051, wsj_2052, wsj_2055a, wsj_2055b, wsj_2056, wsj_2057, wsj_2058, wsj_2059, wsj_2060, wsj_2061, wsj_2062, wsj_2063, wsj_2064, wsj_2065, wsj_2066, wsj_2067, wsj_2068, wsj_2069, wsj_2070, wsj_2071, wsj_2072, wsj_2073, wsj_2074, wsj_2075, wsj_2076, wsj_2077, wsj_2078, wsj_2079, wsj_2080, wsj_2081, wsj_2082, wsj_2083, wsj_2084, wsj_2085, wsj_2086, wsj_2087, wsj_2088, wsj_2089, wsj_2091, wsj_2092, wsj_2093, wsj_2094, wsj_2095, wsj_2096, wsj_2098, wsj_2099, wsj_2100, wsj_2101, wsj_2102, wsj_2103, wsj_2104, wsj_2105, wsj_2107, wsj_2109, wsj_2110, wsj_2111, wsj_2112, wsj_2113, wsj_2115, wsj_2116, wsj_2118, wsj_2119, wsj_2120, wsj_2121, wsj_2123, wsj_2124, wsj_2125, wsj_2126, wsj_2127, wsj_2128, wsj_2129, wsj_2130, wsj_2131, wsj_2132, wsj_2133, wsj_2135, wsj_2136a, wsj_2136b, wsj_2138, wsj_2140, wsj_2141, wsj_2142, wsj_2143, wsj_2145, wsj_2146, wsj_2148, wsj_2150, wsj_2151, wsj_2152, wsj_2153, wsj_2154, wsj_2155, wsj_2156, wsj_2157, wsj_2158, wsj_2159, wsj_2160, wsj_2161, wsj_2162, wsj_2163, wsj_2164, wsj_2165, wsj_2166, wsj_2167, wsj_2168, wsj_2169, wsj_2172, wsj_2200, wsj_2201, wsj_2203, wsj_2205, wsj_2207, wsj_2208, wsj_2209, wsj_2210, wsj_2211, wsj_2212, wsj_2213, wsj_2214, wsj_2216, wsj_2218, wsj_2219, wsj_2221, wsj_2222, wsj_2223, wsj_2224, wsj_2225, wsj_2226, wsj_2227, wsj_2228, wsj_2229, wsj_2232, wsj_2234, wsj_2235, wsj_2238, wsj_2239, wsj_2240, wsj_2241, wsj_2242, wsj_2243, wsj_2244, wsj_2245, wsj_2246, wsj_2247, wsj_2248, wsj_2249, wsj_2250, wsj_2251, wsj_2252, wsj_2253, wsj_2254, wsj_2255, wsj_2256, wsj_2258, wsj_2259, wsj_2260, wsj_2261, wsj_2262, wsj_2265, wsj_2266, wsj_2267, wsj_2268, wsj_2269, wsj_2270, wsj_2271, wsj_2272, wsj_2273, wsj_2274, wsj_2275, wsj_2276, wsj_2277, wsj_2278, wsj_2280, wsj_2281, wsj_2300, wsj_2302, wsj_2303, wsj_2305, wsj_2306, wsj_2308, wsj_2309, wsj_2310, wsj_2313, wsj_2314, wsj_2315, wsj_2317, wsj_2319, wsj_2320, wsj_2321, wsj_2322, wsj_2323, wsj_2324, wsj_2325, wsj_2326, wsj_2327, wsj_2328, wsj_2329, wsj_2330, wsj_2331, wsj_2332, wsj_2333, wsj_2334, wsj_2335, wsj_2336, wsj_2337, wsj_2338, wsj_2339, wsj_2340, wsj_2341, wsj_2342, wsj_2344, wsj_2345, wsj_2346a, wsj_2346b, wsj_2347, wsj_2348, wsj_2350, wsj_2351, wsj_2353, wsj_2354, wsj_2355, wsj_2356, wsj_2357, wsj_2358, wsj_2359, wsj_2360, wsj_2361, wsj_2362, wsj_2363, wsj_2364, wsj_2365, wsj_2366, wsj_2367, wsj_2370, wsj_2371, wsj_2375, wsj_2376, wsj_2378, wsj_2379, wsj_2381, wsj_2382, wsj_2383, wsj_2386, wsj_2387, wsj_2391, wsj_2392, wsj_2393, wsj_2394, wsj_2395, wsj_2396, wsj_2398, wsj_2400, wsj_2403, wsj_2404, wsj_2405, wsj_2406, wsj_2407, wsj_2408, wsj_2409, wsj_2410, wsj_2411, wsj_2412, wsj_2413, wsj_2414, wsj_2415, wsj_2416, wsj_2417a, wsj_2417b, wsj_2418, wsj_2419, wsj_2420, wsj_2421, wsj_2422, wsj_2423, wsj_2424, wsj_2425, wsj_2426, wsj_2427, wsj_2428, wsj_2430, wsj_2431, wsj_2432, wsj_2433, wsj_2434, wsj_2435, wsj_2436, wsj_2437, wsj_2438, wsj_2439, wsj_2440, wsj_2441, wsj_2442, wsj_2443, wsj_2445, wsj_2446, wsj_2447, wsj_2448, wsj_2449, wsj_2450, wsj_2451, wsj_2452, wsj_2453, wsj_2454,
Wit and short verse, comprising those files with HL= Pepper...and Salt
wsj_0139, wsj_0312, wsj_0594, wsj_0403, wsj_0757, wsj_1054, wsj_1212, wsj_1252, wsj_1398, wsj_1758, wsj_1798, wsj_2038, wsj_2215, wsj_2401, (wsj_2497 --> is not in PDTB)
Quarterly progress reports, comprises multiple copies of the file wsj_0190 (because the distinguishing company listings have been omitted). The file has heading HL=Quarterly Earnings Surprises
wsj_0190, wsj_0364, wsj_0511, wsj_0696, wsj_1056, wsj_1228, wsj_1382, wsj_1557, wsj_1558, wsj_1941, wsj_2114, (wsj_2458 --> is not in PDTB)
Notable & Quotable, comprising those files with HL= Notable & Quotable (there was one more DOCID, namely 891013-0085, but this file is not in the mapping, i.e. not in the PTB/PDTB, and thus was ignored)
wsj_0362, wsj_1141, wsj_1452, wsj_1685, wsj_1839, wsj_2217 (they were listed as news in Part I but actually form a new class)

Note: file wsj_1809 should be split in two, even though it's not mentioned in the "dual" mapping file. The second part (b) just contains one sentence -- ignore (because the original tipster filed contained a list of books but that was ignored in the annotation). mapping wsj/tipsterDOCNO: wsj_1089 891019-0135 + 891019-0134.

Overview files:

II.errata: 25
II.essays: 166
II.highlights: 41
II.letters: 59
II.news: 1855
wit and short verse: 14 (+ 1; not in PDTB)
quarterly progress reports: 11 (+1; not in PDTB)
notable & quotable: 6
---
total genre annotated: ~~2146~~ + 6 + 14 + 11 = 2177 + 2 (not in PDTB)

total PT wsj files (original mrg files): 2312
total PT wsj files after split in a/b files: 2331 (19 files split)
rest: 2331 - 2177 = 154 files (remaining files that are not in the PDTB and hence not annotated) - 2 (annotated) = 152

Note: wsj_1259 and wsj_1862 do point to the same tipster doc 891024-0126. However, one of them contains one line more plus their syntactic annotation differs. Hence, ignore them. This means we have 2175 remaining genre annotated files. Moreover, if we ignore the 10 copies of file wsj_0190 (quarterly profit reports), we are left with 2165 genre annotated files.

Those 154 (153 + 1) files are not in the Penn discourse treeebank (see list here: files-not-in-pdtb.txt) -- 153 files mentioned by Bonnie in ACL 2009 paper plus one file: wsj_1809b -- the strange one sentence file mentioned above.

remaining-files.txt (now all annotated)
Makefile to get split of 19 WSJ files into a/b parts.