DbCreator.js 17 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520
  1. const fs = require('fs-extra');
  2. const InpxParser = require('./InpxParser');
  3. const InpxHashCreator = require('./InpxHashCreator');
  4. const utils = require('./utils');
  5. const emptyFieldValue = '?';
  6. class DbCreator {
  7. constructor(config) {
  8. this.config = config;
  9. }
  10. async loadInpxFilter() {
  11. const inpxFilterFile = this.config.inpxFilterFile;
  12. if (await fs.pathExists(inpxFilterFile)) {
  13. let filter = await fs.readFile(inpxFilterFile, 'utf8');
  14. filter = JSON.parse(filter);
  15. if (filter.includeAuthors) {
  16. filter.includeAuthors = filter.includeAuthors.map(a => a.toLowerCase());
  17. filter.includeSet = new Set(filter.includeAuthors);
  18. }
  19. if (filter.excludeAuthors) {
  20. filter.excludeAuthors = filter.excludeAuthors.map(a => a.toLowerCase());
  21. filter.excludeSet = new Set(filter.excludeAuthors);
  22. }
  23. return filter;
  24. } else {
  25. return false;
  26. }
  27. }
  28. //процедура формировани БД несколько усложнена, в целях экономии памяти
  29. async run(db, callback) {
  30. const config = this.config;
  31. callback({jobStepCount: 5});
  32. callback({job: 'load inpx', jobMessage: 'Загрузка INPX', jobStep: 1, progress: 0});
  33. //временная таблица
  34. await db.create({
  35. table: 'book',
  36. cacheSize: (config.lowMemoryMode ? 5 : 500),
  37. });
  38. //поисковые таблицы, позже сохраним в БД
  39. let authorMap = new Map();//авторы
  40. let authorArr = [];
  41. let seriesMap = new Map();//серии
  42. let seriesArr = [];
  43. let titleMap = new Map();//названия
  44. let titleArr = [];
  45. let genreMap = new Map();//жанры
  46. let genreArr = [];
  47. let langMap = new Map();//языки
  48. let langArr = [];
  49. //stats
  50. let authorCount = 0;
  51. let bookCount = 0;
  52. let noAuthorBookCount = 0;
  53. let bookDelCount = 0;
  54. //stuff
  55. let recsLoaded = 0;
  56. callback({recsLoaded});
  57. let chunkNum = 0;
  58. //фильтр по авторам
  59. const inpxFilter = await this.loadInpxFilter();
  60. let filterAuthor = () => true;
  61. if (inpxFilter) {
  62. filterAuthor = (author) => {
  63. if (!author)
  64. author = emptyFieldValue;
  65. author = author.toLowerCase();
  66. let excluded = false;
  67. if (inpxFilter.excludeSet) {
  68. const authors = author.split(',');
  69. for (const a of authors) {
  70. if (inpxFilter.excludeSet.has(a)) {
  71. excluded = true;
  72. break;
  73. }
  74. }
  75. }
  76. return (!inpxFilter.includeSet || inpxFilter.includeSet.has(author)) && !excluded
  77. ;
  78. };
  79. }
  80. //вспомогательные функции
  81. const splitAuthor = (author) => {
  82. if (!author)
  83. author = emptyFieldValue;
  84. const result = author.split(',');
  85. if (result.length > 1)
  86. result.push(author);
  87. return result;
  88. }
  89. let totalFiles = 0;
  90. const readFileCallback = async(readState) => {
  91. callback(readState);
  92. if (readState.totalFiles)
  93. totalFiles = readState.totalFiles;
  94. if (totalFiles)
  95. callback({progress: (readState.current || 0)/totalFiles});
  96. };
  97. let id = 0;
  98. const parsedCallback = async(chunk) => {
  99. let filtered = false;
  100. for (const rec of chunk) {
  101. //сначала фильтр по авторам
  102. if (!filterAuthor(rec.author)) {
  103. rec.id = 0;
  104. filtered = true;
  105. continue;
  106. }
  107. rec.id = ++id;
  108. if (!rec.del) {
  109. bookCount++;
  110. if (!rec.author)
  111. noAuthorBookCount++;
  112. } else {
  113. bookDelCount++;
  114. }
  115. //авторы
  116. const author = splitAuthor(rec.author);
  117. for (let i = 0; i < author.length; i++) {
  118. const a = author[i];
  119. const value = a.toLowerCase();
  120. let authorRec;
  121. if (authorMap.has(value)) {
  122. const authorTmpId = authorMap.get(value);
  123. authorRec = authorArr[authorTmpId];
  124. } else {
  125. authorRec = {tmpId: authorArr.length, author: a, value, bookCount: 0, bookDelCount: 0, bookId: []};
  126. authorArr.push(authorRec);
  127. authorMap.set(value, authorRec.tmpId);
  128. if (author.length == 1 || i < author.length - 1) //без соавторов
  129. authorCount++;
  130. }
  131. //это нужно для того, чтобы имя автора начиналось с заглавной
  132. if (a[0].toUpperCase() === a[0])
  133. authorRec.author = a;
  134. //счетчики
  135. if (!rec.del) {
  136. authorRec.bookCount++;
  137. } else {
  138. authorRec.bookDelCount++;
  139. }
  140. //ссылки на книги
  141. authorRec.bookId.push(id);
  142. }
  143. }
  144. let saveChunk = [];
  145. if (filtered) {
  146. saveChunk = chunk.filter(r => r.id);
  147. } else {
  148. saveChunk = chunk;
  149. }
  150. await db.insert({table: 'book', rows: saveChunk});
  151. recsLoaded += chunk.length;
  152. callback({recsLoaded});
  153. if (chunkNum++ % 10 == 0 && config.lowMemoryMode)
  154. utils.freeMemory();
  155. };
  156. //парсинг 1
  157. const parser = new InpxParser();
  158. await parser.parse(config.inpxFile, readFileCallback, parsedCallback);
  159. utils.freeMemory();
  160. //отсортируем авторов и выдадим им правильные id
  161. //порядок id соответствует ASC-сортировке по author.toLowerCase
  162. callback({job: 'author sort', jobMessage: 'Сортировка авторов', jobStep: 2, progress: 0});
  163. await utils.sleep(100);
  164. authorArr.sort((a, b) => a.value.localeCompare(b.value));
  165. id = 0;
  166. authorMap = new Map();
  167. for (const authorRec of authorArr) {
  168. authorRec.id = ++id;
  169. authorMap.set(authorRec.author, id);
  170. delete authorRec.tmpId;
  171. }
  172. utils.freeMemory();
  173. //подготовка к сохранению author_book
  174. const saveBookChunk = async(authorChunk, callback) => {
  175. callback(0);
  176. const ids = [];
  177. for (const a of authorChunk) {
  178. for (const id of a.bookId) {
  179. ids.push(id);
  180. }
  181. }
  182. ids.sort();// обязательно, иначе будет тормозить - особенности JembaDb
  183. callback(0.1);
  184. const rows = await db.select({table: 'book', where: `@@id(${db.esc(ids)})`});
  185. callback(0.6);
  186. await utils.sleep(100);
  187. const bookArr = new Map();
  188. for (const row of rows)
  189. bookArr.set(row.id, row);
  190. const abRows = [];
  191. for (const a of authorChunk) {
  192. const aBooks = [];
  193. for (const id of a.bookId) {
  194. const rec = bookArr.get(id);
  195. aBooks.push(rec);
  196. }
  197. abRows.push({id: a.id, author: a.author, books: JSON.stringify(aBooks)});
  198. delete a.bookId;//в дальнейшем не понадобится, authorArr сохраняем без него
  199. }
  200. callback(0.7);
  201. await db.insert({
  202. table: 'author_book',
  203. rows: abRows,
  204. });
  205. callback(1);
  206. };
  207. callback({job: 'book sort', jobMessage: 'Сортировка книг', jobStep: 3, progress: 0});
  208. //сохранение author_book
  209. await db.create({
  210. table: 'author_book',
  211. });
  212. let idsLen = 0;
  213. let aChunk = [];
  214. let prevI = 0;
  215. for (let i = 0; i < authorArr.length; i++) {// eslint-disable-line
  216. const author = authorArr[i];
  217. aChunk.push(author);
  218. idsLen += author.bookId.length;
  219. if (idsLen > 50000) {//константа выяснена эмпирическим путем "память/скорость"
  220. await saveBookChunk(aChunk, (p) => {
  221. callback({progress: (prevI + (i - prevI)*p)/authorArr.length});
  222. });
  223. prevI = i;
  224. idsLen = 0;
  225. aChunk = [];
  226. await utils.sleep(100);
  227. utils.freeMemory();
  228. await db.freeMemory();
  229. }
  230. }
  231. if (aChunk.length) {
  232. await saveBookChunk(aChunk, () => {});
  233. aChunk = null;
  234. }
  235. callback({progress: 1});
  236. //чистка памяти, ибо жрет как не в себя
  237. await db.drop({table: 'book'});
  238. await db.freeMemory();
  239. utils.freeMemory();
  240. //парсинг 2, подготовка
  241. const parseField = (fieldValue, fieldMap, fieldArr, authorIds) => {
  242. if (!fieldValue)
  243. fieldValue = emptyFieldValue;
  244. const value = fieldValue.toLowerCase();
  245. let fieldRec;
  246. if (fieldMap.has(value)) {
  247. const fieldId = fieldMap.get(value);
  248. fieldRec = fieldArr[fieldId];
  249. } else {
  250. fieldRec = {id: fieldArr.length, value, authorId: new Set()};
  251. fieldArr.push(fieldRec);
  252. fieldMap.set(value, fieldRec.id);
  253. }
  254. for (const id of authorIds) {
  255. fieldRec.authorId.add(id);
  256. }
  257. };
  258. const parseBookRec = (rec) => {
  259. //авторы
  260. const author = splitAuthor(rec.author);
  261. const authorIds = [];
  262. for (const a of author) {
  263. const authorId = authorMap.get(a);
  264. if (!authorId) //подстраховка
  265. continue;
  266. authorIds.push(authorId);
  267. }
  268. //серии
  269. parseField(rec.series, seriesMap, seriesArr, authorIds);
  270. //названия
  271. parseField(rec.title, titleMap, titleArr, authorIds);
  272. //жанры
  273. let genre = rec.genre || emptyFieldValue;
  274. genre = rec.genre.split(',');
  275. for (let g of genre) {
  276. if (!g)
  277. g = emptyFieldValue;
  278. let genreRec;
  279. if (genreMap.has(g)) {
  280. const genreId = genreMap.get(g);
  281. genreRec = genreArr[genreId];
  282. } else {
  283. genreRec = {id: genreArr.length, value: g, authorId: new Set()};
  284. genreArr.push(genreRec);
  285. genreMap.set(g, genreRec.id);
  286. }
  287. for (const id of authorIds) {
  288. genreRec.authorId.add(id);
  289. }
  290. }
  291. //языки
  292. parseField(rec.lang, langMap, langArr, authorIds);
  293. };
  294. callback({job: 'search tables create', jobMessage: 'Создание поисковых таблиц', jobStep: 4, progress: 0});
  295. //парсинг 2, теперь можно создавать остальные поисковые таблицы
  296. let proc = 0;
  297. while (1) {// eslint-disable-line
  298. const rows = await db.select({
  299. table: 'author_book',
  300. where: `
  301. let iter = @getItem('parse_book');
  302. if (!iter) {
  303. iter = @all();
  304. @setItem('parse_book', iter);
  305. }
  306. const ids = new Set();
  307. let id = iter.next();
  308. while (!id.done) {
  309. ids.add(id.value);
  310. if (ids.size >= 10000)
  311. break;
  312. id = iter.next();
  313. }
  314. return ids;
  315. `
  316. });
  317. if (rows.length) {
  318. for (const row of rows) {
  319. const books = JSON.parse(row.books);
  320. for (const rec of books)
  321. parseBookRec(rec);
  322. }
  323. proc += rows.length;
  324. callback({progress: proc/authorArr.length});
  325. } else
  326. break;
  327. await utils.sleep(100);
  328. if (config.lowMemoryMode) {
  329. utils.freeMemory();
  330. await db.freeMemory();
  331. }
  332. }
  333. //чистка памяти, ибо жрет как не в себя
  334. authorMap = null;
  335. seriesMap = null;
  336. titleMap = null;
  337. genreMap = null;
  338. utils.freeMemory();
  339. //config
  340. callback({job: 'config save', jobMessage: 'Сохранение конфигурации', jobStep: 5, progress: 0});
  341. await db.create({
  342. table: 'config'
  343. });
  344. const stats = {
  345. recsLoaded,
  346. authorCount,
  347. authorCountAll: authorArr.length,
  348. bookCount,
  349. bookCountAll: bookCount + bookDelCount,
  350. bookDelCount,
  351. noAuthorBookCount,
  352. titleCount: titleArr.length,
  353. seriesCount: seriesArr.length,
  354. genreCount: genreArr.length,
  355. langCount: langArr.length,
  356. };
  357. //console.log(stats);
  358. const inpxHashCreator = new InpxHashCreator(config);
  359. await db.insert({table: 'config', rows: [
  360. {id: 'inpxInfo', value: (inpxFilter && inpxFilter.info ? inpxFilter.info : parser.info)},
  361. {id: 'stats', value: stats},
  362. {id: 'inpxHash', value: await inpxHashCreator.getHash()},
  363. ]});
  364. //сохраним поисковые таблицы
  365. const chunkSize = 10000;
  366. const saveTable = async(table, arr, nullArr, authorIdToArray = true) => {
  367. arr.sort((a, b) => a.value.localeCompare(b.value));
  368. await db.create({
  369. table,
  370. index: {field: 'value', unique: true, depth: 1000000},
  371. });
  372. //вставка в БД по кусочкам, экономим память
  373. for (let i = 0; i < arr.length; i += chunkSize) {
  374. const chunk = arr.slice(i, i + chunkSize);
  375. if (authorIdToArray) {
  376. for (const rec of chunk)
  377. rec.authorId = Array.from(rec.authorId);
  378. }
  379. await db.insert({table, rows: chunk});
  380. if (i % 5 == 0) {
  381. await db.freeMemory();
  382. await utils.sleep(100);
  383. }
  384. callback({progress: i/arr.length});
  385. }
  386. nullArr();
  387. await db.close({table});
  388. utils.freeMemory();
  389. await db.freeMemory();
  390. };
  391. //author
  392. callback({job: 'author save', jobMessage: 'Сохранение индекса авторов', jobStep: 6, progress: 0});
  393. await saveTable('author', authorArr, () => {authorArr = null}, false);
  394. //series
  395. callback({job: 'series save', jobMessage: 'Сохранение индекса серий', jobStep: 7, progress: 0});
  396. await saveTable('series', seriesArr, () => {seriesArr = null});
  397. //title
  398. callback({job: 'title save', jobMessage: 'Сохранение индекса названий', jobStep: 8, progress: 0});
  399. await saveTable('title', titleArr, () => {titleArr = null});
  400. //genre
  401. callback({job: 'genre save', jobMessage: 'Сохранение индекса жанров', jobStep: 9, progress: 0});
  402. await saveTable('genre', genreArr, () => {genreArr = null});
  403. //lang
  404. callback({job: 'lang save', jobMessage: 'Сохранение индекса языков', jobStep: 10, progress: 0});
  405. await saveTable('lang', langArr, () => {langArr = null});
  406. //кэш-таблицы запросов
  407. await db.create({table: 'query_cache'});
  408. await db.create({table: 'query_time'});
  409. //кэш-таблица имен файлов и их хешей
  410. await db.create({table: 'file_hash'});
  411. callback({job: 'done', jobMessage: ''});
  412. }
  413. }
  414. module.exports = DbCreator;