openneuro-wiki/openneuro_wiki/scratch.py

import pdb
import re

import frontmatter
import marko
from marko.block import Heading

from openneuro_wiki.parse import ON_Repo
import pandas as pd

def parse_all_files(files):
    out = []
    for file in files:
        with open(file, 'r') as ofile:
            text = ofile.read()
        fm = frontmatter.loads(text)
        md = marko.parse(fm.content)
        out.append({'metadata':fm.metadata, 'content':md})
    return out

def count_fields(parsed):
    df = pd.DataFrame([p['metadata'] for p in parsed])
    return df.notna().sum()

def unpack_children(block):
    # pdb.set_trace()
    if hasattr(block, 'children'):
        if isinstance(block.children, str):
            return block.children
        else:
            for child in block.children:
                return unpack_children(child)
    else:
        return block

def unique_headers(parsed):
    headers = []
    for fulldoc in parsed:
        doc = fulldoc['content']
        for block in doc.children:
            if isinstance(block, Heading):
                headers.append({'header':unpack_children(block)})

    return pd.DataFrame(headers)

def get_md_type(doc:marko.block.Document, get:str):
    matches = []
    if hasattr(doc, 'children'):
        for child in doc.children:
            if type(child).__name__ == get:
                matches.append(child)
            if hasattr(child, 'children'):
                matches.extend(get_md_type(child, get))
    return matches


pattern = re.compile(r"(?<=Project Author\(s\)\n).*", re.MULTILINE)
pattern.findall(md)
initial post parser 2022-10-30 23:34:31 +00:00			`import pdb`
			`import re`

			`import frontmatter`
			`import marko`
			`from marko.block import Heading`

			`from openneuro_wiki.parse import ON_Repo`
			`import pandas as pd`

			`def parse_all_files(files):`
			`out = []`
			`for file in files:`
			`with open(file, 'r') as ofile:`
			`text = ofile.read()`
			`fm = frontmatter.loads(text)`
			`md = marko.parse(fm.content)`
			`out.append({'metadata':fm.metadata, 'content':md})`
			`return out`

			`def count_fields(parsed):`
			`df = pd.DataFrame([p['metadata'] for p in parsed])`
			`return df.notna().sum()`

			`def unpack_children(block):`
			`# pdb.set_trace()`
			`if hasattr(block, 'children'):`
			`if isinstance(block.children, str):`
			`return block.children`
			`else:`
			`for child in block.children:`
			`return unpack_children(child)`
			`else:`
			`return block`

			`def unique_headers(parsed):`
			`headers = []`
			`for fulldoc in parsed:`
			`doc = fulldoc['content']`
			`for block in doc.children:`
			`if isinstance(block, Heading):`
			`headers.append({'header':unpack_children(block)})`

			`return pd.DataFrame(headers)`

			`def get_md_type(doc:marko.block.Document, get:str):`
			`matches = []`
			`if hasattr(doc, 'children'):`
			`for child in doc.children:`
			`if type(child).__name__ == get:`
			`matches.append(child)`
			`if hasattr(child, 'children'):`
			`matches.extend(get_md_type(child, get))`
			`return matches`


			`pattern = re.compile(r"(?<=Project Author\(s\)\n).*", re.MULTILINE)`
			`pattern.findall(md)`